商品明细提取HTML的img数据python


  • excel 两列数据:product_code,product_detail
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
import pandas as pd
from bs4 import BeautifulSoup

# 读取原始 Excel 文件
df = pd.read_excel('C:/Users/xxx/Desktop/product_detail0711.xlsx')


# 将 'product_detail' 列中的空值和浮点数值转换为字符串类型
df['product_detail'] = df['product_detail'].fillna('').astype(str)

# 新建存储结果的 DataFrame
result_df = pd.DataFrame(columns=['商品编码', '图片序号', '图片链接'])

# 创建空列表存储所有行的数据
data = []

# 遍历每一行数据
for index, row in df.iterrows():
# 提取商品详情页 HTML 内容
html_content = row['product_detail']

# 使用 BeautifulSoup 解析 HTML
soup = BeautifulSoup(html_content, 'html.parser')

# 提取 img 标签
img_tags = soup.find_all('img')

# 遍历每个 img 标签
for i, img_tag in enumerate(img_tags):
# 提取图片链接
img_url = img_tag['src']

# 创建字典存储当前行的数据
row_data = {
'商品编码': row['product_code'],
'图片序号': i + 1,
'图片链接': img_url
}

# 将当前行的数据添加到列表中
data.append(row_data)


# 使用pd.DataFrame()创建DataFrame对象
result_df = pd.DataFrame(data)

# 将结果保存到新的 Excel 文件
result_df.to_excel('C:/Users/xxx/Desktop/product_detail_result0711-xqt.xlsx', index=False)

文章作者: 洛神葵
版权声明: 本博客所有文章除注明转载外均为原创,采用 CC BY-NC-ND 4.0 许可协议。不得用于商业用途,转载请注明来源 洛神葵 !
  目录