商品明细提取HTML的img数据python

python

发布日期: 2025-03-03

更新日期: 2025-03-03

文章字数: 242

阅读时长: 1 分

阅读次数: 0

excel 两列数据：product_code,product_detail

import pandas as pd
from bs4 import BeautifulSoup

# 读取原始 Excel 文件
df = pd.read_excel('C:/Users/xxx/Desktop/product_detail0711.xlsx')


# 将 'product_detail' 列中的空值和浮点数值转换为字符串类型
df['product_detail'] = df['product_detail'].fillna('').astype(str)

# 新建存储结果的 DataFrame
result_df = pd.DataFrame(columns=['商品编码', '图片序号', '图片链接'])

# 创建空列表存储所有行的数据
data = []

# 遍历每一行数据
for index, row in df.iterrows():
    # 提取商品详情页 HTML 内容
    html_content = row['product_detail']
    
    # 使用 BeautifulSoup 解析 HTML
    soup = BeautifulSoup(html_content, 'html.parser')
    
    # 提取 img 标签
    img_tags = soup.find_all('img')
    
    # 遍历每个 img 标签
    for i, img_tag in enumerate(img_tags):
        # 提取图片链接
        img_url = img_tag['src']
        
        # 创建字典存储当前行的数据
        row_data = {
            '商品编码': row['product_code'],
            '图片序号': i + 1,
            '图片链接': img_url
        }
        
        # 将当前行的数据添加到列表中
        data.append(row_data)
 

# 使用pd.DataFrame()创建DataFrame对象
result_df = pd.DataFrame(data)

# 将结果保存到新的 Excel 文件
result_df.to_excel('C:/Users/xxx/Desktop/product_detail_result0711-xqt.xlsx', index=False)