一、方案概述
本文提供兩種爬取天貓商品數據的技術方案,并引入優化數據處理流程:
官方API方案:合法合規,需企業資質,推薦長期穩定使用
非官方接口方案:適合快速驗證需求,需技術對抗反爬機制
二、官方API方案詳解
1. 天貓開放平臺接口
適用場景:企業級數據采集需求
接口優勢:
數據完整度高(含商品詳情、價格、評論等)
支持分頁和批量查詢
開發步驟:
注冊開發者賬號:open.taobao.com
申請接口權限:
taobao.item.get:商品詳情
taobao.items.search:商品搜索
安裝SDK:
pip install alibabacloud-python-sdk-core
簽名請求示例:
from alibabacloud_tea_openapi import models as open_api_models
from alibabacloud_tbk_dg import models as tbk_dg_models
from alibabacloud_tbk_dg.client import Client
config = open_api_models.Config(
app_key="your_app_key",
app_secret="your_app_secret",
region_id="cn-hangzhou"
)
client = Client(config)
request = tbk_dg_models.TbkItemInfoGetRequest(
num_iid=654321 # 商品ID
)
response = client.tbk_item_info_get(request)
print(response.body)
電商數據集成平臺的優勢
API管理:電商數據集成平臺提供強大的API管理功能,可輕松實現接口的監控、限流和版本控制,確保官方API的穩定調用。
數據處理:平臺支持對API返回數據的實時處理和轉換,方便后續的數據分析和存儲。
三、非官方接口實戰
1. 接口逆向分析
核心API:
GET https://h5api.m.taobao.com/h5/mtop.taobao.detail.getdetail/6.0/
參數構造:
{
"itemNumId": "654321",
"isForbidBuyItem": false,
"isForbidPromotion": false,
"sellerId": "123456"
}
關鍵參數說明:
參數名 作用 生成方式
sign 簽名驗證 JS逆向生成(需解密)
t 時間戳 當前時間戳(秒級)
User-Agent 瀏覽器指紋 隨機生成(如iOS/Android)
2. Python實現示例
import requests
import execjs
# JS解密邏輯(需根據實際逆向代碼調整)
with open('sign.js', 'r') as f:
sign_js = f.read()
ctx = execjs.compile(sign_js)
sign = ctx.call('generate_sign', params)
headers = {
'User-Agent': 'Mozilla/5.0 (iPhone; CPU iPhone OS 14_6 like Mac OS X) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/14.1.1 Mobile/15E148 Safari/604.1',
'Cookie': 't=your_cookie; cna=xxx;'
}
url = f'https://h5api.m.taobao.com/h5/mtop.taobao.detail.getdetail/6.0/?sign={sign}&data={data}'
response = requests.get(url, headers=headers)
print(response.json())
電商數據集成平臺的應用
接口管理:集成平臺可對非官方接口進行統一管理,包括接口的調用頻率監控和異常告警,提高爬取的穩定性。
數據清洗:平臺提供數據清洗功能,可對爬取到的原始數據進行預處理,去除無效信息,提高數據質量。
四、反反爬策略
1. 動態參數對抗
sign參數:定期更新解密邏輯
t參數:每次請求生成新時間戳
User-Agent:使用fake_useragent輪換
2. 代理池方案
from requests_rotating_proxy import RotatingProxyManager
proxy_manager = RotatingProxyManager([
'http://user:pass@proxy1.com:8080',
'http://user:pass@proxy2.com:8080'
])
response = requests.get(url, proxies=proxy_manager.get_proxy())
3. 行為模擬
import time
import random
# 隨機延遲(0.5-2秒)
time.sleep(random.uniform(0.5, 2.0))
# 模擬真實用戶行為
# 可結合selenium/playwright添加鼠標移動、點擊等操作
電商數據集成平臺的優化
代理管理:集成平臺支持代理池的集成和管理,可自動切換有效代理,提高爬取的成功率。
行為模擬:平臺提供行為模擬工具,可自定義爬取過程中的用戶行為模式,降低被反爬的風險。
五、數據解析與存儲
1. 核心字段提取
data = response.json()
item_info = {
'商品ID': data['itemNumId'],
'標題': data['title'],
'價格': data['price']['viewPrice'],
'銷量': data['soldQuantity'],
'評論數': data['reviewCount']
}
2. 存儲方案
結構化存儲:MySQL/PostgreSQL
分布式存儲:HBase/Elasticsearch
臨時緩存:Redis(存儲已爬取商品ID)
集成平臺的數據處理
數據存儲:集成平臺支持多種存儲方式的集成,可方便地將解析后的數據存儲到合適的數據庫中。
數據關聯:平臺提供數據關聯功能,可將爬取的數據與其他業務數據進行整合,為后續的分析提供更全面的數據支持。
六、注意事項
法律合規:
遵守《電子商務法》第24條用戶信息保護規定
避免爬取用戶隱私數據(如收貨地址)
反爬對抗:
定期更新JS解密邏輯
使用分布式高匿代理(推薦Bright Data)
性能優化:
異步請求(aiohttp+asyncio)
結果緩存(Redis LRU策略)
輕易云集成平臺的合規與優化
合規性:集成平臺遵循相關法律法規,確保數據爬取和處理過程的合法性。
性能優化:平臺提供性能優化工具,如異步請求支持和緩存策略配置,提高爬取和數據處理的效率。
七、擴展應用場景
商品比價監控:定時獲取價格波動數據
競品分析:監控同類商品銷量、評價
庫存預警:監聽stockQuantity字段變化
評論情感分析:結合NLP處理用戶評價