已经太久远了,不再维护了。
本人开了新库,使用Golang语言, 更多精彩请移动到https://github.com/hunterhug/GoTaoBao, 更多参考:一只尼玛博客园
仍然能跑,2017/6。
一个抓取淘宝的Python爬虫
---------------------------------------------------------
一个抓取淘宝天猫关键字搜索商品的爬虫使用python3.4,爬虫程序已经封装好
支持抓取商品标题/商品价格/商品销量/商品图片等
使用请直接点击exe文件夹中后缀为exe的文件或者run.bat
------------------------------------------------------------
-----taobaocomment
-------source 源代码
-------data 原始数据
-------image 你要的图片
-------excel 你要的结果
-------exe.rar 请解压变成exe
-------exehelp.rar 请解压变成exehelp
-------run.bat 你要跑的脚本
-------runhelp.bat
安装python3。然后设置环境变量。
pip3 install -r requirement.txt
Windows用户请自行装库:
import urllib.request, urllib.parse, http.cookiejar
import os, time, re
import http.cookies
import xlsxwriter as wx
from PIL import Image
import pymysql
import socket
import json
import datetime
如果安装模块失败, 那么可能是cx_Freeze
下载失败, 从万能仓库 下载对应版本的打包库,然后:
pip3 install cx_Freeze-4.3.4-cp35-none-win_amd64.whl
转到源代码文件夹source
, 执行打包命令!
python setup.py build
把exe.win32-3.4
文件夹移到根目录,改名为exe, 同样python setuphelp.py build
打包辅助工具, 移动到根目录, 改名exehelp.
正常执行
cd source
python mtaobao.py
或者
run.bat
有时候程序运行中途断网或者其他原因,如误点下载图片,而图片几万张不耐烦终止程序,导致程序
运行没完成。不必担心,只要原始数据在,一切好办。
将 data 中的原始数据移到 help 文件夹中继续!
cd source
python help.py
或者
runhelp.bat
Do not understand?contact me.
author:hunterhug
2015/11
如果你觉得项目帮助到你,欢迎请我喝杯咖啡
1.2016/7/7改bug
请查看JSON.json,淘宝json数据字段变更,导致程序出错
淘宝需要验证时,请往subcookie.txt填东西,参考pdf
'手机折扣'字段失效
Traceback (most recent call last):
File "mtaobao.py", line 322, in <module>
itemlist.append(item['mobileDiscount'])
KeyError: 'mobileDiscount'
'URL地址'字段失效
Traceback (most recent call last):
File "mtaobao.py", line 328, in <module>
itemlist.append(item['auctionURL'])
KeyError: 'auctionURL'
已经更正
参考JSON可以加更多字段,请自行增加修改