关于怎样利用python批量爬取京东笔记本配置问题

llll195

就是想用phthon2.7 做个批量采集京东商城里面笔记本的规格参数的爬虫
怎么做啊我参考了豆瓣采集的例子只会采集商品列表里的价格和名称
求大神指导

Fuller · 发表于 2016-12-13 22:45:01

你是说这个豆瓣数据采集的例子吗？《Python爬虫实战（4）豆瓣小组话题数据采集——动态网页》

这个例子使用了GooSeeker爬虫软件生成的采集规则和API，如果想采集其他内容，需要用GooSeeker爬虫软件做规则，就能用API获得规则了。

做规则很容易，直观标志方式，几分钟就能做好京东网页内容的采集规则，Python程序只需通过API获得规则，注入到GooSeeker定义的提取器GsExtractor，就能用这个提取器把京东网页内容转换成XML。

llll195 · 发表于 2016-12-14 09:26:05

我明白你的意思但评论或者详细规格参数是异步加载的我试过规则定位不到
肿么办

Fuller · 发表于 2016-12-14 10:27:54

llll195 发表于 2016-12-14 09:26
我明白你的意思但评论或者详细规格参数是异步加载的我试过规则定位不到
肿么办 ...

豆瓣那个案例，使用了PhantomJS 就是解决异步加载网页的，抓不到？那就是评论部分需要做一次模拟点击，点击“累计评价”后再抓

llll195 · 发表于 2016-12-15 12:30:07

模拟点击。。
那怎么用谋数台写规则毕竟规格参数那块也看不到啊

scraper · 发表于 2016-12-15 12:48:46

你看看webdriverAPI, 驱动浏览器做一次点击动作

关于怎样利用python批量爬取京东笔记本配置问题

共 5 个关于本帖的回复最后回复于 2016-12-15 12:48

推荐板块

精彩推荐

热门话题

热门用户

	B Color Image Link Quote Code Smilies 高级模式您需要登录后才可以回帖登录 \| 立即注册回帖并转播回帖后跳转到最后一页

关于怎样利用python批量爬取京东笔记本配置问题

共 5 个关于本帖的回复 最后回复于 2016-12-15 12:48

推荐板块

精彩推荐

热门话题

热门用户

共 5 个关于本帖的回复最后回复于 2016-12-15 12:48