就是想用phthon2.7 做个批量采集京东商城里面笔记本的规格参数的爬虫  
怎么做啊   我参考了豆瓣采集的例子只会采集商品列表里的价格和名称   
求大神指导


举报 使用道具
| 回复

共 5 个关于本帖的回复 最后回复于 2016-12-15 12:48

沙发
Fuller 管理员 发表于 2016-12-13 22:45:01 | 只看该作者
你是说这个豆瓣数据采集的例子吗?《Python爬虫实战(4)豆瓣小组话题数据采集——动态网页

这个例子使用了GooSeeker爬虫软件生成的采集规则和API,如果想采集其他内容,需要用GooSeeker爬虫软件做规则,就能用API获得规则了。

做规则很容易,直观标志方式,几分钟就能做好京东网页内容的采集规则,Python程序只需通过API获得规则,注入到GooSeeker定义的提取器GsExtractor,就能用这个提取器把京东网页内容转换成XML。
举报 使用道具
板凳
llll195 初级会员 发表于 2016-12-14 09:26:05 | 只看该作者
我明白你的意思  但评论或者详细规格参数是异步加载的  我试过 规则定位不到
肿么办
举报 使用道具
地板
Fuller 管理员 发表于 2016-12-14 10:27:54 | 只看该作者
llll195 发表于 2016-12-14 09:26
我明白你的意思  但评论或者详细规格参数是异步加载的  我试过 规则定位不到
肿么办 ...

豆瓣那个案例,使用了PhantomJS   就是解决异步加载网页的,抓不到?那就是评论部分需要做一次模拟点击,点击“累计评价”后再抓
举报 使用道具
5#
llll195 初级会员 发表于 2016-12-15 12:30:07 | 只看该作者
模拟点击。。
那怎么用谋数台写规则 毕竟规格参数那块也看不到啊
举报 使用道具
6#
scraper 论坛元老 发表于 2016-12-15 12:48:46 | 只看该作者
你看看webdriverAPI, 驱动浏览器做一次点击动作
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 运行Apple无法验证的程序的方法
  • 文本聚类分析软件的安装和使用方法
  • 利用AI阅读和分析文本:扣子COZE记录用户反
  • 在网页片段内直观标注——以B站评论采集为
  • 利用AI阅读和分析文本:使用COZE建设游记文

热门用户

GMT+8, 2024-12-24 11:05