就是想用phthon2.7 做个批量采集京东商城里面笔记本的规格参数的爬虫  
怎么做啊   我参考了豆瓣采集的例子只会采集商品列表里的价格和名称   
求大神指导


举报 使用道具
| 回复

共 5 个关于本帖的回复 最后回复于 2016-12-15 12:48

Fuller 管理员 发表于 2016-12-13 22:45:01 | 显示全部楼层
你是说这个豆瓣数据采集的例子吗?《Python爬虫实战(4)豆瓣小组话题数据采集——动态网页

这个例子使用了GooSeeker爬虫软件生成的采集规则和API,如果想采集其他内容,需要用GooSeeker爬虫软件做规则,就能用API获得规则了。

做规则很容易,直观标志方式,几分钟就能做好京东网页内容的采集规则,Python程序只需通过API获得规则,注入到GooSeeker定义的提取器GsExtractor,就能用这个提取器把京东网页内容转换成XML。
举报 使用道具
llll195 初级会员 发表于 2016-12-14 09:26:05 | 显示全部楼层
我明白你的意思  但评论或者详细规格参数是异步加载的  我试过 规则定位不到
肿么办
举报 使用道具
Fuller 管理员 发表于 2016-12-14 10:27:54 | 显示全部楼层
llll195 发表于 2016-12-14 09:26
我明白你的意思  但评论或者详细规格参数是异步加载的  我试过 规则定位不到
肿么办 ...

豆瓣那个案例,使用了PhantomJS   就是解决异步加载网页的,抓不到?那就是评论部分需要做一次模拟点击,点击“累计评价”后再抓
举报 使用道具
llll195 初级会员 发表于 2016-12-15 12:30:07 | 显示全部楼层
模拟点击。。
那怎么用谋数台写规则 毕竟规格参数那块也看不到啊
举报 使用道具
scraper 论坛元老 发表于 2016-12-15 12:48:46 | 显示全部楼层
你看看webdriverAPI, 驱动浏览器做一次点击动作
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-28 16:12