Hi, 各位大佬好,

目前正在做Amazon中国站的商品信息爬取,但是现在想只爬非自营,非海外购的商品的信息,

我现在是分别从每个类目进入,在商品列表页爬商品详情页的URL作为下级线索,但是苦于没有办法筛选出只有非自营和非海外购的商品的URL作为下级线索,这个怎么破呀?
举报 使用道具
| 回复

共 4 个关于本帖的回复 最后回复于 2018-1-5 17:41

petergao0528 初级会员 发表于 2018-1-5 10:12:16 | 显示全部楼层
因为是用集群爬取,所以不想先商品URL,然后再筛选哈,有什么办法直接筛掉不要的嘛
举报 使用道具
wangyong 版主 发表于 2018-1-5 10:34:42 | 显示全部楼层
最简单的方法是在规则里不勾下级线索,先把网址和非自营抓下来到Excel里筛选手工添加线索
添加线索教程:《手工添加线索》
举报 使用道具
petergao0528 初级会员 发表于 2018-1-5 17:14:25 | 显示全部楼层
那这样就利用不了自动调度 爬虫集群了
举报 使用道具
bowieD 金牌会员 发表于 2018-1-5 17:41:03 | 显示全部楼层
本帖最后由 bowieD 于 2018-1-5 17:42 编辑
petergao0528 发表于 2018-1-5 17:14
那这样就利用不了自动调度 爬虫集群了

也可以全部采集下来,采集的时候采集能区分商品信息的标志,在excel中对结果做筛选,筛选出想要的数据。
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-29 03:35