快捷导航
3 164

部分分页的网址采集错误

ybzhsq 于 2017-8-21 09:36 发表 [复制链接]
我采集阿里巴巴的页面,发现部分分页的网址采集错误,部分正确,最后发现,这部分错误的网址均是首页的广告,怎么设置在采集的时候排除这些广告,或者怎么修正把广告也采集了呢?虽然为广告,但是页面中的网址是正确的,但是采集出来的就是错误的。
1.png
2.png

举报 使用道具
| 回复

共 3 个关于本帖的回复 最后回复于 2017-8-23 09:42

Fuller 管理员 发表于 2017-8-21 09:40:08 | 显示全部楼层
我建议采集的时候不过滤,否则,采集规则会变得复杂,要用自定义xpath的方式进行过滤。

可以在处理结果文件的时候,根据网址特征,过滤掉广告
举报 使用道具
ybzhsq 新手上路 发表于 2017-8-21 10:58:09 | 显示全部楼层
Fuller 发表于 2017-8-21 09:40
我建议采集的时候不过滤,否则,采集规则会变得复杂,要用自定义xpath的方式进行过滤。

可以在处理结果文 ...

自定义xpath的方式是什么,在哪里操作
举报 使用道具
shengchengx 高级会员 发表于 2017-8-23 09:42:43 | 显示全部楼层
ybzhsq 发表于 2017-8-21 10:58
自定义xpath的方式是什么,在哪里操作

《自定义xpath:精确采集 》看下这个教程,使用自定义xpath能够使采集更加精准

举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 从淘宝的买家评论中,能挖掘出什么有用的信
  • 连续动作:如何把抓到的信息与动作步骤对应
  • 淘宝开店运营十大攻略
  • 深圳市咨询投诉分析
  • 去资源库下载规则,轻松抓数据

热门用户

集搜客GooSeeker网络爬虫 ( 粤ICP备11065265号-2 )

GMT+8, 2017-9-21 00:24