我采集阿里巴巴的页面,发现部分分页的网址采集错误,部分正确,最后发现,这部分错误的网址均是首页的广告,怎么设置在采集的时候排除这些广告,或者怎么修正把广告也采集了呢?虽然为广告,但是页面中的网址是正确的,但是采集出来的就是错误的。



本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
| 回复

共 3 个关于本帖的回复 最后回复于 2017-8-23 09:42

沙发
Fuller 管理员 发表于 2017-8-21 09:40:08 | 只看该作者
我建议采集的时候不过滤,否则,采集规则会变得复杂,要用自定义xpath的方式进行过滤。

可以在处理结果文件的时候,根据网址特征,过滤掉广告
举报 使用道具
板凳
ybzhsq 新手上路 发表于 2017-8-21 10:58:09 | 只看该作者
Fuller 发表于 2017-8-21 09:40
我建议采集的时候不过滤,否则,采集规则会变得复杂,要用自定义xpath的方式进行过滤。

可以在处理结果文 ...

自定义xpath的方式是什么,在哪里操作
举报 使用道具
地板
shengchengx 金牌会员 发表于 2017-8-23 09:42:43 | 只看该作者
ybzhsq 发表于 2017-8-21 10:58
自定义xpath的方式是什么,在哪里操作

《自定义xpath:精确采集 》看下这个教程,使用自定义xpath能够使采集更加精准

举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 利用AI阅读和分析文本:扣子COZE记录用户反
  • 在网页片段内直观标注——以B站评论采集为
  • 利用AI阅读和分析文本:使用COZE建设游记文
  • 使用AI工具Kimi生成python代码为文本分析结
  • 苹果mac电脑安装集搜客网络爬虫软件失败的

热门用户

GMT+8, 2024-11-25 12:59