各位好,想问一下,我定义了一个爬虫,线索的话是自己批量导入的网址,在爬取过程中成功率有77%左右,剩下23%是匹配失败,请问一下匹配失败的话一般是什么原因呢,是否与网速有关?(即可能打数机在爬取过程中有些页面还没加载出来有关树节点就开始爬取导致匹配不到?),匹配失败如下图:,规则名称为:test_201908042,谢谢了!

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
| 回复

共 2 个关于本帖的回复 最后回复于 2019-8-5 12:22

沙发
maomao 论坛元老 发表于 2019-8-5 09:22:34 | 只看该作者
你怀疑是页面没有及时加载,导致抓取失败,可以在打数机配置-延迟抓取,把延迟抓取时间加大一些。
如果还不能解决问题,
按这个帖子https://www.gooseeker.com/doc/article-272-1.html的1.1加载失败线索,分析一下。
举报 使用道具
板凳
Fuller 管理员 发表于 2019-8-5 12:22:32 | 只看该作者
你这个规则加载不成功。应该用上定位标志映射,提高规则的定位精度,加载不成功的主要原因是规则无法在网页上定位内容。定位标志映射的教程在这里:https://www.gooseeker.com/doc/article-344-1.html
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 利用AI阅读和分析文本:扣子COZE记录用户反
  • 在网页片段内直观标注——以B站评论采集为
  • 利用AI阅读和分析文本:使用COZE建设游记文
  • 使用AI工具Kimi生成python代码为文本分析结
  • 苹果mac电脑安装集搜客网络爬虫软件失败的

热门用户

GMT+8, 2024-11-22 04:56