各位好,想问一下,我定义了一个爬虫,线索的话是自己批量导入的网址,在爬取过程中成功率有77%左右,剩下23%是匹配失败,请问一下匹配失败的话一般是什么原因呢,是否与网速有关?(即可能打数机在爬取过程中有些页面还没加载出来有关树节点就开始爬取导致匹配不到?),匹配失败如下图: 匹配失败图片.png ,规则名称为:test_201908042,谢谢了!
举报 使用道具
| 回复

共 2 个关于本帖的回复 最后回复于 2019-8-5 12:22

maomao 论坛元老 发表于 2019-8-5 09:22:34 | 显示全部楼层
你怀疑是页面没有及时加载,导致抓取失败,可以在打数机配置-延迟抓取,把延迟抓取时间加大一些。
如果还不能解决问题,
按这个帖子https://www.gooseeker.com/doc/article-272-1.html的1.1加载失败线索,分析一下。
举报 使用道具
Fuller 管理员 发表于 2019-8-5 12:22:32 | 显示全部楼层
你这个规则加载不成功。应该用上定位标志映射,提高规则的定位精度,加载不成功的主要原因是规则无法在网页上定位内容。定位标志映射的教程在这里:https://www.gooseeker.com/doc/article-344-1.html
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-16 15:20