快捷导航
各位好,想问一下,我定义了一个爬虫,线索的话是自己批量导入的网址,在爬取过程中成功率有77%左右,剩下23%是匹配失败,请问一下匹配失败的话一般是什么原因呢,是否与网速有关?(即可能打数机在爬取过程中有些页面还没加载出来有关树节点就开始爬取导致匹配不到?),匹配失败如下图: 匹配失败图片.png ,规则名称为:test_201908042,谢谢了!
举报 使用道具
| 回复

共 2 个关于本帖的回复 最后回复于 2019-8-5 12:22

maomao 金牌会员 发表于 2019-8-5 09:22:34 | 显示全部楼层
你怀疑是页面没有及时加载,导致抓取失败,可以在打数机配置-延迟抓取,把延迟抓取时间加大一些。
如果还不能解决问题,
按这个帖子https://www.gooseeker.com/doc/article-272-1.html的1.1加载失败线索,分析一下。
举报 使用道具
Fuller 管理员 发表于 2019-8-5 12:22:32 | 显示全部楼层
你这个规则加载不成功。应该用上定位标志映射,提高规则的定位精度,加载不成功的主要原因是规则无法在网页上定位内容。定位标志映射的教程在这里:https://www.gooseeker.com/doc/article-344-1.html
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 特征工程入门介绍
  • NLP文本情感分析入门
  • 机器学习算法入门介绍
  • 中文分词入门和分词工具汇总攻略
  • 自然语言处理NLP的一般处理流程

热门用户

GMT+8, 2019-10-20 11:47