规则名:长治环保一级新闻
大概知道原因是失败的那页没有提取的下级线索,导致那一页失败,但是抓取无法跳到下一页继续抓取,然后就直接抓取完成了,因为有的网页就是没有下级线索的链接,就无法继续抓取吗?因为一级只是为二级提供线索,请问大神怎么解决。

捕获.PNG (215.86 KB, 下载次数: 563)

捕获.PNG
举报 使用道具
| 回复

共 3 个关于本帖的回复 最后回复于 2017-9-15 13:42

沙发
jayxxy 初级会员 发表于 2017-9-14 23:53:38 | 只看该作者
求大神解答,直接就抓取完成,实际上还没有完成。

捕获2.PNG (67.24 KB, 下载次数: 660)

捕获2.PNG
举报 使用道具
板凳
umsung 高级会员 发表于 2017-9-15 09:35:06 | 只看该作者
本帖最后由 umsung 于 2017-9-15 09:45 编辑

1,无法跳到下一页抓取就直接抓取完成了,加载分析你的第一级规则报错了,因为你的记号翻页线索有问题,无法定位到“下一页”的节点所以才会导致无法跳到下一页就直接抓取完成了。
2,因为有的网页没有下级线索的链接,所以不要给下级线索的链接设置成关键内容,否则一旦爬虫抓取不到下级线索的链接就会导致报错,然后停止采集。

6.jpg (149.15 KB, 下载次数: 530)

6.jpg
举报 使用道具
地板
jayxxy 初级会员 发表于 2017-9-15 13:42:45 | 只看该作者
umsung 发表于 2017-9-15 09:35
1,无法跳到下一页抓取就直接抓取完成了,加载分析你的第一级规则报错了,因为你的记号翻页线索有问题,无 ...

谢谢啊  太感谢

举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-3 16:11