本帖最后由 keypeo 于 2017-12-10 22:34 编辑

用记号线索爬表格到某一页错误,下一页正常。然后跳过错误一页,用下一页页面重新设置规则、爬虫路线。继续运行爬虫提示错误。如何解决这个问题。
如图所示,424页网页错误,无法读取。页码结构如下,求问如何设置规则?


举报 使用道具
| 回复

共 3 个关于本帖的回复 最后回复于 2017-12-11 16:45

沙发
bowieD 金牌会员 发表于 2017-12-11 09:19:04 | 只看该作者
本帖最后由 bowieD 于 2017-12-11 09:23 编辑

规则名是什么?

1,不用重新设置规则,如果每一页都有独立的网址,就可以直接把425的网址添加到规则中,爬虫就会从425页开始抓起,就可以跳过错误的页面。、


2,出现这个错误提示的原因是因为规则要抓取的内容是在一个iframe中的,是样本页面有,其他页面没有,所以在抓取的时候,定位不到要抓的内容就会出现这个错误提示。


举报 使用道具
板凳
keypeo 新手上路 发表于 2017-12-11 16:24:47 | 只看该作者
bowieD 发表于 2017-12-11 09:19
规则名是什么?

1,不用重新设置规则,如果每一页都有独立的网址,就可以直接把425的网址添加到规则中,爬 ...

我在谋数台的浏览器页面手动点击到错误页面的下一页,然后重新设置规则,记号线索爬虫路线,运行的时候,又自动从第一页开始抓取了。求问如何解决呀?
举报 使用道具
地板
bowieD 金牌会员 发表于 2017-12-11 16:45:53 | 只看该作者
本帖最后由 bowieD 于 2017-12-11 16:48 编辑
keypeo 发表于 2017-12-11 16:24
我在谋数台的浏览器页面手动点击到错误页面的下一页,然后重新设置规则,记号线索爬虫路线,运行的时候, ...

1,如果每一页没有独立的网址链接,打开网址就会从第一页开始抓取。这种情况下无法从你编辑的那一页开始抓取。
2,如果每一页有独立的网址链接,直接用规则加载错误页面的网址,分析页面结构哪里不一样,再修改规则。参考《怎样解决规则采集失败/遗漏的问题?》
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-21 00:38