规则名    盛泽销售坯布
问题    连续抓到5页就中断
已经查到问题   已经确定是爬虫路线遇到的错误了 ---,网页结构发生变化
该怎么解决呢?

111.jpg (55.64 KB, 下载次数: 723)

错误详情如图

错误详情如图
举报 使用道具
| 回复

共 2 个关于本帖的回复 最后回复于 2017-8-29 18:46

沙发
bowieD 金牌会员 发表于 2017-8-29 17:43:52 | 只看该作者
本帖最后由 bowieD 于 2017-8-29 17:46 编辑

网页结构发生变化而抓取失败,我看了下你的规则,可以不用样例复制,直接给整理箱做定位映射标记,因为你的网页的每一个区块节点都有相同的@class值,直接用定位映射标记可以实现样例复制效果,也不会因为网页结构变化而发生翻页中断。参考《定位标志批量采集相同定位信息》

0.jpg (146.4 KB, 下载次数: 571)

0.jpg
举报 使用道具
板凳
bowieD 金牌会员 发表于 2017-8-29 18:46:14 | 只看该作者
你的网站翻页比较特殊,不能用记号线索实现翻页。由于你的网站每个页码都有独立的网址,而且都有规律,那么你可以通过Excel表的下拉获取所有页码的网址,
这就达到一行一个网址的目的,,通过批量导入网址线索来抓取你所有想要的内容。批量导入线索:进入会员中心,找到规则,在规则管理那里有导入线索的链接。详情参考《如何管理规则的线索》
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-24 03:34