你好,我的规则 天猫关键词-1126-销量 这个关键词,本来是有100页的,但是爬完100页后不会停,又从第一页开始爬,请问是怎么回事呀。
举报 使用道具
| 回复

共 4 个关于本帖的回复 最后回复于 2016-11-26 11:27

沙发
shenzhenwan10 金牌会员 发表于 2016-11-26 11:21:42 | 只看该作者
这种情况,目前的解决方法是在爬虫群里设置最大翻页数,这样DS在爬到设定页数后就终止当前线索
举报 使用道具
板凳
qingmu888 中级会员 发表于 2016-11-26 11:23:03 | 只看该作者
shenzhenwan10 发表于 2016-11-26 11:21
这种情况,目前的解决方法是在爬虫群里设置最大翻页数,这样DS在爬到设定页数后就终止当前线索 ...

嗯嗯,好的,我去试试,非常感谢
举报 使用道具
地板
shenzhenwan10 金牌会员 发表于 2016-11-26 11:26:30 | 只看该作者
很多网站有翻页最大数限制,有几种情况:
1. 达到最大页数后,如50页,就不显示了。这种情况爬取没问题
2. 达到最大页数后,如50页,以后就重复显示第50页的内容。这种情况可以勾选“重复内容中端”开关,打数机会判断是否连续重复,如果是连续重复就终止
3. 达到最大页数后,如50页,又从第1页开始显示。这种情况由于相邻2个页面的内容不同,不好处理。目前的解决方案就是设置最大翻页数进行限制
举报 使用道具
5#
Fuller 管理员 发表于 2016-11-26 11:27:40 | 只看该作者
翻到最后一页,发现“下一页”仍然有效。这种情况只能做一个翻页次数限制。在会员中心-〉规则管理,选中这个规则,点击“调度”,高级参数中有翻页次数限制

另外,虽然对这个问题可能没有作用,但是修改一下定位偏好可以提高规则的适应性。

选择偏好class,翻页规则更短,而且没有像原先的那样有绝对定位函数
  1. //*[@id='content']/div/div[position()=8]/div//a[.//text()="下一页>>"]
复制代码

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 360或火绒等杀毒软件导致GooSeeker爬虫软件
  • 话题分析(NMF模型和LDA模型)软件的安装和
  • 运行Apple无法验证的程序的方法
  • 文本聚类分析软件的安装和使用方法
  • 利用AI阅读和分析文本:扣子COZE记录用户反

热门用户

GMT+8, 2025-4-25 14:57