翻页抓取时,怎么一直在重复抓取一页?
举报 使用道具
| 回复

共 3 个关于本帖的回复 最后回复于 2021-7-20 20:43

沙发
bowieD 金牌会员 发表于 2017-10-13 18:07:41 | 只看该作者
检查是否勾选了重复内容中断,如果没勾选爬虫就会一直抓取最后一页不会停。

解决:
在DS打数机上面选项中-高级-终点标志-重复内容,最后勾上重复内容就可以了,爬虫抓取三次完全一样的xml文件之后就会中断,我们可以通过excel对重复的结果文件进行去重处理

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
板凳
lllllkc 新手上路 发表于 2021-7-20 20:21:55 | 只看该作者
请问gooseeker新版的软件,翻页时网址的url不变,但是点击页码翻页,但一直只是抓取第一页,重复抓,怎么处理呢
举报 使用道具
地板
Fuller 管理员 发表于 2021-7-20 20:43:49 | 只看该作者
lllllkc 发表于 2021-7-20 20:21
请问gooseeker新版的软件,翻页时网址的url不变,但是点击页码翻页,但一直只是抓取第一页,重复抓,怎么处 ...

参看这个帖子的回答:https://www.gooseeker.com/doc/thread-18966-1-1.html
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 话题分析(NMF模型和LDA模型)软件的安装和
  • 运行Apple无法验证的程序的方法
  • 文本聚类分析软件的安装和使用方法
  • 利用AI阅读和分析文本:扣子COZE记录用户反
  • 在网页片段内直观标注——以B站评论采集为

热门用户

GMT+8, 2025-3-15 20:37