快捷导航
翻页抓取时,怎么一直在重复抓取一页?
举报 使用道具
| 回复

共 3 个关于本帖的回复 最后回复于 2021-7-20 20:43

bowieD 金牌会员 发表于 2017-10-13 18:07:41 | 显示全部楼层
检查是否勾选了重复内容中断,如果没勾选爬虫就会一直抓取最后一页不会停。

解决:
在DS打数机上面选项中-高级-终点标志-重复内容,最后勾上重复内容就可以了,爬虫抓取三次完全一样的xml文件之后就会中断,我们可以通过excel对重复的结果文件进行去重处理
6.jpg
举报 使用道具
lllllkc 新手上路 发表于 2021-7-20 20:21:55 | 显示全部楼层
请问gooseeker新版的软件,翻页时网址的url不变,但是点击页码翻页,但一直只是抓取第一页,重复抓,怎么处理呢
举报 使用道具
Fuller 管理员 发表于 2021-7-20 20:43:49 | 显示全部楼层
lllllkc 发表于 2021-7-20 20:21
请问gooseeker新版的软件,翻页时网址的url不变,但是点击页码翻页,但一直只是抓取第一页,重复抓,怎么处 ...

参看这个帖子的回答:https://www.gooseeker.com/doc/thread-18966-1-1.html
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 新闻内容分词后在Jupyter Notebook中使用TF
  • Jupyter Notebook使用sklearn的TF-IDF算法
  • 基于TSC 理论的网络社区中知识动员模式研究
  • 网页数据采集使用嵌套整理箱获得有层次的数
  • 我国旅游管理研究的知识来源与结构—基于文

热门用户

GMT+8, 2021-7-31 12:48