爬取数据开了专业版然后导出接近20万条数据,结果发现实际数据里都是重复的数据一直在反复爬取如图,一直是这一段数据在重复


最后显示实际有用的只有1000条不到



请问这是什么情况,该如何解决呢?

以及我另一个号里,经常导出数据这一栏是灰的是什么情况呢?(单独一个进程结束了左下会弹出对应进程的数据,但其他我关掉结束界面但忘记点导出数据之后就导出不了吗)?

举报 使用道具
| 回复

共 8 个关于本帖的回复 最后回复于 2023-5-19 09:58

沙发
Fuller 管理员 发表于 2023-5-18 19:50:54 | 只看该作者
采集的时候,勾上重复内容中断了吗?
看这个教程的最后一部分,勾上重复内容中断
https://www.gooseeker.com/doc/article-528-1.html
举报 使用道具
板凳
Fuller 管理员 发表于 2023-5-18 21:04:21 | 只看该作者
如果是用爬虫群模式采集,看这个教程的最后一部分,在调度设置的其它设置中,勾上跳出重复翻页。https://www.gooseeker.com/doc/article-529-1.html
举报 使用道具
地板
zeng111 初级会员 发表于 2023-5-18 22:40:23 | 只看该作者
Fuller 发表于 2023-5-18 21:04
如果是用爬虫群模式采集,看这个教程的最后一部分,在调度设置的其它设置中,勾上跳出重复翻页。https://ww ...

你好,感谢,我检查了一下数据的爬取对应时间,可能是一开始没有关闭重复翻页的原因。
我还有第二个问题,就是下边的截图。
因为我开了很多窗口去跑同一个任务,有的窗口结束了我直接关闭没有点击导出数据按钮,(结果返回任务管理,数据导出的那里是灰色的)请问这部分的数据该怎么导出呢?其他窗口的导出的数据只有该窗口内爬取得那一部分,而不是全部我爬取得
举报 使用道具
5#
Fuller 管理员 发表于 2023-5-18 23:05:21 | 只看该作者
如果你是用爬虫群爬数据,直接下载数据,不用点击导出数据按钮。
如果是手工启动采集,才需要手工点击导出数据按钮。如果数据一直在采集,等下一次结束,点击导出数据按钮,即可。
举报 使用道具
6#
zeng111 初级会员 发表于 2023-5-19 00:52:49 | 只看该作者
Fuller 发表于 2023-5-18 23:05
如果你是用爬虫群爬数据,直接下载数据,不用点击导出数据按钮。
如果是手工启动采集,才需要手工点击导出 ...

我是手工启动采集,而且是针对一个任务手动开了很多窗口,有的窗口结束后我直接关掉了界面没有点击那个导出按钮,那这一部分的数据是可以在其他窗口结束后点击导出按钮也一并导出的吗?(数据一直在爬),我担心我没有手动点击导出的窗口所爬取的数据就没有办法导出了
举报 使用道具
7#
Fuller 管理员 发表于 2023-5-19 09:09:05 | 只看该作者
zeng111 发表于 2023-5-19 00:52
我是手工启动采集,而且是针对一个任务手动开了很多窗口,有的窗口结束后我直接关掉了界面没有点击那个导 ...

如果一直在采集这个任务,没有关系,后面点击导出数据也可以。
举报 使用道具
8#
zeng111 初级会员 发表于 2023-5-19 09:23:08 | 只看该作者
Fuller 发表于 2023-5-19 09:09
如果一直在采集这个任务,没有关系,后面点击导出数据也可以。

谢谢!!我还有两个 问题1. 关于重复数据的问题,我重新设置了中断重复内容,然后发现导出来的数据(因为我是爬的帖子评论)依然出现了三次重复。请问三次重复数据是没有办法避免的吗?


2. 我开了很多窗口,但是经常有一半窗口过了一天也不动,没有爬取,点击安全关闭 也无法退出,只能强行关闭(这也是我没办法调用爬虫群的原因,调用爬虫群自动打开的一半以上的窗口都是失败的,请问这是什么原因可以怎么样避免?
(会不会是第一个问题的原因,我要爬的帖子大部分都是一页,所以总会出现重复数据以及卡住呢?)
举报 使用道具
9#
Fuller 管理员 发表于 2023-5-19 09:58:38 | 只看该作者
1. 有些链接,翻到最后一页,还可以点击下一页按钮,无限在最后一页循环。设置了重复内容中断后,爬虫一旦检测到连续3页数据都是重复的,爬虫会跳出,不再爬这个链接。用户可以在excel表格中,去掉这个重复。如果大部分的链接都是一页,可以在采集的时候,限制翻页次数,比如只爬1页,看这个教程的2.3步,https://www.gooseeker.com/doc/article-528-1.html

2. 开了太多的窗口,电脑不能负担,容易造成死机。建议先从少量的窗口开始,逐渐增加窗口数。
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-26 19:52