任务名:新豆瓣电影数据分析-大陆
问题:针对这个任务采集,我在4月14号上午开始进行第一次采集,这次持续时间较长,中间甚至有几次要中断,但是还是在4月14号下午3点多时采集到容量为432kb的xml文件,之后我发现下级线索制定错了,重新做了下级线索之后,再次进行采集,从14号下午4点开始,一直采集到晚上9点多,结果只采集到最大容量为372kb的xml文件,我觉得数据量太少,接着又进行一次采集,最终只得到最大为316kb的xml文件。求问,这是不是因为登陆豆瓣太频繁,豆瓣的反爬机制发挥了作用,才导致数据一遍比一遍少?
另外,今天早上继续尝试后发现,目前可采集到最大为347kb的xml文件。希望各位大神帮忙解答一下啊!

举报 使用道具
| 回复

共 3 个关于本帖的回复 最后回复于 2020-4-15 12:10

沙发
Fuller 管理员 发表于 2020-4-15 11:12:12 | 只看该作者
要观察一下DS打数机的浏览器窗口中显示什么内容?有没有验证码之类的?另外,是否登录了豆瓣网?

如果担心采集频繁引起反爬,可以按照这个帖子清理一下cookie和缓存:https://www.gooseeker.com/doc/thread-4503-1-1.html
举报 使用道具
板凳
Mu_shui_GS2020 初级会员 发表于 2020-4-15 11:29:10 | 只看该作者
Fuller 发表于 2020-4-15 11:12
要观察一下DS打数机的浏览器窗口中显示什么内容?有没有验证码之类的?另外,是否登录了豆瓣网?

如果担心 ...

打数机里显示的是这个,这是不是代表我的终点标志配置的不是很好?
他没有要验证码,还没有登陆豆瓣网

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
地板
Fuller 管理员 发表于 2020-4-15 12:10:16 | 只看该作者
Mu_shui_GS2020 发表于 2020-4-15 11:29
打数机里显示的是这个,这是不是代表我的终点标志配置的不是很好?
他没有要验证码,还没有登陆豆瓣网

因为重复采集,爬虫想避免重复造成的。这是运行第一级出现的。在DS打数机上,菜单 高级-》终点标志-》重复内容,不要勾,就不会因为采集到重复的第二级网址而中断了
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 360或火绒等杀毒软件导致GooSeeker爬虫软件
  • 话题分析(NMF模型和LDA模型)软件的安装和
  • 运行Apple无法验证的程序的方法
  • 文本聚类分析软件的安装和使用方法
  • 利用AI阅读和分析文本:扣子COZE记录用户反

热门用户

GMT+8, 2025-4-22 06:32