多次采集，采集的数据会变少

Mu_shui_GS2020

任务名：新豆瓣电影数据分析-大陆
问题：针对这个任务采集，我在4月14号上午开始进行第一次采集，这次持续时间较长，中间甚至有几次要中断，但是还是在4月14号下午3点多时采集到容量为432kb的xml文件，之后我发现下级线索制定错了，重新做了下级线索之后，再次进行采集，从14号下午4点开始，一直采集到晚上9点多，结果只采集到最大容量为372kb的xml文件，我觉得数据量太少，接着又进行一次采集，最终只得到最大为316kb的xml文件。求问，这是不是因为登陆豆瓣太频繁，豆瓣的反爬机制发挥了作用，才导致数据一遍比一遍少？
另外，今天早上继续尝试后发现，目前可采集到最大为347kb的xml文件。希望各位大神帮忙解答一下啊！

Fuller · 发表于 2020-4-15 11:12:12

要观察一下DS打数机的浏览器窗口中显示什么内容？有没有验证码之类的？另外，是否登录了豆瓣网？

如果担心采集频繁引起反爬，可以按照这个帖子清理一下cookie和缓存：https://www.gooseeker.com/doc/thread-4503-1-1.html

Mu_shui_GS2020 · 发表于 2020-4-15 11:29:10

Fuller 发表于 2020-4-15 11:12
要观察一下DS打数机的浏览器窗口中显示什么内容？有没有验证码之类的？另外，是否登录了豆瓣网？

如果担心 ...

打数机里显示的是这个，这是不是代表我的终点标志配置的不是很好？
他没有要验证码，还没有登陆豆瓣网

Fuller · 发表于 2020-4-15 12:10:16

Mu_shui_GS2020 发表于 2020-4-15 11:29
打数机里显示的是这个，这是不是代表我的终点标志配置的不是很好？
他没有要验证码，还没有登陆豆瓣网

因为重复采集，爬虫想避免重复造成的。这是运行第一级出现的。在DS打数机上，菜单高级-》终点标志-》重复内容，不要勾，就不会因为采集到重复的第二级网址而中断了

多次采集，采集的数据会变少

共 3 个关于本帖的回复最后回复于 2020-4-15 12:10

本帖子中包含更多资源

推荐板块

精彩推荐

热门话题

热门用户

	B Color Image Link Quote Code Smilies 高级模式您需要登录后才可以回帖登录 \| 立即注册回帖并转播回帖后跳转到最后一页

多次采集，采集的数据会变少

共 3 个关于本帖的回复 最后回复于 2020-4-15 12:10

本帖子中包含更多资源

推荐板块

精彩推荐

热门话题

热门用户

共 3 个关于本帖的回复最后回复于 2020-4-15 12:10