任务名:新豆瓣电影数据分析-大陆
问题:针对这个任务采集,我在4月14号上午开始进行第一次采集,这次持续时间较长,中间甚至有几次要中断,但是还是在4月14号下午3点多时采集到容量为432kb的xml文件,之后我发现下级线索制定错了,重新做了下级线索之后,再次进行采集,从14号下午4点开始,一直采集到晚上9点多,结果只采集到最大容量为372kb的xml文件,我觉得数据量太少,接着又进行一次采集,最终只得到最大为316kb的xml文件。求问,这是不是因为登陆豆瓣太频繁,豆瓣的反爬机制发挥了作用,才导致数据一遍比一遍少?
另外,今天早上继续尝试后发现,目前可采集到最大为347kb的xml文件。希望各位大神帮忙解答一下啊!
|
|
|
|
|
共 3 个关于本帖的回复 最后回复于 2020-4-15 12:10