爬虫中断如何避免重复数据

中秋2016

爬虫中断如何避免重复数据

xandy · 发表于 2016-10-22 16:43:35

解决方法：
1）如果是翻页采集，而且每一页都有独立网址，那么可以把断掉的下一页网址重新添加线索，就能从断开的地方作为起点采集。
这样采集到的数据就不会重复了。
1.1）但如果页码网址是不变的话，这种只能激活线索后重新开始采集了。
这样采集到的数据会有重复，可以在Excel里面删除重复数据。
1.2）如果你知道在第几页断掉的话，对于有页码输入框的翻页，有一个解决方法：在规则里通过连续动作设置 “点击、输入页码” 的动作，参看连续动作教程http://www.gooseeker.com/doc/article-141-1.html
这样采集到的数据也不会重复。

2）不是翻页采集的话，有多条线索网址，再次采集时会自动从下条线索网址开始的。

爬虫中断如何避免重复数据

共 1 个关于本帖的回复最后回复于 2016-10-22 16:43

推荐板块

精彩推荐

热门话题

热门用户

	B Color Image Link Quote Code Smilies 高级模式您需要登录后才可以回帖登录 \| 立即注册回帖并转播回帖后跳转到最后一页

爬虫中断如何避免重复数据

共 1 个关于本帖的回复 最后回复于 2016-10-22 16:43

推荐板块

精彩推荐

热门话题

热门用户

共 1 个关于本帖的回复最后回复于 2016-10-22 16:43