|
如果是翻页抓取,添加相同网址跟激活一样,会出现重复数据,在数据库和Excel中判断重复数据很容易,做一次排序,把相同内容删除即可。
目前,从爬虫技术上很难接上失败的翻页线索,除非这个线索有独立网址,那么在结果文件中有个pageno字段,可以看到在哪个分页断了,那么就构造出下一分页的网址,这样就能接上,不会重复,但是,要求每个分页有独立网址的才能接上。
如果是单页抓取,不要重新激活以前的线索就不会重复。如果单页网址是上一级生成的,上一级的调度参数有个“是否激活下级线索”,勾选否,那么即使上级重复抓取,也不会重新激活下级
|
|
共 9 个关于本帖的回复 最后回复于 2021-3-29 12:02