集搜客GooSeeker网络爬虫

标题: 相同的结构为什么有的网页会漏采 [打印本页]

作者: 酱紫    时间: 2017-2-6 10:59
标题: 相同的结构为什么有的网页会漏采
如题
比如我设置采集2号到4号的杭州的简历,而采集优先采集的是4号(今天)的简历,甚至会采集广东的,也就是说采集的时候把权重分配给了时间,跳过了某些信息,而我更看重地点
出现这样的可能原因是什么



作者: quyixuan    时间: 2017-2-6 11:00
这个和网站的搜索算法有关吧
爬虫只是做了一件自动化的工作,如果采集到广东的,那是因为浏览网页的时候出现了广东的信息。可以手工浏览网页,看看出现这些信息的规律是什么





欢迎光临 集搜客GooSeeker网络爬虫 (http://www.gooseeker.com/doc/) Powered by Discuz! X3.2