抓取规则有点问题，数据抓取不全

andyhwa

本帖最后由 andyhwa 于 2016-6-20 09:00 编辑

如题，在抓取58同城过户页面上，第一级规则是抓取城市列表，第二级规则是每个城市的过户信息发布列表，第三级规则才是真正需要的，包括名字、电话等，总计抓取有38万条数据，但是去重之后才1万6千条左右，也就是说417个城市平均每个城市40条！这个无论如何都是有疑问的，而且公司开发人员也排查过，发现这个规则确实会出现抓取了前几个，后几个就跳着跳着抓取，会有很大遗漏，希望尽快解决一下这个问题，谢谢，QQ：475015865，tel：18782928371这就是这三条规则
guohu_145054
guohu_245054
guohu_345054

Fuller · 发表于 2016-6-20 09:27:23

第二个规则，翻页规则用了记号线索类型，用的方法不对，应该是

首先要做线索映射，
把网页上代表翻页区的div节点做线索-》定位映射给他，相当于先划一个区域
然后再做记号映射。
最后再点击“定位选项”，选择优选class

为什么要做“定位选项”设置，那时因为自动选择的@id构造的xpath不合适，手工可以干预是否选择@id或者@class，在“线索规则”窗口能够看到选择以后的变化。其它翻页问题参看集锦：http://www.gooseeker.com/doc/thread-698-1-1.html

你原先的第二个规则，翻页到很少页面就会结束翻页了，你可以观察一下。

我看到还有一个地方可以改进：抓取内容 url 没有必要写自定义xpath，在DOM树窗口中选中href节点做映射即可。

HJLing · 发表于 2016-6-20 11:00:24

本帖最后由 HJLing 于 2016-6-20 11:39 编辑

规则修改好了你可以重新下载第二级规则 http://www.gooseeker.com/res/detail_130290.html 重复下载不需要扣除积分
另外你用爬虫群来重新运行第二级规则在调度的高级设置里把“激活下级线索”设置为“否” 把“下级线索重复容忍度”设为100% 这样之前第三级采过的线索就不会重复采集了

HJLing · 发表于 2016-6-20 14:16:09

还有你说的38万线索去重后只剩1万多是因为你基本上线索都重复采集了一条线索一个clueid 看了你的结果文件基本每个clueid都生成几条结果所以你现在重新运行第二级的时候按照我上面那条回复能避免重复采集

抓取规则有点问题，数据抓取不全

共 3 个关于本帖的回复最后回复于 2016-6-20 14:16

本帖子中包含更多资源

推荐板块

精彩推荐

热门话题

热门用户

	B Color Image Link Quote Code Smilies 高级模式您需要登录后才可以回帖登录 \| 立即注册回帖并转播回帖后跳转到最后一页

抓取规则有点问题，数据抓取不全

共 3 个关于本帖的回复 最后回复于 2016-6-20 14:16

本帖子中包含更多资源

推荐板块

精彩推荐

热门话题

热门用户

共 3 个关于本帖的回复最后回复于 2016-6-20 14:16