本帖最后由 andyhwa 于 2016-6-20 09:00 编辑

如题,在抓取58同城过户页面上,第一级规则是抓取城市列表,第二级规则是每个城市的过户信息发布列表,第三级规则才是真正需要的,包括名字、电话等,总计抓取有38万条数据,但是去重之后才1万6千条左右,也就是说417个城市平均每个城市40条!这个无论如何都是有疑问的,而且公司开发人员也排查过,发现这个规则确实会出现抓取了前几个,后几个就跳着跳着抓取,会有很大遗漏,希望尽快解决一下这个问题,谢谢,QQ:475015865,tel:18782928371这就是这三条规则
guohu_145054
guohu_245054
guohu_345054
举报 使用道具
| 回复

共 3 个关于本帖的回复 最后回复于 2016-6-20 14:16

沙发
Fuller 管理员 发表于 2016-6-20 09:27:23 | 只看该作者
第二个规则,翻页规则用了记号线索类型,用的方法不对,应该是
  • 首先要做线索映射,
  • 把网页上代表翻页区的div节点做 线索-》定位 映射给他,相当于先划一个区域
  • 然后再做记号映射。
  • 最后再点击“定位选项”,选择优选class


为什么要做“定位选项”设置,那时因为自动选择的@id构造的xpath不合适,手工可以干预是否选择@id或者@class,在“线索规则”窗口能够看到选择以后的变化。其它翻页问题参看集锦:http://www.gooseeker.com/doc/thread-698-1-1.html


你原先的第二个规则,翻页到很少页面就会结束翻页了,你可以观察一下。


我看到还有一个地方可以改进:抓取内容 url 没有必要写自定义xpath,在DOM树窗口中选中href节点做映射即可。
举报 使用道具
板凳
HJLing 版主 发表于 2016-6-20 11:00:24 | 只看该作者
本帖最后由 HJLing 于 2016-6-20 11:39 编辑

规则修改好了 你可以重新下载第二级规则 http://www.gooseeker.com/res/detail_130290.html 重复下载不需要扣除积分
另外 你用爬虫群来重新运行第二级规则 在调度的高级设置里把“激活下级线索”设置为“否” 把“下级线索重复容忍度”设为100% 这样之前第三级采过的线索就不会重复采集了
举报 使用道具
地板
HJLing 版主 发表于 2016-6-20 14:16:09 | 只看该作者
还有你说的38万线索去重后只剩1万多 是因为你基本上线索都重复采集了 一条线索一个clueid 看了你的结果文件基本每个clueid都生成几条结果 所以你现在重新运行第二级的时候按照我上面那条回复 能避免重复采集
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-23 20:12