http://tao.360che.com/carlist/index/c0_pr0_b0_pmin0_pmax0_s0/
以上是我采集的样本网址
一级规则主题名:卡车之家1
二级规则主题名:卡车之家12

为什么单搜规则1后,统计规则2中只有20个线索啊。哪里有错误,跪求指导


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
| 回复

共 6 个关于本帖的回复 最后回复于 2016-12-25 21:49

沙发
Fuller 管理员 发表于 2016-12-18 15:36:39 | 只看该作者


线索定位映射做的不对,要像上图那样做线索定位映射,这个操作相当于先划定一个网页区域,会在这个区域中根据“下一页”这个记号做定位,找到点击位置。
你做线索定位映射选的DOM节点不对,你选择了含有“下一页”的这个A节点,生成的翻页规则变成了 //*[@class='pages']/a[.//text()="下一页" and position()=5] 那么就限定死了是第5个节点,等到下一页的时候,可能就不是第五个节点了。

关于定位映射和记号映射的说明参看:《定位映射和记号映射的区别是什么

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
板凳
Givent 中级会员 发表于 2016-12-25 10:48:59 | 只看该作者
Fuller 发表于 2016-12-18 15:36
线索定位映射做的不对,要像上图那样做线索定位映射,这个操作相当于先划定一个网页区域,会在这个区域中 ...

按照你的要求改了,主题名卡车之家1 和卡车之家2  
还是采集不了!
举报 使用道具
地板
shenzhenwan10 金牌会员 发表于 2016-12-25 12:35:53 | 只看该作者
Givent 发表于 2016-12-25 10:48
按照你的要求改了,主题名卡车之家1 和卡车之家2  
还是采集不了!

采集不了具体是指什么?

举报 使用道具
5#
Givent 中级会员 发表于 2016-12-25 13:51:44 | 只看该作者
shenzhenwan10 发表于 2016-12-25 12:35
采集不了具体是指什么?


规则1没问题,规则2单搜的时候,就一直显示这个。我应该怎么设置呢

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
6#
shenzhenwan10 金牌会员 发表于 2016-12-25 21:33:53 | 只看该作者
你在MS谋数台上,菜单项:工具->加载规则->按线索号, 输入抓取失败信息里的线索编号,看看是不是你的规则和失败的页面不匹配
举报 使用道具
7#
Fuller 管理员 发表于 2016-12-25 21:49:44 | 只看该作者
Givent 发表于 2016-12-25 13:51
规则1没问题,规则2单搜的时候,就一直显示这个。我应该怎么设置呢

网页上出现“对不起....“,说明这个网页根本就没有,即使采集失败了也可以不用管。但是,采集失败往往要等到超时才能执行下一个线索,比较花时间,为了加快速度,可以针对“对不起。。。”这句话作一个抓取规则,与正常的规则采用相同主题名,但是规则编号不一样,这样就能快速跳过这个网页。

如果采集这种方法,一定要注意一点:两个规则的“存规则”顺序一定要注意,正常规则要放在最后存
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 360或火绒等杀毒软件导致GooSeeker爬虫软件
  • 话题分析(NMF模型和LDA模型)软件的安装和
  • 运行Apple无法验证的程序的方法
  • 文本聚类分析软件的安装和使用方法
  • 利用AI阅读和分析文本:扣子COZE记录用户反

热门用户

GMT+8, 2025-4-28 22:15