层级抓取设置的第二级抓取内容只有三个,但最后爬数据显示的是整个二级页面的内容,为什么啊

   

举报 使用道具
| 回复

共 9 个关于本帖的回复 最后回复于 2016-12-23 10:17

沙发
ym 版主 发表于 2016-12-22 17:10:45 | 只看该作者
应该是网页结构很规范,你做的映射得到的规则,刚好满足了样例复制的条件,所以就自动把所有相同结构的信息都抓下来了。如果只想要第一条信息的话,那就修改整理箱的“定位”按钮,改为“绝对定位”。
举报 使用道具
板凳
ym 版主 发表于 2016-12-22 17:11:43 | 只看该作者
如果不是上面说的情况,那你就把主题名发出来,我分析一下
举报 使用道具
地板
懵懵的girl 初级会员 发表于 2016-12-23 09:03:24 | 只看该作者
我是想要利用层级抓取的功能,通过抓取第一级网页的所以链接,从而得到每个链接里的部分内容而不是全部内容。定位标志是指抓取第一条链接,还是每条链接里面的第一条内容?
举报 使用道具
5#
Fuller 管理员 发表于 2016-12-23 09:16:50 | 只看该作者
懵懵的girl 发表于 2016-12-23 09:03
我是想要利用层级抓取的功能,通过抓取第一级网页的所以链接,从而得到每个链接里的部分内容而不是全部内容 ...

假设二级产生了100个线索,你是只想抓取其中30个线索的内容?还是这100个线索都抓,但是在每个网页上抓一部分内容?
举报 使用道具
6#
懵懵的girl 初级会员 发表于 2016-12-23 09:36:56 | 只看该作者
是想抓100个线索,每个页面抓几个信息
举报 使用道具
7#
Fuller 管理员 发表于 2016-12-23 09:38:38 | 只看该作者
懵懵的girl 发表于 2016-12-23 09:36
是想抓100个线索,每个页面抓几个信息

那就是第二级规则怎么做的问题,可以限定一下抓取返回
举报 使用道具
8#
Fuller 管理员 发表于 2016-12-23 09:41:37 | 只看该作者
如果你想限定范围的话,可以参照《样例复制如何限定范围搜索》,建立一个嵌套的整理箱,整理箱顶层节点用于限定范围,第二层容器节点用于做样例复制
举报 使用道具
9#
懵懵的girl 初级会员 发表于 2016-12-23 10:07:42 | 只看该作者
抓取返回应该怎样设置啊
举报 使用道具
10#
懵懵的girl 初级会员 发表于 2016-12-23 10:17:17 | 只看该作者
懵懵的girl 发表于 2016-12-23 10:07
抓取返回应该怎样设置啊

不好意思,刚刚去查询了一下结果,就是我需要的几个信息,解决了。
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-5 18:04