我的主题名是“样例复制的困惑”。

想抓取页面的“姓名”和“详情链接”。就是想要所有的姓名和部分有链接的网址(该链接打算做层级采集的线索)。

这个页面所有想要的内容都在一个div下,但想抓取内容的id和class却什么都没有,而且一个p下面是一行信息(包含了好几个A,A里面有想要的姓名和链接)。如果对P做样例复制,只能采集到每行的第一个A;如果对P里面的A做样例复制,抓取到没有链接的地方就停下来了,甚至连第一个P里的A都没抓完。

以上情况该怎么做规则?



举报 使用道具
| 回复

共 6 个关于本帖的回复 最后回复于 2017-4-14 14:48

沙发
HJLing 版主 发表于 2017-3-31 16:08:57 | 只看该作者
主题名是什么
举报 使用道具
板凳
mygoseeker 新手上路 发表于 2017-3-31 16:21:04 | 只看该作者

我的主题名就是“样例复制的困惑”。
举报 使用道具
地板
HJLing 版主 发表于 2017-3-31 16:43:22 | 只看该作者
mygoseeker 发表于 2017-3-31 16:21
我的主题名就是“样例复制的困惑”。

这个页面不是很规整
有链接的名字会在a节点下 没有链接的名字在span节点下 甚至连在一起的多个没有链接的名字会在同一个span下


有个办法能采全名字 不过会放在同一个字段了 目前没有办法可以一个名字一个名字单独采
新建一个抓取字段采集每一行的全部名字 用那一行的p节点做内容映射 高级设置里勾上“文本内容”


用嵌套整理箱来采集才能采全链接
最外面的整理箱“师资信息”用每一行对应的p节点做样例复制
“样例复制”用a节点做样例复制


姓名要用自定义xpath

举报 使用道具
5#
Fuller 管理员 发表于 2017-3-31 16:44:31 | 只看该作者

用嵌套整理箱,里面那层容器节点,样例复制用A做映射,外边这层容器节点,样例复制用P做映射
举报 使用道具
6#
mygoseeker 新手上路 发表于 2017-4-14 14:46:13 | 只看该作者
HJLing 发表于 2017-3-31 16:43
这个页面不是很规整
有链接的名字会在a节点下 没有链接的名字在span节点下 甚至连在一起的多个没有链接的 ...

多谢HJLing版主的指点,目前只能做到这一步了。也算能部分解决问题。

举报 使用道具
7#
mygoseeker 新手上路 发表于 2017-4-14 14:48:21 | 只看该作者
Fuller 发表于 2017-3-31 16:44
用嵌套整理箱,里面那层容器节点,样例复制用A做映射,外边这层容器节点,样例复制用P做映射
...

多谢Fuller版主的详细说明,学习了嵌套样例复制,对gooseeker有了更多了解。

举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-27 16:37