如图所示:
点击 连续动作爬取的  高管姓名与职位  是正确爬取的


网页格格式如下:


我再某数台的工作台是如下图所配:

(class 已 ‘ggshow ’开头的那几个div是对应的每个高管的简介)

我知道也可以使用定位标记映射,但是不管我怎么做,他的姓名与职位都正确,但是简介都是第一个人(class='ggshow on'  div 里的唯一  div 里的p标签里的值)的简介

!!请问大家:我要如何配置定位映射或者xpth才能 使简介 也连续爬取不一样的数据
举报 使用道具
| 回复

共 8 个关于本帖的回复 最后回复于 2017-3-16 15:24

沙发
shenzhenwan10 金牌会员 发表于 2017-3-8 18:41:26 | 只看该作者
你把主题名写出来, 管理员可以后台加载测试你的规则
举报 使用道具
板凳
Fuller 管理员 发表于 2017-3-8 18:45:25 | 只看该作者
我估计这些不用连续动作,这些信息已经加载到网页上了,只是没有显示出来。而每个高管的对应信息的class又相同,造成内容都串成第一个人的信息了。

如果是这样,不用连续动作,用样例复制一次就抓完了。主题名是什么?
举报 使用道具
地板
Shuquan 中级会员 发表于 2017-3-9 09:19:35 | 只看该作者
Fuller 发表于 2017-3-8 18:45
我估计这些不用连续动作,这些信息已经加载到网页上了,只是没有显示出来。而每个高管的对应信息的class又 ...

我觉得需要连续动作,虽然全部加载到网页上了,但是我要如何一个一个爬取呢,还要和姓名对应起来

主题名是    网贷之家_第二层_3.7       ———>   网贷之家_高管简介_3.8   ————>    网贷之家_高管信息_3.8


网贷之家_高管信息_3.8       这个是最终的爬数据层

3.81.png (134.94 KB, 下载次数: 807)

3.81.png
举报 使用道具
5#
scraper 论坛元老 发表于 2017-3-9 09:58:21 | 只看该作者
本帖最后由 scraper 于 2017-3-9 09:59 编辑

高管简介字段, 你用的自定义xpath:
//*[starts-with(@class,'ggshow')]/div/b[contains(text(),//*[@class='ggnav']/ul/li[@class='on']/a/span)]/../p
修改为:
//*[starts-with(@class,'ggshow') and @style='display: block;']/div/b[contains(text(),//*[@class='ggnav']/ul/li[@class='on']/a/span)]/../p
就正常了
举报 使用道具
6#
HJLing 版主 发表于 2017-3-9 09:59:22 | 只看该作者
Shuquan 发表于 2017-3-9 09:19
我觉得需要连续动作,虽然全部加载到网页上了,但是我要如何一个一个爬取呢,还要和姓名对应起来

主题名 ...


直接在第一个规则新建一个高管简介的容器节点
做样例复制就可以把全部高管都采下来了
不用连续动作去点

举报 使用道具
7#
Shuquan 中级会员 发表于 2017-3-16 15:08:47 | 只看该作者
HJLing 发表于 2017-3-9 09:59
直接在第一个规则新建一个高管简介的容器节点
做样例复制就可以把全部高管都采下来了
不用连续动作去点

那高管职位你就爬不到了


举报 使用道具
8#
ym 版主 发表于 2017-3-16 15:21:49 | 只看该作者
本帖最后由 ym 于 2017-3-16 15:23 编辑

你可以再建另一个整理箱,专门抓职位,最后在excel里用vlookup函数来关联对应,或者是入到数据库里清洗
举报 使用道具
9#
Shuquan 中级会员 发表于 2017-3-16 15:24:02 | 只看该作者
scraper 发表于 2017-3-9 09:58
高管简介字段, 你用的自定义xpath:
//*[starts-with(@class,'ggshow')]/div/b[contains(text(),//*[@class= ...

非常感谢,但是好像没用
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-7 20:24