比如
<span class="txt1"></span>
<span class="txt2"></span>
<span class="txt3"></span>
请问如何获取各个span的class属性,即txt1,txt2,txt3
举报 使用道具
| 回复

共 5 个关于本帖的回复 最后回复于 2015-10-11 14:59

沙发
gooseeker_info 金牌会员 发表于 2015-10-10 16:42:57 | 只看该作者
在MS谋数台的网页结构窗口上,每个class都有一行,选中这一行,做内容映射,跟抓text是一样的
举报 使用道具
板凳
zuifengyun 新手上路 发表于 2015-10-10 17:00:15 | 只看该作者
gooseeker_info 发表于 2015-10-10 16:42
在MS谋数台的网页结构窗口上,每个class都有一行,选中这一行,做内容映射,跟抓text是一样的 ...

比如在class="txt1"上做内容映射,则只会抓取class为txt1的span,其余的为空,我刚刚看了一下其他的问题,得到启发,在自定义抓取规则里选择“自定义XPath”和“文本内容”,并且设置抓取内容表达式为*//*[substring(@class,1,3)='txt']/@class,这样就可以得到txt1,txt2,txt3了
举报 使用道具
地板
gooseeker_info 金牌会员 发表于 2015-10-10 17:35:03 | 只看该作者
zuifengyun 发表于 2015-10-10 17:00
比如在class="txt1"上做内容映射,则只会抓取class为txt1的span,其余的为空,我刚刚看了一下其他的问题 ...

我觉得也可以不用自定义xpath,在整理箱中定义一个容器节点,这个容器节点下在定义抓取内容存储这些class值,那么为这个容器节点做样例复制映射,用包含这些class的SPAN作为样例,应该也能抓下来
举报 使用道具
5#
zuifengyun 新手上路 发表于 2015-10-11 13:26:16 | 只看该作者
gooseeker_info 发表于 2015-10-10 17:35
我觉得也可以不用自定义xpath,在整理箱中定义一个容器节点,这个容器节点下在定义抓取内容存储这些class ...

还有一个问题,一个div中的内容为“2015-10-11 发表于”,我只想抓取时间而不想要后面的“发表于”,这该怎么办?
举报 使用道具
6#
Fuller 管理员 发表于 2015-10-11 14:59:48 | 只看该作者
zuifengyun 发表于 2015-10-11 13:26
还有一个问题,一个div中的内容为“2015-10-11 发表于”,我只想抓取时间而不想要后面的“发表于”,这该 ...

要用自定义xpath,可以设置抓取内容的xpath表达式和定位的xpath表达式不同。其中,抓取内容的xpath是substring-before(xxxxx, '发表于')。xxxxx也是xpath表达式,是定位的这个节点的。作为定位表达式
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 运行Apple无法验证的程序的方法
  • 文本聚类分析软件的安装和使用方法
  • 利用AI阅读和分析文本:扣子COZE记录用户反
  • 在网页片段内直观标注——以B站评论采集为
  • 利用AI阅读和分析文本:使用COZE建设游记文

热门用户

GMT+8, 2024-12-19 06:58