11#
limingda 初级会员 发表于 2016-10-5 23:02:12 | 只看该作者
Fuller 发表于 2016-8-3 21:38
colspan能够用xpath定位到,但是在MS谋数台的DOM树窗口中不显示,必须xpath这样写
就能把第一号的td下的c ...

遇到了同样的问题,能辛苦您讲详细讲解一下, “ 第一号的td下的colspan抓取下来”,具体的抓取步骤么?谢谢!
举报 使用道具
12#
Fuller 管理员 发表于 2016-10-5 23:42:56 | 只看该作者
limingda 发表于 2016-10-5 23:02
遇到了同样的问题,能辛苦您讲详细讲解一下, “ 第一号的td下的colspan抓取下来”,具体的抓取步骤么? ...

要抓colspan的话,需要自定义XPath,这个XPath可能是这样的:xxxx/td/@colspan。前面的xxx到底是什么,要根据实际网页的结构写
举报 使用道具
13#
limingda 初级会员 发表于 2016-10-6 07:18:12 | 只看该作者
Fuller 发表于 2016-10-5 23:42
要抓colspan的话,需要自定义XPath,这个XPath可能是这样的:xxxx/td/@colspan。前面的xxx到底是什么,要 ...

十分感谢您回复!
用//td[position()=1]/@colspan  和 **//td/@colspan 搜索不到
可以用//td[position()=1]搜到单元格,表格结构如下图,请问下一步该怎样?


举报 使用道具
14#
limingda 初级会员 发表于 2016-10-6 07:18:31 | 只看该作者
举报 使用道具
15#
limingda 初级会员 发表于 2016-10-6 07:28:37 | 只看该作者
希望获取的就是这张表的内容
http://f10.eastmoney.com/f10_v2/BusinessAnalysis.aspx?code=sz300547
举报 使用道具
16#
Fuller 管理员 发表于 2016-10-6 07:40:19 | 只看该作者
limingda 发表于 2016-10-6 07:18
十分感谢您回复!
用//td/@colspan  和 **//td/@colspan 搜索不到
可以用//td搜到单元格,表格结构如下图 ...

**//td/@colspan 这个写法不对

用//td[position()=1]/@colspan  在MS谋数台上搜不到的原因是MS的DOM上不显示colspan,MS的DOM过滤掉了很多属性。但是并不代表用这个表达式抓不到数据。只是不显示
举报 使用道具
17#
Fuller 管理员 发表于 2016-10-6 07:43:07 | 只看该作者
limingda 发表于 2016-10-6 07:28
希望获取的就是这张表的内容
http://f10.eastmoney.com/f10_v2/BusinessAnalysis.aspx?code=sz300547
...

这种表格抓取下来以后还需要一个程序把每个单元格的位置对齐。我们通常用sql程序。

把抓取结果存入数据库以后,写sql程序,把每个单元格对齐。第一行没有问题,第二行的时候,根据colspan值,就知道这行是否需要右移一格
举报 使用道具
18#
limingda 初级会员 发表于 2016-10-6 07:51:42 | 只看该作者
感谢您的回复,昨天睡那么晚,也这么早!
发现你公司离我这很近,有空可以一起聚聚
举报 使用道具
19#
limingda 初级会员 发表于 2016-10-6 08:35:51 | 只看该作者
Fuller 发表于 2016-10-6 07:43
这种表格抓取下来以后还需要一个程序把每个单元格的位置对齐。我们通常用sql程序。

把抓取结果存入数据 ...

好的,谢谢提醒,我还在折腾怎么抓下来你
举报 使用道具
20#
Fuller 管理员 发表于 2016-10-6 09:58:46 | 只看该作者
limingda 发表于 2016-10-6 07:51
感谢您的回复,昨天睡那么晚,也这么早!
发现你公司离我这很近,有空可以一起聚聚 ...

好啊,欢迎到我们公司做客
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-28 06:20