主题名高管情况是会员有法律意见书

抓取网页 http://gs.amac.org.cn/amac-infodisc/res/pof/manager/101000000580.html

想把
法定代表人/执行事务合伙人(委派代表)工作履历 和
高管情况 这两个表格的内容分开来抓。但是我试了不同整理箱或者不同规则总是无法区分。两个表格的内容总是同时抓下来。 请问有什么解决办法么?

举报 使用道具
| 回复

共 3 个关于本帖的回复 最后回复于 2017-6-1 20:02

沙发
shenzhenwan10 金牌会员 发表于 2017-6-1 19:28:02 | 只看该作者
这个网页没有合适的class来区分工作履历 和高管情况, 只能写xpath, 并且要在数据规则页面直接修改样例的xpath
如果每个类似的页面都是固定的栏目, 你可以试试绝对定位
举报 使用道具
板凳
Fuller 管理员 发表于 2017-6-1 19:28:14 | 只看该作者
因为这两个表的结构没有任何区别,就容易采集错误。两个方案
1,点击“定位”按钮,选择绝对定位,但是,很可能会影响到规则的适应性,抓取其他网页可能会失败
2,利用网页上的标志。“高管情况”这串文字可以作为标志,要用自定义xpath,看下图


我把整理箱定义成嵌套的了,列表是在里面那个容器节点做样例复制
举报 使用道具
地板
yueguansz 中级会员 发表于 2017-6-1 20:02:23 | 只看该作者
好的。谢谢上面的回答!我来学习一下
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-20 20:52