本帖最后由 kartik 于 2018-5-27 22:24 编辑

如下:




规则名:qichacha_gd    下级线索:qichacha_gd_detail

测试数据:深圳市华侨(康桥)书院、 深圳市福田区新都文具
问题:点击测试按钮,是正常的,生成xml文件的时候数据有误。

谢谢大家~

举报 使用道具
| 回复

共 7 个关于本帖的回复 最后回复于 2018-5-27 23:01

沙发
shenzhenwan10 金牌会员 发表于 2018-5-27 09:27:23 | 只看该作者

加载你的规则,规则样本页面无法显示,暂时不能分析规则
举报 使用道具
板凳
kartik 初级会员 发表于 2018-5-27 09:32:36 | 只看该作者
shenzhenwan10 发表于 2018-5-27 09:27
加载你的规则,规则样本页面无法显示,暂时不能分析规则

他可能是用了首页的cookie,您先访问加载qichacha.com,再访问我的链接就可以了。
举报 使用道具
地板
Fuller 管理员 发表于 2018-5-27 10:57:40 | 只看该作者
kartik 发表于 2018-5-27 09:32
他可能是用了首页的cookie,您先访问加载qichacha.com,再访问我的链接就可以了。
...

我加载你的规则看了,规则加载没有问题,你遇到什么问题了?
举报 使用道具
5#
kartik 初级会员 发表于 2018-5-27 22:08:52 | 只看该作者
Fuller 发表于 2018-5-27 10:57
我加载你的规则看了,规则加载没有问题,你遇到什么问题了?

你好,爬取表格里的数据不对。不知道用什么定位比较好?
举报 使用道具
6#
kartik 初级会员 发表于 2018-5-27 22:23:33 | 只看该作者
Fuller 发表于 2018-5-27 10:57
我加载你的规则看了,规则加载没有问题,你遇到什么问题了?

点击测试按钮,是正常的,生成xml文件的时候数据有误。
举报 使用道具
7#
shenzhenwan10 金牌会员 发表于 2018-5-27 22:36:36 | 只看该作者
kartik 发表于 2018-5-27 22:23
点击测试按钮,是正常的,生成xml文件的时候数据有误。

这个详情页面,要准确的抓取每个字段的内容,可以用自定义xpath
比如: //*[@class='tb' and contains(./text(),'注册资本:')]/following-sibling::td[1]  就可以抓取到"注册资本"的实际内容
其它字段可以举一反三

举报 使用道具
8#
kartik 初级会员 发表于 2018-5-27 23:01:28 | 只看该作者
shenzhenwan10 发表于 2018-5-27 22:36
这个详情页面,要准确的抓取每个字段的内容,可以用自定义xpath
比如: //*[@class='tb' and contains(./ ...

非常感谢哥们
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-19 20:56