请问动态表格的数据如何抓取？

kartik

本帖最后由 kartik 于 2018-5-27 22:24 编辑

如下：

规则名：qichacha_gd 下级线索：qichacha_gd_detail

测试数据：深圳市华侨（康桥）书院、深圳市福田区新都文具
问题：点击测试按钮，是正常的，生成xml文件的时候数据有误。

谢谢大家~

shenzhenwan10 · 发表于 2018-5-27 09:27:23

加载你的规则，规则样本页面无法显示，暂时不能分析规则

kartik · 发表于 2018-5-27 09:32:36

shenzhenwan10 发表于 2018-5-27 09:27
加载你的规则，规则样本页面无法显示，暂时不能分析规则

他可能是用了首页的cookie，您先访问加载qichacha.com，再访问我的链接就可以了。

Fuller · 发表于 2018-5-27 10:57:40

kartik 发表于 2018-5-27 09:32
他可能是用了首页的cookie，您先访问加载qichacha.com，再访问我的链接就可以了。
...

我加载你的规则看了，规则加载没有问题，你遇到什么问题了？

kartik · 发表于 2018-5-27 22:08:52

Fuller 发表于 2018-5-27 10:57
我加载你的规则看了，规则加载没有问题，你遇到什么问题了？

你好，爬取表格里的数据不对。不知道用什么定位比较好？

kartik · 发表于 2018-5-27 22:23:33

Fuller 发表于 2018-5-27 10:57
我加载你的规则看了，规则加载没有问题，你遇到什么问题了？

点击测试按钮，是正常的，生成xml文件的时候数据有误。

shenzhenwan10 · 发表于 2018-5-27 22:36:36

kartik 发表于 2018-5-27 22:23
点击测试按钮，是正常的，生成xml文件的时候数据有误。

这个详情页面，要准确的抓取每个字段的内容，可以用自定义xpath
比如： //*[@class='tb' and contains(./text(),'注册资本：')]/following-sibling::td[1] 就可以抓取到"注册资本"的实际内容
其它字段可以举一反三

kartik · 发表于 2018-5-27 23:01:28

shenzhenwan10 发表于 2018-5-27 22:36
这个详情页面，要准确的抓取每个字段的内容，可以用自定义xpath
比如： //*[@class='tb' and contains(./ ...

非常感谢哥们

共 7 个关于本帖的回复最后回复于 2018-5-27 23:01

	B Color Image Link Quote Code Smilies 高级模式您需要登录后才可以回帖登录 \| 立即注册回帖并转播回帖后跳转到最后一页