抓取链接:http://k.autohome.com.cn/656/###

定位的 【展开全部口碑】连续动作的 xpath 一共有15个, 我想每点击一次就抓一些数据。
目前做的两个规则,一个负责做动作,一个负责抓取。从打数机工作的反馈来看,有显示调用连续动作,但抓出来的xml文件数据中并没有动作之后的内容。。不知道问题出在哪。请社区管理大拿帮忙看看咯。


动作主题名称:汽车之家口碑_动作

采集规则名称:汽车之家口碑_数据

此外,在此想问下连续动作的循环逻辑是啥?
举报 使用道具
| 回复

共 13 个关于本帖的回复 最后回复于 2017-9-8 11:18

Fuller 管理员 发表于 2017-9-7 22:20:21 | 显示全部楼层
要想了解循环逻辑,可以看这个文档:http://www.gooseeker.com/doc/article-225-1.html
举报 使用道具
Fuller 管理员 发表于 2017-9-7 22:21:29 | 显示全部楼层
这个基本概念文档也讲了循环逻辑 http://www.gooseeker.com/doc/article-370-1.html
举报 使用道具
Fuller 管理员 发表于 2017-9-7 22:35:26 | 显示全部楼层
我测试了,运行看起来挺好,你抓取的第二级结果有问题?
举报 使用道具
Automobile86 中级会员 发表于 2017-9-7 23:07:34 | 显示全部楼层
Fuller 发表于 2017-9-7 22:35
我测试了,运行看起来挺好,你抓取的第二级结果有问题?

嗯嗯,对的。
辛苦这么晚还在回复哈,敬礼~
举报 使用道具
Fuller 管理员 发表于 2017-9-8 08:55:30 | 显示全部楼层
Automobile86 发表于 2017-9-7 23:07
嗯嗯,对的。
辛苦这么晚还在回复哈,敬礼~

第二级结果是什么问题?哪里不符合你的预期?
举报 使用道具
Automobile86 中级会员 发表于 2017-9-8 08:57:41 | 显示全部楼层
Fuller 发表于 2017-9-8 08:55
第二级结果是什么问题?哪里不符合你的预期?

第二级的结果 无法抓取 点击【展开全部口碑】动作之后的剩余内容。

有空帮忙看看呗。
举报 使用道具
Automobile86 中级会员 发表于 2017-9-8 09:12:23 | 显示全部楼层
Fuller 发表于 2017-9-8 08:55
第二级结果是什么问题?哪里不符合你的预期?

做动作的前后 网页结构有细微变化。

但我用xpath定义的抓取内容节点   //*[@class='text-con ']     在动作前后均是我想要抓取内容的父节点

艾玛,始终抓取不到动作之后 剩余内容。


举报 使用道具
bowieD 金牌会员 发表于 2017-9-8 09:55:07 | 显示全部楼层
你的规则可以抓取到动作之后的剩余内容,但是抓取不全,因为汽车之家做了反扒升级,当前版本抓取不了,需要定制一个升级的爬虫版本来抓取这种页面结构。
举报 使用道具
Automobile86 中级会员 发表于 2017-9-8 10:05:12 | 显示全部楼层
bowieD 发表于 2017-9-8 09:55
你的规则可以抓取到动作之后的剩余内容,但是抓取不全,因为汽车之家做了反扒升级,当前版本抓取不了,需要 ...

目前xml文档显示是完全抓不到剩余内容呢。我去学学python试试看。

举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-29 06:14