本帖最后由 leixiaola 于 2017-7-4 09:02 编辑

地址:https://fw.tmall.com/tmall/ser/t ... rvice_code=ts-24834
连续点击主题:Tmall-TmallHKServiceProviderInfo--托管
采集页面主题:托管综合能力展示
目前问题
1.连续点击后所采集的内容相同。
2.最后一个更多为下拉菜单,不建立多个规则的情况可否结局?

需求
1.逐一点击红框标签后采集篮框中内容
2.更多下拉菜单点击后继续采集


托管综合能力展示-错误.zip

6.93 KB, 下载次数: 0

举报 使用道具
| 回复

共 12 个关于本帖的回复 最后回复于 2017-7-4 16:07

沙发
leixiaola 金牌会员 发表于 2017-7-3 19:09:11 | 只看该作者
本帖最后由 leixiaola 于 2017-7-3 20:08 编辑

NONE
举报 使用道具
板凳
leixiaola 金牌会员 发表于 2017-7-3 20:04:08 | 只看该作者
本帖最后由 leixiaola 于 2017-7-3 20:16 编辑

None
举报 使用道具
地板
gz51837844 管理员 发表于 2017-7-3 20:43:58 | 只看该作者
这个页面我测试了一下, 用连续动作点击, 高级设置里设置2秒的延迟
抓取内容我用样例复制
测试结果是可以抓到点击后的内容
只是每次点击都会在dom里增加新的内容, 最后一个点击抓取的是前面所有的内容

举报 使用道具
5#
leixiaola 金牌会员 发表于 2017-7-3 22:00:42 | 只看该作者
gz51837844 发表于 2017-7-3 20:43
这个页面我测试了一下, 用连续动作点击, 高级设置里设置2秒的延迟
抓取内容我用样例复制
测试结果是可以抓 ...

感谢回复!
按照您所述的调整了延迟两秒,内容改为样例复制。

但是抓出来的8个分栏内容依然全部相同。这是八个xml的最后一个文件



举报 使用道具
6#
gz51837844 管理员 发表于 2017-7-4 11:06:42 | 只看该作者
每一个tab点击过之后, 所在的div的class值就从"J_Detail capacity loading"变成"J_Detail capacity"
可以去掉样例复制, 改用"J_Detail capacity"做定位标志, 这样每个文件都是采集已点击过的所有tab的评分信息
举报 使用道具
7#
leixiaola 金牌会员 发表于 2017-7-4 11:40:14 | 只看该作者
gz51837844 发表于 2017-7-4 11:06
每一个tab点击过之后, 所在的div的class值就从"J_Detail capacity loading"变成"J_Detail capacity"
可以去 ...

按照你说的改了一下规则,依然抓出来重复内容。>——————<

现在的规则如图

举报 使用道具
8#
gz51837844 管理员 发表于 2017-7-4 12:15:00 | 只看该作者
我看你的规则里没有定义连续动作和爬虫路线, 所以运行结果应该就是采集当前的tab
举报 使用道具
9#
leixiaola 金牌会员 发表于 2017-7-4 12:22:03 | 只看该作者
本帖最后由 leixiaola 于 2017-7-4 12:27 编辑
gz51837844 发表于 2017-7-4 12:15
我看你的规则里没有定义连续动作和爬虫路线, 所以运行结果应该就是采集当前的tab ...

连续动作在“Tmall-TmallHKServiceProviderInfo--托管”这个主题里面

另外按照您这次指点的

增加了爬虫路线和连续动作在这个主题上,依旧采集相同内容。
您是否可以亲自尝试一下?
举报 使用道具
10#
gz51837844 管理员 发表于 2017-7-4 13:02:18 | 只看该作者
你是分2级规则来做的, 那第2级就不用爬虫路线和连续动作了
如前面所说, 每点击一次, class值等于"J_Detail capacity"的div就多一个, 而你是想抓取最后一个
可以对第2级规则"托管综合能力展示"进行如下修改:
1. 删除连续动作和爬虫路线
2. 对要抓的3个评分用xpath来定义3个字段来抓取, 分别为:
//*[@class='wrapper']/div[@class='J_Detail capacity'][last()]//ul[@class='rate-info']/li[1]
//*[@class='wrapper']/div[@class='J_Detail capacity'][last()]//ul[@class='rate-info']/li[2]
//*[@class='wrapper']/div[@class='J_Detail capacity'][last()]//ul[@class='rate-info']/li[3]
参考下图:

举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-2 19:56