第一层规则名:飞猪2nd店铺test
第二层规则名:飞猪悬浮test
测试页面:https://zjttfly.fliggy.com/shop/ ... 55.9.7fb84a0aOlLom1

需要抓取的信息,见图片:需要抓取的信息.png

调整抓取时的配置参数,超时时长:10秒,滚屏次数:0次
确保在抓取过程中鼠标未移动。
多次调整参数,但都显示抓取失败,显示日志,见图:日志显示.png

请教这是什么原因,哪里出了问题,谢谢!

需要抓取的信息.PNG (221.25 KB, 下载次数: 559)

需要抓取的信息.PNG

日志显示.PNG (5.16 KB, 下载次数: 552)

日志显示.PNG
举报 使用道具
| 回复

共 9 个关于本帖的回复 最后回复于 2018-8-8 21:09

沙发
wangyong 版主 发表于 2018-8-7 14:17:58 | 只看该作者
第二级规则做的不正确,需要重新映射,昨晚内容映射后对整理箱顶节点和每个抓取内容做上定位标志映射
举报 使用道具
板凳
CaptainZ 初级会员 发表于 2018-8-7 15:00:55 | 只看该作者
wangyong 发表于 2018-8-7 14:17
第二级规则做的不正确,需要重新映射,昨晚内容映射后对整理箱顶节点和每个抓取内容做上定位标志映射 ...

非常感谢提醒,我重新修改了规则,见图”规则:飞猪悬浮test.png“,现在能够执行连续动作了,但是导出的Excel表里,公司名以及所在地为空,见图:excel表.png,这是什么原因导致的呢?

规则:飞猪悬浮test.PNG (170.67 KB, 下载次数: 556)

规则:飞猪悬浮test.PNG

Excel.PNG (19.25 KB, 下载次数: 549)

Excel.PNG
举报 使用道具
地板
CaptainZ 初级会员 发表于 2018-8-7 16:20:52 | 只看该作者
CaptainZ 发表于 2018-8-7 15:00
非常感谢提醒,我重新修改了规则,见图”规则:飞猪悬浮test.png“,现在能够执行连续动作了,但是导出的 ...

每次保存之后再打开规则,公司名和所在地都会映射成店名,这个请问是为什么呢?
举报 使用道具
5#
Fuller 管理员 发表于 2018-8-7 17:41:06 | 只看该作者
CaptainZ 发表于 2018-8-7 16:20
每次保存之后再打开规则,公司名和所在地都会映射成店名,这个请问是为什么呢?
...



定位标志映射用一样的值就会混淆,可以选用红框里面的三个。但是,中间一个class中含有一串数字,可能每个网页的都不一样,如果都不一样,需要自定义xpath。步骤是:
1,先用3个红框的节点做定位标志映射
2,点击测试按钮,在弹出窗口中选择 “查看规则”,找到那个公司名对应的xpath
3,修改xpath,将@class='xxx',改成contains(@class, 'shop-company')
举报 使用道具
6#
CaptainZ 初级会员 发表于 2018-8-8 15:45:13 | 只看该作者
Fuller 发表于 2018-8-7 17:41
定位标志映射用一样的值就会混淆,可以选用红框里面的三个。但是,中间一个class中含有一串数字,可能每 ...

“2,点击测试按钮,在弹出窗口中选择 “查看规则”,找到那个公司名对应的xpath”
这一步里面说的“查看规则”是在哪里?

举报 使用道具
7#
Fuller 管理员 发表于 2018-8-8 17:36:10 | 只看该作者
CaptainZ 发表于 2018-8-8 15:45
“2,点击测试按钮,在弹出窗口中选择 “查看规则”,找到那个公司名对应的xpath”
这一步里面说的“查看 ...


上面截图是输出窗口,点击“数据规则”就能看到规则
举报 使用道具
8#
Fuller 管理员 发表于 2018-8-8 17:37:24 | 只看该作者
要注意一点:直接修改数据规则的话,要用数据规则窗口中的“保存修改”进行保存,不能再用“存规则”按钮了,因为“存规则”按钮是用自动生成的规则,会覆盖掉你的修改
举报 使用道具
9#
CaptainZ 初级会员 发表于 2018-8-8 19:28:29 | 只看该作者
Fuller 发表于 2018-8-8 17:37
要注意一点:直接修改数据规则的话,要用数据规则窗口中的“保存修改”进行保存,不能再用“存规则”按钮了 ...

是这样么?

修改Xpath.PNG (47.59 KB, 下载次数: 519)

修改Xpath.PNG
举报 使用道具
10#
Fuller 管理员 发表于 2018-8-8 21:09:12 | 只看该作者

你直接修改规则吗?

我看了一下,用自定义xpath更好,因为自定义xpath不怕点击“存规则”冲掉手工修改的部分。就用“存规则”存好了。根据你的截图,我猜自定义xpath应该是这样
  1. .//*[@class=contains(@class, 'shop-company']/div/text()
复制代码


注意开头是 .//* 要比 *//* 好,用一个就 .//*就够了,不用想生成的采集规则那样连续有4行xpath

自定义xpath的用法参看:https://www.gooseeker.com/doc/thread-701-1-1.html
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-20 01:14