本帖最后由 zhuohui1987 于 2018-5-4 15:40 编辑

主题:苏州大数据1
主题:苏州大数据2

老是无法定位到节点,我但是数据可以采集下,关键我怕有漏啊,一直有出现重复的
举报 使用道具
| 回复

共 12 个关于本帖的回复 最后回复于 2018-5-5 12:02

沙发
shengchengx 金牌会员 发表于 2018-5-4 15:44:40 | 只看该作者

一直提示我在微信客户端打开。
举报 使用道具
板凳
zhuohui1987 金牌会员 发表于 2018-5-4 16:09:46 | 只看该作者
shengchengx 发表于 2018-5-4 15:44
一直提示我在微信客户端打开。

添加user agent

Mozilla/5.0 (Linux; Android 6.0; 1503-M02 Build/MRA58K) AppleWebKit/537.36 (KHTML, like Gecko) Version/4.0 Chrome/37.0.0.0 Mobile MQQBrowser/6.2 TBS/036558 Safari/537.36 MicroMessenger/6.3.25.861 NetType/WIFI Language/zh_CN
举报 使用道具
地板
bowieD 金牌会员 发表于 2018-5-4 16:50:03 | 只看该作者
本帖最后由 bowieD 于 2018-5-4 16:54 编辑
zhuohui1987 发表于 2018-5-4 16:09
添加user agent

Mozilla/5.0 (Linux; Android 6.0; 1503-M02 Build/MRA58K) AppleWebKit/537.36 (KHTML, ...

1、规则设置没有问题,前面两个动作可以不设置为必做,每一个动作都不用勾选模拟点击,在连续动作的高级设置中设置
2、二级规则不用把每个抓取内容都设置为关键内容,只设置一个必能抓取到的字段为关键内容就行了,否则遇到缺少字段的页面就会报错
举报 使用道具
5#
zhuohui1987 金牌会员 发表于 2018-5-4 16:57:22 | 只看该作者
bowieD 发表于 2018-5-4 16:50
1、规则设置没有问题,前面两个动作可以不设置为必做,每一个动作都不用勾选模拟点击,在连续动作的高级设 ...

这么弄一下更不能用了啊
举报 使用道具
6#
bowieD 金牌会员 发表于 2018-5-4 17:01:14 | 只看该作者
zhuohui1987 发表于 2018-5-4 16:57
这么弄一下更不能用了啊

如果不行就都勾上必做,第一个可以不用勾选,我这边测试可以采集
举报 使用道具
7#
zhuohui1987 金牌会员 发表于 2018-5-4 17:01:23 | 只看该作者
bowieD 发表于 2018-5-4 16:50
1、规则设置没有问题,前面两个动作可以不设置为必做,每一个动作都不用勾选模拟点击,在连续动作的高级设 ...

详细地址不能更换会出现重复采集啊,会都是停留在第一条中
举报 使用道具
8#
bowieD 金牌会员 发表于 2018-5-4 17:04:11 | 只看该作者
zhuohui1987 发表于 2018-5-4 17:01
详细地址不能更换会出现重复采集啊,会都是停留在第一条中

可以看下《连续动作的界面介绍》中必做的介绍
举报 使用道具
9#
bowieD 金牌会员 发表于 2018-5-4 17:18:31 | 只看该作者
zhuohui1987 发表于 2018-5-4 17:01
详细地址不能更换会出现重复采集啊,会都是停留在第一条中

似乎不可以两个动作同时循环,你可以把动作3-》循环楼层 改成点击单个的楼栋,

例如采集第一个楼栋,xpath就写成//*[@class='item-content'][position()=1] 进行采集
然后采集第二个楼栋,xpath就改成//*[@class='item-content'][position()=2],再保存规则运行采集

举报 使用道具
10#
wangyong 版主 发表于 2018-5-4 20:11:54 | 只看该作者
第一个规则里连续动作的第一个步骤和第三个步骤得xpath都定位不到节点

你把要用连续动作实现的循环截图说明一下
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-19 07:03