规则主题名称:翻页找标题+回复采集3+回复采集2,对应的就是“连续动作翻页→模拟点击→采集数据”

但现在爬数据,连续动作翻页做完,就显示采集完成了。而且连续动作只做到了输入页码,而没有按提交按键。我在步骤里都设置好了,为什么还不能按路线走呢? 谢谢大神。

举报 使用道具
| 回复

共 11 个关于本帖的回复 最后回复于 2018-1-28 09:19

沙发
wangyong 版主 发表于 2018-1-27 16:59:41 | 只看该作者
检查翻页找标题里的提交动作的xpath是否正确,是否定位到了多个点,xpath一定要准确指向要点击的位置
举报 使用道具
板凳
ro94426 新手上路 发表于 2018-1-27 17:11:42 | 只看该作者
wangyong 发表于 2018-1-27 16:59
检查翻页找标题里的提交动作的xpath是否正确,是否定位到了多个点,xpath一定要准确指向要点击的位置 ...

我用的Xpath是绝对定位的,那么在该页应该只有一个吧?
然后在爬的时候,发现框里已填了页码,但是公众号后台提示“请输入页码”……
这我就很奇怪了。



我用Xpath搜索我填写的path是只定位到一个的。


举报 使用道具
地板
ro94426 新手上路 发表于 2018-1-27 17:17:51 | 只看该作者
wangyong 发表于 2018-1-27 16:59
检查翻页找标题里的提交动作的xpath是否正确,是否定位到了多个点,xpath一定要准确指向要点击的位置 ...

然后爬数据的时候就这样[


举报 使用道具
5#
数据集 高级会员 发表于 2018-1-27 17:39:30 | 只看该作者
本帖最后由 数据集 于 2018-1-27 17:40 编辑

1,采集的时候显示请输入页码,出现这个提示点击动作应该是执行了的,检查一下你的输入动作有没有问题
2,翻页的话可以直接用记号线索,介绍了没有文本记号进行翻页,要用什么匹配。没必要使用连续动作。
举报 使用道具
6#
ro94426 新手上路 发表于 2018-1-27 17:44:35 | 只看该作者
数据集 发表于 2018-1-27 17:39
1,采集的时候显示请输入页码,出现这个提示点击动作应该是执行了的,检查一下你的输入动作有没有问题
2, ...

我想要在做区块翻页到第3页,如果要做记号翻页的话,得做完一个规则再做一个吧,如果页面很靠后,绝对是很不靠谱的做法。所以页码翻页,我也必须攻克。



举报 使用道具
7#
数据集 高级会员 发表于 2018-1-27 17:50:06 | 只看该作者
ro94426 发表于 2018-1-27 17:44
我想要在做区块翻页到第3页,如果要做记号翻页的话,得做完一个规则再做一个吧,如果页面很靠后,绝对是 ...

什么“做完一个规则再做一个”?记号线索翻页比连续动作更好用啊,翻页的效果也更好。
举报 使用道具
8#
ro94426 新手上路 发表于 2018-1-27 18:15:40 | 只看该作者
数据集 发表于 2018-1-27 17:50
什么“做完一个规则再做一个”?记号线索翻页比连续动作更好用啊,翻页的效果也更好。
...

公众号 “用户回复”的后台是这样的,左区块是每一篇推送,右边是左边选好推送的 回复内容。

当我要采集历史发送(也就是比较久远的推送)时,我必须在左边区块进行翻页动作才可以找到相应的「历史文章」,那这个时候翻页的次数和页数都是 既定的,就是我必须翻到某一页,那记号线索就不能很好完成任务(我记得在爬虫规则里面可以设置限制多少页)。如果我在爬虫规则里限制了翻页次数,那我右边区块的翻页次数也同时被限制了。非常尴尬,不灵活。


举报 使用道具
9#
ro94426 新手上路 发表于 2018-1-27 18:25:12 | 只看该作者
去看了一下,并不能规定记号线索翻页翻多少页,翻了一次就要指定下一个主题。下一个主题再设置记号翻页,我试了一下,翻不了……
举报 使用道具
10#
Fuller 管理员 发表于 2018-1-27 18:56:35 | 只看该作者
ro94426 发表于 2018-1-27 18:25
去看了一下,并不能规定记号线索翻页翻多少页,翻了一次就要指定下一个主题。下一个主题再设置记号翻页,我 ...

用记号线索翻页,下一个主题通常与当前主题名相同,这样才能实现连续翻页的操作。要把工作台的上“连贯抓取”勾上。

如果你用输入页码的连续动作,那么可以尝试设计高级设置,首先要加上额外延迟时间,因为有可能这个页面在输入了内容以后要执行js代码,另外,勾上“输入联想”,有些网页不勾上输入联想,就不是高仿真方式,就有可能抓取失败
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-25 23:01