快捷导航
我先用账号登录北>**(不当用词)宝,想爬取2009-今的所有中央级的卫生领域政策文件,所以设置了输入时间、选择法规类别和选择分组方式(按时间排序),但是打数机似乎只是刷新了网页就退出了,不知道怎么解决
输入日期开始.png
问题1.png
提交检索.png
选择法规类别.png
选择分组方式高级设置.png
选择分组.png
输入日期结束.png
举报 使用道具
| 回复

共 8 个关于本帖的回复 最后回复于 2019-10-7 14:51

Fuller 管理员 发表于 2019-10-6 10:04:22 | 显示全部楼层
因为这个网站要登录,我无法用真实网页检查你的规则,只能这样提出建议:
1,我看到你定义了5个操作步骤,你勾选每个步骤的“高级设置”,给每个步骤设置上“额外延迟”,比如,3秒,观察哪个步骤没有作用
2,第一步是输入动作,“高级设置”那里,勾上“输入联想”,很多网页不勾这个的话,即使输入了,也不起作用
3,第二步也一样
4,第三步和第四步,都是选择,xpath要定位到一个select节点,不能定位到option节点
5,除了最后一步,其他步骤都可以不勾“必做”
举报 使用道具
FancyCroissant 新手上路 发表于 2019-10-6 12:44:16 | 显示全部楼层
Fuller 发表于 2019-10-6 10:04
因为这个网站要登录,我无法用真实网页检查你的规则,只能这样提出建议:
1,我看到你定义了5个操作步骤, ...

您好,我刚刚按照您说的那几条尝试修改了,其他都成功了,但是在选择“法规类别”的时候,就是到这一个动作的时候显示“匹配失败”。因为它是个弹窗而不是严格的下拉单,我就又尝试在第一级规则的最后一个动作设置了点击“法规类别”,然后在打开弹窗的界面创建了下级规则,还是用的选项功能。我找到了弹窗的selection节点进行了Xpath定位,然后找到option节点,显示是第1017个选项,所以我在高级选项里设置了起点1017跨度1000(最后的option是1168所以应该是总共1168个选项)。但是打数机显示匹配失败,请问是因为选项太多需要滚屏吗?还是有什么别的原因呢?
选择卫生高级设置.png
选择卫生.png
举报 使用道具
wangyong 版主 发表于 2019-10-6 13:23:52 | 显示全部楼层
FancyCroissant 发表于 2019-10-6 12:44
您好,我刚刚按照您说的那几条尝试修改了,其他都成功了,但是在选择“法规类别”的时候,就是到这一个动 ...

出现匹配失败的原因是勾了关键内容的抓取内容没有在网页上出现。

在这个规则的情况下应该是第一级规则里的动作步骤有没成功执行的动作,所以导致需要做动作才显示的网页内容没有出现导致匹配失败

可以把打数机上的日志栏点开查看具体是哪条步骤没有定位到。

list1006.png
举报 使用道具
FancyCroissant 新手上路 发表于 2019-10-6 17:16:33 | 显示全部楼层
wangyong 发表于 2019-10-6 13:23
出现匹配失败的原因是勾了关键内容的抓取内容没有在网页上出现。

在这个规则的情况下应该是第一级规则里 ...

在线索里显示“匹配失败”后就一直卡着,然后日志就显示“抓取失败(超时),抓取规则不合适或超时实践设置太短“,我就是在弹窗里选择“卫生”这一项动作匹配失败了,在这一级规则里我只设置了这一个动作,但是不知道为什么会失败
举报 使用道具
Fuller 管理员 发表于 2019-10-6 19:37:12 | 显示全部楼层
FancyCroissant 发表于 2019-10-6 17:16
在线索里显示“匹配失败”后就一直卡着,然后日志就显示“抓取失败(超时),抓取规则不合适或超时实践设 ...

如果是手工浏览网页,在完成输入和选择以后,观察一下网址会不会变化?如果网址里面含有搜索条件,就不用做连续动作了,直接构造网址就行了

现在的问题焦点应该是那个选择法规类别。很可能那个select节点是不起作用的,它的存在只是为了罗列这些选项,而真正做选择的时候,是要用点击动作的。可以检查一下,那个弹窗出现以后,选择菜单 规则-》刷新页面结构,然后点击某一个选项,看看定位到一个什么节点?是select还是其他节点,如果不是select,那么不能用选择动作
举报 使用道具
FancyCroissant 新手上路 发表于 2019-10-7 01:24:48 | 显示全部楼层
Fuller 发表于 2019-10-6 19:37
如果是手工浏览网页,在完成输入和选择以后,观察一下网址会不会变化?如果网址里面含有搜索条件,就不用 ...

输入条件后网址没有变化所以只好设置连续动作,然后我要选择的那个选项在网页中确实是SELECT下面的一个OPTION
option.png
select.png
举报 使用道具
Fuller 管理员 发表于 2019-10-7 09:57:47 | 显示全部楼层
FancyCroissant 发表于 2019-10-7 01:24
输入条件后网址没有变化所以只好设置连续动作,然后我要选择的那个选项在网页中确实是SELECT下面的一个OP ...

xpath定位到要点击的option,动作类型设置成“点击”,因为select在网页上不会显示成这个样子。再点击“高级设置”,不要勾“模拟点击”,因为这个列表显示在一个iframe中,模拟点击点不准。
点击选项以后,这个弹窗会消失吗?
举报 使用道具
FancyCroissant 新手上路 发表于 2019-10-7 14:51:14 | 显示全部楼层
本帖最后由 FancyCroissant 于 2019-10-7 15:56 编辑
Fuller 发表于 2019-10-7 09:57
xpath定位到要点击的option,动作类型设置成“点击”,因为select在网页上不会显示成这个样子。再点击“ ...

点击后弹窗会消失,根据您说的修改后还是匹配失败
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • NLP文本情感分析入门
  • 机器学习算法入门介绍
  • 中文分词入门和分词工具汇总攻略
  • 自然语言处理NLP的一般处理流程
  • 关于鸿蒙操作系统的知乎讨论热点分析

热门用户

GMT+8, 2019-10-16 00:12