我先用账号登录北>**(不当用词)宝,想爬取2009-今的所有中央级的卫生领域政策文件,所以设置了输入时间、选择法规类别和选择分组方式(按时间排序),但是打数机似乎只是刷新了网页就退出了,不知道怎么解决

输入日期开始.png (993.78 KB, 下载次数: 644)

输入日期开始.png

问题1.png (603.21 KB, 下载次数: 667)

问题1.png

提交检索.png (1.02 MB, 下载次数: 660)

提交检索.png

选择法规类别.png (1.31 MB, 下载次数: 682)

选择法规类别.png

选择分组方式高级设置.png (28.84 KB, 下载次数: 644)

选择分组方式高级设置.png

选择分组.png (1022.41 KB, 下载次数: 650)

选择分组.png

输入日期结束.png (1008.8 KB, 下载次数: 669)

输入日期结束.png
举报 使用道具
| 回复

共 8 个关于本帖的回复 最后回复于 2019-10-7 14:51

沙发
Fuller 管理员 发表于 2019-10-6 10:04:22 | 只看该作者
因为这个网站要登录,我无法用真实网页检查你的规则,只能这样提出建议:
1,我看到你定义了5个操作步骤,你勾选每个步骤的“高级设置”,给每个步骤设置上“额外延迟”,比如,3秒,观察哪个步骤没有作用
2,第一步是输入动作,“高级设置”那里,勾上“输入联想”,很多网页不勾这个的话,即使输入了,也不起作用
3,第二步也一样
4,第三步和第四步,都是选择,xpath要定位到一个select节点,不能定位到option节点
5,除了最后一步,其他步骤都可以不勾“必做”
举报 使用道具
板凳
FancyCroissant 新手上路 发表于 2019-10-6 12:44:16 | 只看该作者
Fuller 发表于 2019-10-6 10:04
因为这个网站要登录,我无法用真实网页检查你的规则,只能这样提出建议:
1,我看到你定义了5个操作步骤, ...

您好,我刚刚按照您说的那几条尝试修改了,其他都成功了,但是在选择“法规类别”的时候,就是到这一个动作的时候显示“匹配失败”。因为它是个弹窗而不是严格的下拉单,我就又尝试在第一级规则的最后一个动作设置了点击“法规类别”,然后在打开弹窗的界面创建了下级规则,还是用的选项功能。我找到了弹窗的selection节点进行了Xpath定位,然后找到option节点,显示是第1017个选项,所以我在高级选项里设置了起点1017跨度1000(最后的option是1168所以应该是总共1168个选项)。但是打数机显示匹配失败,请问是因为选项太多需要滚屏吗?还是有什么别的原因呢?

选择卫生高级设置.png (28.89 KB, 下载次数: 652)

选择卫生高级设置.png

选择卫生.png (1.07 MB, 下载次数: 699)

选择卫生.png
举报 使用道具
地板
wangyong 版主 发表于 2019-10-6 13:23:52 | 只看该作者
FancyCroissant 发表于 2019-10-6 12:44
您好,我刚刚按照您说的那几条尝试修改了,其他都成功了,但是在选择“法规类别”的时候,就是到这一个动 ...

出现匹配失败的原因是勾了关键内容的抓取内容没有在网页上出现。

在这个规则的情况下应该是第一级规则里的动作步骤有没成功执行的动作,所以导致需要做动作才显示的网页内容没有出现导致匹配失败

可以把打数机上的日志栏点开查看具体是哪条步骤没有定位到。


举报 使用道具
5#
FancyCroissant 新手上路 发表于 2019-10-6 17:16:33 | 只看该作者
wangyong 发表于 2019-10-6 13:23
出现匹配失败的原因是勾了关键内容的抓取内容没有在网页上出现。

在这个规则的情况下应该是第一级规则里 ...

在线索里显示“匹配失败”后就一直卡着,然后日志就显示“抓取失败(超时),抓取规则不合适或超时实践设置太短“,我就是在弹窗里选择“卫生”这一项动作匹配失败了,在这一级规则里我只设置了这一个动作,但是不知道为什么会失败
举报 使用道具
6#
Fuller 管理员 发表于 2019-10-6 19:37:12 | 只看该作者
FancyCroissant 发表于 2019-10-6 17:16
在线索里显示“匹配失败”后就一直卡着,然后日志就显示“抓取失败(超时),抓取规则不合适或超时实践设 ...

如果是手工浏览网页,在完成输入和选择以后,观察一下网址会不会变化?如果网址里面含有搜索条件,就不用做连续动作了,直接构造网址就行了

现在的问题焦点应该是那个选择法规类别。很可能那个select节点是不起作用的,它的存在只是为了罗列这些选项,而真正做选择的时候,是要用点击动作的。可以检查一下,那个弹窗出现以后,选择菜单 规则-》刷新页面结构,然后点击某一个选项,看看定位到一个什么节点?是select还是其他节点,如果不是select,那么不能用选择动作
举报 使用道具
7#
FancyCroissant 新手上路 发表于 2019-10-7 01:24:48 | 只看该作者
Fuller 发表于 2019-10-6 19:37
如果是手工浏览网页,在完成输入和选择以后,观察一下网址会不会变化?如果网址里面含有搜索条件,就不用 ...

输入条件后网址没有变化所以只好设置连续动作,然后我要选择的那个选项在网页中确实是SELECT下面的一个OPTION

option.png (270.43 KB, 下载次数: 651)

option.png

select.png (1.26 MB, 下载次数: 661)

select.png
举报 使用道具
8#
Fuller 管理员 发表于 2019-10-7 09:57:47 | 只看该作者
FancyCroissant 发表于 2019-10-7 01:24
输入条件后网址没有变化所以只好设置连续动作,然后我要选择的那个选项在网页中确实是SELECT下面的一个OP ...

xpath定位到要点击的option,动作类型设置成“点击”,因为select在网页上不会显示成这个样子。再点击“高级设置”,不要勾“模拟点击”,因为这个列表显示在一个iframe中,模拟点击点不准。
点击选项以后,这个弹窗会消失吗?
举报 使用道具
9#
FancyCroissant 新手上路 发表于 2019-10-7 14:51:14 | 只看该作者
本帖最后由 FancyCroissant 于 2019-10-7 15:56 编辑
Fuller 发表于 2019-10-7 09:57
xpath定位到要点击的option,动作类型设置成“点击”,因为select在网页上不会显示成这个样子。再点击“ ...

点击后弹窗会消失,根据您说的修改后还是匹配失败
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-20 09:27