集搜客GooSeeker网络爬虫

标题: 定义规则的页面在爬数据时加载不出来 [打印本页]

作者: 芝士蛋挞    时间: 2020-6-22 10:32
标题: 定义规则的页面在爬数据时加载不出来
我设置了三级规则:1、中石化首页;2、中石化环境报;3、中石化二级
我的“中石化首页”是在网页首页http://epaper.cenews.com.cn/html/2020-06/22/node_2.htm进行关键词“中石化”的检索,这一规则正常运行。
但是到检索结果页面,运行结束。
下一级规则未启动,即“中石化环境报”的页面没启动。我去爬“中石化环境报”的数据,显示规则页面加载不出来。[attach]12537[/attach]
请问大家如何解决

作者: Fuller    时间: 2020-6-22 11:11
点击搜索以后,会弹出新窗口,这个必须在第一级连续动作工作台那里设置飞掠模式。旗舰版才能设置。

另外,连续输入的定位表达式最好不要用绝对定位的xpath,很容易失效。我是用这个xpaht: //*[@id='contentKey'] 。高级设置那里设置额外延迟,比如,3秒,勾上“输入联想”更可靠一些。

我测试了一下,使用飞掠模式可以采集

作者: 芝士蛋挞    时间: 2020-6-22 11:43
Fuller 发表于 2020-6-22 11:11
点击搜索以后,会弹出新窗口,这个必须在第一级连续动作工作台那里设置飞掠模式。旗舰版才能设置。

另外, ...

请问如何在已有的规则里设置飞掠模式呀,还是说只能重新设置规则

作者: Fuller    时间: 2020-6-22 12:19
芝士蛋挞 发表于 2020-6-22 11:43
请问如何在已有的规则里设置飞掠模式呀,还是说只能重新设置规则

[attach]12542[/attach]

在第一级规则这里,勾上这个就行

作者: 芝士蛋挞    时间: 2020-6-22 15:19
Fuller 发表于 2020-6-22 12:19
在第一级规则这里,勾上这个就行

谢谢啦!





欢迎光临 集搜客GooSeeker网络爬虫 (https://www.gooseeker.com/doc/) Powered by Discuz! X3.2