规则名:北京律师查询-转到指定页
网址:http://www.bjsf.gov.cn/publish/portal0/tab143/
说明:该规则的目的是点击页码框——输入指定页码(例如:2071)——点击提交——转到相应页码(例如:第2071页)。出现的问题:运行该规则后,还是从第一页开始抓取数据,无法转到指定页码。尝试的解决办法:连续动作中定义的Xpath能够找到页码框和“转到”按钮,“内容映射”在INPUT标签下逐一尝试过,定位标志映射选择的是偏向id。以上均失败,求解决办法!
相关截图:

----


举报 使用道具
| 回复

共 7 个关于本帖的回复 最后回复于 2017-10-31 09:17

沙发
HJLing 版主 发表于 2016-11-29 14:09:51 | 只看该作者
你的连续动作是在iframe里做的 你的版本是多少 之前的版本有bug 你先升级到最新版再试试
举报 使用道具
板凳
gwqagent 中级会员 发表于 2016-11-29 15:10:12 | 只看该作者
我刚刚下载了最新的软件GS爬虫浏览器,版本号v8.04(2016.11.28)。测试了一下,仍然不行。我的连续动作分三步:1、点击页码框,定位表达式为//*[@id='ess_ctr706_LawyerSearchList_txtPageNum']<context>//*[@id='main']</context>;高级设置选中“模拟点击”、“窗口可见”;2、输入指定页码,定位表达式同上;未设置高级设置;3、点击提交,定位表达式为//*[@id='ess_ctr706_LawyerSearchList_lbtnGoto']<context>//*[@id='main']</context>;高级设置选中“模拟点击”、“窗口可见”。请问,以上设置是否有问题?如何解决?
举报 使用道具
地板
HJLing 版主 发表于 2016-11-29 16:02:20 | 只看该作者
换成偏好class
第一、二个动作://*[@class='ModResult律师查询C']/input<context>//*[@id='main']</context>
第三个动作://*[@class='CommandButton' and ./text()='转到']<context>//*[@id='main']</context>
高级设置不用设置 尤其是你现在在动作1里设置了重复次数为-1  这是不对的 实际上只需要执行一次动作即可
举报 使用道具
5#
gwqagent 中级会员 发表于 2016-12-1 12:48:36 | 只看该作者
问题解决,太感谢了!同时还学到了一条XPath写法。
举报 使用道具
6#
wjzeng 初级会员 发表于 2017-10-31 09:08:41 | 只看该作者
HJLing 发表于 2016-11-29 16:02
换成偏好class
第一、二个动作://*[@class='ModResult律师查询C']/input//*[@id='main']
第三个动作://*[ ...

版主,为什么换成偏好class了以后就能正确执行了呢?偏好class与偏好id有什么应用上的不同吗?

举报 使用道具
7#
umsung 高级会员 发表于 2017-10-31 09:15:57 | 只看该作者
wjzeng 发表于 2017-10-31 09:08
版主,为什么换成偏好class了以后就能正确执行了呢?偏好class与偏好id有什么应用上的不同吗?

...

具体要根据具体网站而定,一般都是一样的,只要xpath能定位到
举报 使用道具
8#
wjzeng 初级会员 发表于 2017-10-31 09:17:06 | 只看该作者
umsung 发表于 2017-10-31 09:15
具体要根据具体网站而定,一般都是一样的,只要xpath能定位到

好的,谢谢您~
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-27 00:19