各位仁兄,小弟遇到个麻烦。最近在专利局网站上下载历年公布的专利信息。
http://epub.sipo.gov.cn/gjcx.jsp

连续动作分别是点击【发明公布】,输入【19850910】,输入【19851231】,点击底下的查询。但就是不出现正常的搜索结果,更别提翻页爬数据了,为之奈何?

专利局.png (66.32 KB, 下载次数: 719)

专利局高级搜索

专利局高级搜索
举报 使用道具
| 回复

共 7 个关于本帖的回复 最后回复于 2016-6-1 09:43

沙发
HJLing 版主 发表于 2016-5-31 21:45:25 | 只看该作者
1. 你的连续动作是否齐全 在MS定义的动作数量和顺序要和浏览器你做的动作完全一致 比如你在输入19850910之前是要先点击一下输入框 再输入那串数字的 你有没有定义那个点击的动作
2. 每一个步骤的Xpath是否准确 那个xpath路径找到的节点是否唯一
举报 使用道具
板凳
Fuller 管理员 发表于 2016-5-31 22:22:47 | 只看该作者
规则名是什么?

你是要输入 19850910 和 19851231 分别查一个结果吗?那么这个输入条件就应该是 19850910;;19851231
举报 使用道具
地板
Fuller 管理员 发表于 2016-5-31 22:35:44 | 只看该作者
根本原因是“发明公告”,“公布号”这些INPUT很容易定位不准,因为有相同class的INPUT有好多,所以,要准确些XPath,比如,

那个“发明公布”的xpath是//span[@class='marr' and contains(text(),'发明公布')]/input ,用contains()函数限定一下,否则含有class='marr"的有好几个,你可以把这个xpath输入到DOM树窗口下的那个输入框中,点击“搜索”按钮,看看搜到几个。

那个“公布号”xpath是://*[@id='pnm'] ,用id,就只有一个
举报 使用道具
5#
Fuller 管理员 发表于 2016-5-31 22:38:34 | 只看该作者

看这个图,学习使用搜索节点,检验xpath是否正确


举报 使用道具
6#
jacqueslukas 初级会员 发表于 2016-5-31 23:49:06 | 只看该作者
Fuller 发表于 2016-5-31 22:22
规则名是什么?

你是要输入 19850910 和 19851231 分别查一个结果吗?那么这个输入条件就应该是 19850910 ...

不是,我是想输入1985年09月10日到1985年12月31日这一期间,然后搜索出所有属于发明公布的专利。我的主题是:中国专利公布公告,规则名是:规则_3
举报 使用道具
7#
jacqueslukas 初级会员 发表于 2016-6-1 00:06:59 | 只看该作者
Fuller 发表于 2016-5-31 22:38
看这个图,学习使用搜索节点,检验xpath是否正确

我刚按你的方法更新了一下定位表达式,现在都是唯一的了,并且在输入之前加入了点击按钮,可惜还是不行,没有显示到搜索结果页面。

输出信息.jpg (146.45 KB, 下载次数: 737)

输出信息

输出信息
举报 使用道具
8#
HJLing 版主 发表于 2016-6-1 09:43:26 | 只看该作者
jacqueslukas 发表于 2016-6-1 00:06
我刚按你的方法更新了一下定位表达式,现在都是唯一的了,并且在输入之前加入了点击按钮,可惜还是不行, ...

加载了你的规则来看
1.第1个动作应该是点击而不是选择
2.第2,3,4,5,6这几个动作的xpath路径都不正确 都没有找到对应节点
3.这一系列动作之后页面发生变化了 所以连续动作工作台的目标主题名应该填写新的主题名 并定义新的主题名来采集动作后的数据
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-19 17:04