这是一个典型javascript 嵌套的目录页加列表页。但没有类似的视频,自己弄了3天了,解决不了,所以求救。

网页地址:http://www.valueonline.cn/laws/laws.html


规则第一层(左侧目录)ID: 法律法规20181212
规则第二层(右侧列表页及翻页)ID:法律法规20181211-2

问题是:定位错误。    左侧目录我不想从“全部”按钮开始,我想从“首发上市”开始。 可是每次搜索结果都是全部的列表。不知错规则一错在哪里, 点击无法准确定位第二层)


我采用了连续点击的教授的方法。可能是我没有吃透。一个是规则一的列表设的不对,第二是不是我的连续点击的XPATH 有问题。

另外是不是这样的情况下,左侧目录页还要样例复制?

请大佬帮忙。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
| 回复

共 5 个关于本帖的回复 最后回复于 2018-12-14 15:10

沙发
Fuller 管理员 发表于 2018-12-13 12:24:00 | 只看该作者
你的第一级规则的目的是为了点击“首发上市”吧?那么在连续动作工作台上就应该写一个xpath,能点击到这个“首发上市”。这个首发上市按钮对应了DOM上一个A节点,可以用显示XPath按钮产生XPath。如图
我选择了“显示XPath:只用id”,因为上图红框里面那个id是唯一的,所以一定会定位到“首发上市”。把这个xpath拷贝到连续动作控制台的定位表达式编辑框中。第一级规则就做好了

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
板凳
Fuller 管理员 发表于 2018-12-13 12:31:40 | 只看该作者
你的第二级规则,创建规则工作台上,给整理箱最顶级的容器节点设置了高级设置,这样就无法一条条抓取了。如下图:


“业务类型”含有抓取内容,算作一个容器节点,不能设置高级内容。这里允许设置,是集搜客软件使用体验方面的bug,后面版本会改掉
把“高级设置”清除掉就好了。

翻页的问题如下图


目标主题名一定要跟当前主题名一样。连续点击一下“连续翻页”,就能自动填上

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
地板
czj19961023 实习版主 发表于 2018-12-13 12:45:30 | 只看该作者
本帖最后由 czj19961023 于 2018-12-13 12:48 编辑

这个网址不用采了,采不下来只能先做点击动作


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
5#
mryj2000 新手上路 发表于 2018-12-14 00:14:08 | 只看该作者
Fuller 发表于 2018-12-13 12:31
你的第二级规则,创建规则工作台上,给整理箱最顶级的容器节点设置了高级设置,这样就无法一条条抓取了。如 ...

感谢。已经解决我两个窗口的不能联动的问题了。

有没有办法让规则一进行串联,进行左侧栏目合并采集呢?

如果我把 “连续采集”当中的步骤1 定位表达式XPATH对应 “首发上市”右侧翻页采集, 新加一个步骤 2 定位表达式XPATH对应“信息披露和停复牌”的右侧翻页采集。有没有可能呢?

会不会步骤1翻页采集完成后,结束就停止了。不走步骤2了?
举报 使用道具
6#
Fuller 管理员 发表于 2018-12-14 15:10:33 | 只看该作者
mryj2000 发表于 2018-12-14 00:14
感谢。已经解决我两个窗口的不能联动的问题了。

有没有办法让规则一进行串联,进行左侧栏目合并采集呢 ...

信息披露和停复牌 和 首发上市 在同一级,这个不能创建第二个动作,而是第一个动作的xpath要修改一下,让这个xpath能够定位到两个节点。这样就能实现你的需求。
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 运行Apple无法验证的程序的方法
  • 文本聚类分析软件的安装和使用方法
  • 利用AI阅读和分析文本:扣子COZE记录用户反
  • 在网页片段内直观标注——以B站评论采集为
  • 利用AI阅读和分析文本:使用COZE建设游记文

热门用户

GMT+8, 2024-12-22 12:22