本帖最后由 759924607 于 2016-9-20 14:49 编辑

连续动作点击之前如下图所示:

连续动作点击之后如下图所示:

一开始筛选界面中没有子行业,只有点击了行业中的某一个标签,才会显示出子行业的筛选。
规则计划这么来建立:

一、这两个连续动作不是在一个页面上,所以只能分开建规则了吧?能变成步骤一、步骤二连在一起嘛?两种建立连续动作的方法,循环的方式一样?
二、模拟点击,在谋数台中找不到“更多”这个标志怎么办?
      行业跟子行业都一样,点击这一栏的空白处也可以将它们展开。展开之后,“更多”就变成了“收起”
三、连续动作依次点击行业中的所有标签,我想连续除了第一个,所有剩下的标签。Xpath怎么写?
      我用谋数台生成了一个Xpath。为什么第一个标签生成的是//*[@class='keys']/a[position()=1],第二个生成的是//*[@class='on'],第三个又变成//*[@class='keys']/a[position()=3]?之后标签就是依次加1了,//*[@class='keys']/a[position()=4]。
       搜索//*[@class='keys']/a[position()>=2],显示有107项,显然标签没有这么多。
四、如何抓取连续动作点击的内容?
       对连续动作点击的内容,做内容映射。这也存在像连续动作一样,自动向下循环的过程。这个怎么做?

微信截图_20160920141242.png (12.83 KB, 下载次数: 895)

微信截图_20160920141242.png
举报 使用道具
| 回复

共 11 个关于本帖的回复 最后回复于 2016-9-21 15:23

沙发
Fuller 管理员 发表于 2016-9-20 17:05:48 | 只看该作者
第一个问题:做了一个动作以后,变成了另一个页面,那么需要研究一下,是否有必要使用连续动作,毕竟连续动作是比较难调试的。如果进入的另一个页面有独立网址,那么直接用个两级抓取。如果没有独立网址,或者单独访问会被封杀,那么只有做连续动作。

页面有变化,也可以放在一组动作里面,不用两个主题。

如果做动作会弹出一个新窗口,是弹出来的,不是在原窗口替换内容,那么就要用飞掠模式。
举报 使用道具
板凳
Fuller 管理员 发表于 2016-9-20 17:11:11 | 只看该作者
你说找不到“更多”,挺奇怪的,在网页上都能看到了,应该在某个位置 ,可以用这个xpath搜索://text()[contains(.,'更多')],看看能搜索到几个。

你说点击后变成了“收起”,这个有什么问题?

至于第三个问题,是xpath写的约束条件不够多,你搜索后,逐个看一下这107个节点,看看他们的父节点是什么,把xpath写长一些,把能够用来做区分的父节点写进来

第四个问题:有连续动作的主题可以有很多层,下级主题照样可以定义自己的连续动作
举报 使用道具
地板
759924607 高级会员 发表于 2016-9-21 08:49:18 | 只看该作者
Fuller 发表于 2016-9-20 17:11
你说找不到“更多”,挺奇怪的,在网页上都能看到了,应该在某个位置 ,可以用这个xpath搜索://text()[con ...

搜索//text()[contains(.,'更多')],的确搜索不到节点(或许就不是text?)。这个网站是http://www.itjuzi.com/company
举报 使用道具
5#
759924607 高级会员 发表于 2016-9-21 09:00:36 | 只看该作者
Fuller 发表于 2016-9-20 17:05
第一个问题:做了一个动作以后,变成了另一个页面,那么需要研究一下,是否有必要使用连续动作,毕竟连续动 ...

网站首页是这个网址:http://www.itjuzi.com/company
做完第一个动作:http://www.itjuzi.com/company?user_id=288205&scope=1
做完第二个动作:http://www.itjuzi.com/company?us ... e=1&sub_scope=3
都是在原网址下,没有弹出新窗口,直接变成新的网址(不是独立网址)
按照您这样分析的话,适合放在一组动作,做两个步骤。但是在网站不做完第一个动作,页面跳转不过去,第二动作是不显示的。这如何在一个主题下做?
举报 使用道具
6#
Fuller 管理员 发表于 2016-9-21 09:32:47 | 只看该作者
759924607 发表于 2016-9-21 09:00
网站首页是这个网址:http://www.itjuzi.com/company
做完第一个动作:http://www.itjuzi.com/company?us ...

把你做的主题名帖出来吧,我帮你看看
举报 使用道具
7#
759924607 高级会员 发表于 2016-9-21 09:33:06 | 只看该作者
Fuller 发表于 2016-9-20 17:11
你说找不到“更多”,挺奇怪的,在网页上都能看到了,应该在某个位置 ,可以用这个xpath搜索://text()[con ...

我筛选了//*[@class='keys']/a[position()=2],发现搜出来7个。

这7个都是在LI/DIV/A下。LI是每一行的,行业、获投状态、地区等等。而且他们的都在一个UL下。没有一个可区分的父节点。


举报 使用道具
8#
Fuller 管理员 发表于 2016-9-21 09:38:34 | 只看该作者

这个网页我加载看了

1)所有选项都是预先加载到网页上的,根本不用点击“更多”

2)每个选项都是有独立网址的,不用做连续动作


用一个普通的层级抓取就能实现


举报 使用道具
9#
Fuller 管理员 发表于 2016-9-21 09:39:35 | 只看该作者
759924607 发表于 2016-9-21 09:33
我筛选了//*[@class='keys']/a,发现搜出来7个。

这7个都是在LI/DIV/A下。LI是每一行的,行业、获投状态 ...

网址是什么?如果选项有独立网址,就不用做那么麻烦的抓取规则,用个普通二级抓取就行了
举报 使用道具
10#
759924607 高级会员 发表于 2016-9-21 09:51:22 | 只看该作者
Fuller 发表于 2016-9-21 09:39
网址是什么?如果选项有独立网址,就不用做那么麻烦的抓取规则,用个普通二级抓取就行了 ...

明白了明白了!直接下级线索做就可以了。想复杂了。感谢您的耐心解答!感谢fuller大神。
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-26 16:25