连续动作原理:无需规定怎样循环,自动执行连续动作

2015-10-19 14:50| 发布者: ym| 查看: 13791| 评论: 1

摘要: 主题间关系 我们以《连续点击的应用场景(一)》为例,因为这个例子比较简单,只有一个连续点击:在网页上连续移动鼠标。没有多层次动作《连续点击的相关概念》那么不好理解。 这个案例只有两个主题,也就是两个抓取 ...

主题间关系

我们以《连续动作的应用场景(一)》为例,因为这个例子比较简单,只有一个连续点击:在网页上连续移动鼠标。没有多层次动作《连续动作的相关概念》那么不好理解。

这个案例只有两个主题,也就是两个抓取规则:

如上图,左边网页是动作施加的对象,在本例,就是鼠标逐个在用户头像上悬浮。右边是悬停后弹出的窗口,其中的内容是用第二个抓取规则进行抓取。


自动化生成连续点击规则

如果不能自动化生成连续动作规则,那会怎样?

  • 首先,很大比例的用户将被拒之门外。其实GooSeeker网络爬虫在发布连续点击功能之前早就有自定义爬虫循环,而且可以用Javascript控制它,可编写十分复杂的程序,可以实现几乎所有动作。但是,将严重偏离集搜客的“大家都能玩转大数据”的理想。
  • 其次,如果真的用程序员思维,那会怎么样?

上图是一个典型的循环流程图,除了敬畏以外,如果目的是数据分析和数据挖掘,非要编排这个流程,似乎有“发明轮子”之嫌。

与之对比,下图是GooSeeker网络爬虫需要做的工作,只需要声明动作的类型和动作施加的对象,那么软件自动实现循环的编排。

上图还展示怎样验证动作施加的对象是否定位准确,V5.3.0版本使用搜索功能,可以验证一个xpath表达式是否有效。在后续版本还会开放连续动作的演示功能,敬请期待。

9

鲜花

握手
1

雷人

路过

鸡蛋

刚表态过的朋友 (10 人)

相关阅读

发表评论

最新评论

评论 breezelife 2016-6-1 16:19
立意很棒,站在用户角度考虑问题,为gooseeker的开发者们点赞~

查看全部评论(1)

GMT+8, 2024-11-21 19:15