连续动作应用场景(三)自动输入查询条件抓取微信公众号

2015-11-8 00:04| 发布者: Fuller| 查看: 12811| 评论: 0

摘要: 1,场景描述 从GooSeeker V5.4.0版本开始,提供自动输入搜索条件的功能。以前要抓取百度搜索结果,通常是构造url网址,比如,百度新闻搜索:http://news.baidu.com/ns?cl=2rn=20tn=newsword=%E5%8D%8E%E4%B8%BA ,后 ...

1. 场景描述

从GooSeeker V5.4.0版本开始,提供自动输入搜索条件的功能。以前要抓取百度搜索结果,通常是构造url网址,比如,百度新闻搜索:http://news.baidu.com/ns?cl=2&rn=20&tn=news&word=%E5%8D%8E%E4%B8%BA ,后面那串内容是代表关键字“华为”,那么想抓取什么搜索结果,就构造什么网址。但是,很多网站并不能构造网址,可能的场景是:

  • 无论输入什么条件,网址总是不变
  • 很多场景中,提交搜索条件是浏览器向服务器发送post消息,而不是get消息
  • 输入搜索条件和看到的结果分别处于不同iframe中,这样目测看到的网址是不变的。

在很多场景中,可以采用一些其它技术手段研究http消息,然后再想应对策略。这样还是比较麻烦的。如果用自动输入查询条件的功能,操作就简化了,不用去管技术细节。这就是自动输入查询条件功能的应用价值。

2. 规划一下定义几个抓取规则

为什么还要用多个抓取规则?这个讨论似曾相识,因为在《连续滚屏抓取瀑布流网页》讨论过相同问题。

我们还是分成了两个抓取规则,因为他们要做的动作不一样,第一个负责录入搜索条件,第二个负责翻页。而抓取内容是一样的,那么操作起来也不难,在第一个的基础上删除连续动作工作台上的规则,然后增加爬虫路线工作台上的翻页规则,然后把主题名修改掉,点击存规则按钮,就完成了第二个规则的定义。

3. 界面说明

如图,两个红色方框展示两个要点:

  • 自动输入查询条件后一般需要点击“提交”按钮,所以需要两个动作,前一个是自动输入;后一个是自动提交
  • 可以让爬虫连续输入多个查询关键词,每个关键词之间用两个分号隔开(;;)

红色圆框表示要告诉爬虫在哪里输入关键词,用xpath表示。关于连续输入功能的详细讲解参看《连续动作实战:自动输入查询条件微信公众号》


鲜花

握手

雷人

路过

鸡蛋

相关阅读

最新评论

GMT+8, 2024-12-22 13:25