1. 场景描述从GooSeeker V5.4.0版本开始,提供自动输入搜索条件的功能。以前要抓取百度搜索结果,通常是构造url网址,比如,百度新闻搜索:http://news.baidu.com/ns?cl=2&rn=20&tn=news&word=%E5%8D%8E%E4%B8%BA ,后面那串内容是代表关键字“华为”,那么想抓取什么搜索结果,就构造什么网址。但是,很多网站并不能构造网址,可能的场景是:
在很多场景中,可以采用一些其它技术手段研究http消息,然后再想应对策略。这样还是比较麻烦的。如果用自动输入查询条件的功能,操作就简化了,不用去管技术细节。这就是自动输入查询条件功能的应用价值。 2. 规划一下定义几个抓取规则为什么还要用多个抓取规则?这个讨论似曾相识,因为在《连续滚屏抓取瀑布流网页》讨论过相同问题。
我们还是分成了两个抓取规则,因为他们要做的动作不一样,第一个负责录入搜索条件,第二个负责翻页。而抓取内容是一样的,那么操作起来也不难,在第一个的基础上删除连续动作工作台上的规则,然后增加爬虫路线工作台上的翻页规则,然后把主题名修改掉,点击存规则按钮,就完成了第二个规则的定义。 3. 界面说明如图,两个红色方框展示两个要点:
红色圆框表示要告诉爬虫在哪里输入关键词,用xpath表示。关于连续输入功能的详细讲解参看《连续动作实战:自动输入查询条件微信公众号》 |