1. 阅读指引《连续动作应用场景(三)自动输入查询条件微信公众号》一文对连续动作中的自动输入查询条件的场景进行了描述,主要目的是利用搜狗的微信公众号搜索功能,把包含某些关键字的微信抓下来。为了达到抓取目的,需要做如下步骤
2. 选择入口页面《连续动作应用场景(三)自动输入查询条件微信公众号》一文认为定义两个采集规则比较合适:
运行的时候,从第一个规则开始,会自动过渡到第二个规则。第一个规则使用的样本页面就是入口页面,请注意,要实现连续输入,那么选择样本页面的时候要注意,第一个规则和第二个规则使用的样本页面应该结构一样,否则,输入第二个关键词的时候,就会定位不到输入框和提交按钮了。 3. 第一个规则的工作台如上图所示,第一个抓取规则的爬虫路线工作台上不要定义翻页抓取规则,可以定义二级抓取规则。因为翻页抓取是第二个规则要执行的操作。所以,第一个规则重点是定义连续动作。
最后点击工具条上的存规则按钮,把抓取规则存起来。 4. 定义第二个规则因为第一个规则和第二个规则的样本页面一样,如果紧接着定义第二个规则,则有两种方法可选:
上图显示定义翻页抓取规则,这与普通规则定义没有区别,只是我们这里用了定点线索类型,跟记号线索一样也能翻页。 5. 加载以前定义的抓取规则因为两个抓取规则使用了相同的样本页面,用MS谋数台连续先后加载两个抓取规则时,第二个就中断了,因为MS谋数台不允许加载样本页面相同的两个规则。在这种情况下,在加载第二个之前,先在地址栏中输入about:blank,并敲回车键,先把浏览器清空,然后再加载第二个规则。 |