注:集搜客GooSeeker爬虫从V9.0.2版本开始,爬虫术语“主题”统一改为“任务”,在爬虫浏览器里先命名任务再创建规则,然后登录集搜客官网会员中心的“任务管理”里,就可以查看任务的采集执行情况、管理线索网址以及做调度设置了。 有些网站是一开始不显示评论,需要点击累计评论才会显示出评论区的内容,比如蘑菇街;另外一些网站是要滚屏很久才显示出评论内容,比如淘宝京东,这两类情况下都要做模拟点击,直接点开评论区再做采集,这样做的好处是,可以精确到目标范围,省却没必要的加载时间,下面以采集京东商品累计评论为例,介绍一下怎么做模拟点击。 在做抓取规则时需要做两级规则实现模拟点击,第一级规则负责点击,第二级规则负责抓取点击后显示的内容。 模拟点击和翻页抓取类似,都需要在爬虫路线中设置记号线索,不同的是,点击翻页之后,在同一爬虫窗口继续用当前规则进行抓取;而模拟点击则是,点击网页后,在同一爬虫窗口调用下一级规则进行抓取。 一、创建第一级规则 1,打开网页 我们首先用GS浏览器访问一个商品样本页面,记得先不要点进评论区,然后点击顶部的“定义规则”按钮,开始做第一级规则。 2,标注抓取内容 第一级规则的主要目的是实现模拟点击,可以不抓取任何内容,但是为了判读是否执行成功,我们通常会抓取任意网页信息,并且设置关键内容。这里选择抓取商品名称,双击它,然后输入标签名字,打勾确认,前面没有输入主题名,所以会提醒输入主题名和整理箱名字,输入完再做下一步。 3,做翻页区映射 在浏览器窗口里点击商品评价页签,选中的区域会加上黄色背景,同时底部dom窗口会自动定位到一个网页节点,对这个节点右击,接着选择“翻页映射->作为翻页区->新建线索”,然后在工作台会看到爬取路线自动创建了一个记号线索,并且翻页区显示了刚才映射节点的定位编号,说明映射成功了; 4,找出翻页记号节点 在dom里双击这个节点展开,把它包含的下级节点都点一下,在右侧的文本内容框里会看到节点信息,找到”商品评价”的text节点,这个节点的作用就是一个点击记号,有它在爬虫才会点击; 5,做翻页记号映射 然后右击这个text节点,选择“翻页映射->作为翻页记号”; 6,修改目标主题名 点击之后就会切换到评论页,网页结构就变了,这里不能像翻页那样用同一个目标主题名,而是要指向第二级规则,所以,要把目标主题名改成第二级规则的名字,这里是先预定主题名,所以记得要点击一下谁在用,检查有没有重名; 7,点击右上角的存规则 二、 创建第二级规则 1,新建规则 保存完第一级规则后,再点击左上角的“规则”菜单,然后点击“新建”,它就会自动清空第一级规则的内容,然后开始创建第二级规则。 2,点进评论区页面 要对评论做规则,首先要点进评论区页面,操作是:取消勾选内容定位,点击商品评论,重新勾上内容定位,再点规则菜单->刷新网页结构,这样就完成页面的切换; 3,标注想采的评论内容 双击用户名称进行标注,打勾确认,首次标注要输入主题名、整理箱名,这里的主题名一定要输入前面预定好的第二级规则的名字。 依次双击想要采集的评论内容、评论日期等信息,输入标签名,打勾确认; 4,测试预览结果 点击工作台上的测试按钮,预览输出的数据结果,可以看到第一条评论数据,如果想要把一整页的评论抓取下来,还要做样例复制映射,操作参考教程:《采集列表数据》;如果还想连续翻页采集,还要做翻页映射,操作参考教程《设置翻页采集》 5,点击右上角的存规则按钮 三、 采集数据 做好两级规则后,就可以采集数据了,特别要注意的是,模拟点击是连贯动作,因此,只要运行第一级规则,爬虫就会自动调用第二级规则进行抓取。另外,不要单独运行第二级规则,因为没有点击就不会有第二级要采集的网页数据,也就会采集失败。 运行DS打数机之前,要设置滚屏参数,把滚屏功能打开,操作是:选择配置菜单—>滚屏参数,把滚屏次数设置成>0的数字,比如2就行。 Tips1: 如果要检查第二级规则,就要像做规则那样,点击到出现评论区的页面,然后再加载规则,具体操作参考:《切换页签后加载规则》 Tips2:想抓更多同类商品的评论,可以把商品的网址添加到规则里,操作参考教程《添加网址线索做批量采集》 Tips3:如果想爬取商品搜索页面上搜索到的每一个商品的评论,操作可参考教程《抓取网址做层级采集》 |