快捷导航

爬虫模拟点击抓取京东商品评论

2018-5-9 16:45| 发布者: ym| 查看: 1084| 评论: 0

摘要: 有些网站是一开始不显示评论,需要点击累计评论才会显示出评论区的内容,比如蘑菇街;另外一些网站是要滚屏很久才显示出评论内容,比如淘宝京东,这两类情况下都要做模拟点击,直接点开评论区再做采集,这样做的好处 ...

有些网站是一开始不显示评论,需要点击累计评论才会显示出评论区的内容,比如蘑菇街;另外一些网站是要滚屏很久才显示出评论内容,比如淘宝京东,这两类情况下都要做模拟点击,直接点开评论区再做采集,这样做的好处是,可以精确到目标范围,省却没必要的加载时间,下面以采集京东商品累计评论为例,介绍一下怎么做模拟点击。

在做抓取规则时需要做两级规则实现模拟点击,第一级规则负责点击,第二级规则负责抓取点击后显示的内容。

模拟点击和翻页抓取类似,都需要在爬虫路线中设置记号线索,不同的是,点击翻页之后,在同一爬虫窗口继续用当前规则进行抓取;而模拟点击则是,点击网页后,在同一爬虫窗口调用下一级规则进行抓取。


一、创建第一级规则

1,打开网页

我们首先用GS浏览器访问一个商品样本页面,记得先不要点进评论区,然后点击顶部的“定义规则”按钮,开始做第一级规则。

2,标注抓取内容

第一级规则的主要目的是实现模拟点击,可以不抓取任何内容,但是为了判读是否执行成功,我们通常会抓取任意网页信息,并且设置关键内容。这里选择抓取商品名称,双击它,然后输入标签名字,打勾确认,前面没有输入主题名,所以会提醒输入主题名和整理箱名字,输入完再做下一步。

3,做翻页区映射

在浏览器窗口里点击商品评价页签,选中的区域会加上黄色背景,同时底部dom窗口会自动定位到一个网页节点,对这个节点右击,接着选择“翻页映射->作为翻页区->新建线索”,然后在工作台会看到爬取路线自动创建了一个记号线索,并且翻页区显示了刚才映射节点的定位编号,说明映射成功了;

4,找出翻页记号节点

在dom里双击这个节点展开,把它包含的下级节点都点一下,在右侧的文本内容框里会看到节点信息,找到”商品评价”的text节点,这个节点的作用就是一个点击记号,有它在爬虫才会点击;

5,做翻页记号映射

然后右击这个text节点,选择“翻页映射->作为翻页记号”;

6,修改目标主题名

点击之后就会切换到评论页,网页结构就变了,这里不能像翻页那样用同一个目标主题名,而是要指向第二级规则,所以,要把目标主题名改成第二级规则的名字,这里是先预定主题名,所以记得要点击一下谁在用,检查有没有重名;

7,点击右上角的存规则


二、 创建第二级规则

1,新建规则

保存完第一级规则后,再点击左上角的“规则”菜单,然后点击“新建”,它就会自动清空第一级规则的内容,然后开始创建第二级规则。

2,点进评论区页面

要对评论做规则,首先要点进评论区页面,操作是:取消勾选内容定位,点击商品评论,重新勾上内容定位,再点规则菜单->刷新网页结构,这样就完成页面的切换;

3,标注想采的评论内容

双击用户名称进行标注,打勾确认,首次标注要输入主题名、整理箱名,这里的主题名一定要输入前面预定好的第二级规则的名字。

依次双击想要采集的评论内容、评论日期等信息,输入标签名,打勾确认;

4,测试预览结果

点击工作台上的测试按钮,预览输出的数据结果,可以看到第一条评论数据,如果想要把一整页的评论抓取下来,还要做样例复制映射,操作参考教程:《采集列表数据》;如果还想连续翻页采集,还要做翻页映射,操作参考教程《设置翻页采集

5,点击右上角的存规则按钮


三、 采集数据

做好两级规则后,就可以采集数据了,特别要注意的是,模拟点击是连贯动作,因此,只要运行第一级规则,爬虫就会自动调用第二级规则进行抓取。另外,不要单独运行第二级规则,因为没有点击就不会有第二级要采集的网页数据,也就会采集失败。

运行DS打数机之前,要设置滚屏参数,把滚屏功能打开,操作是:选择配置菜单—>滚屏参数,把滚屏次数设置成>0的数字,比如2就行。

Tips1: 如果要检查第二级规则,就要像做规则那样,点击到出现评论区的页面,然后再加载规则,具体操作参考:《切换页签后加载规则》

Tips2:想抓更多同类商品的评论,可以把商品的网址添加到规则里,操作参考教程《添加网址线索做批量采集

Tips3:如果想爬取商品搜索页面上搜索到的每一个商品的评论,操作可参考教程《抓取网址做层级采集


若有疑问可以集搜客爬虫软件

鲜花

握手

雷人

路过
1

鸡蛋

刚表态过的朋友 (1 人)

相关阅读

最新评论

集搜客GooSeeker网络爬虫 ( 粤ICP备11065265号-2 )

GMT+8, 2018-7-24 01:21