快捷导航

网页数据采集使用嵌套整理箱获得有层次的数据

2021-7-28 17:12| 发布者: Fuller| 查看: 467| 评论: 0

摘要: 前面我们用样例复制的方法来采集列表网页 。但是很多页面上只有一部分是列表,其它部分不属于列表,只需要在局部做样例复制。比如下面的豆瓣电影短评页面。要解决这样的局部样例复制问题,可以用嵌套整理箱的方法, ...

配套软件版本:V10及更高 数据管家——增强版网络爬虫

老版本对应教程:V9及更低 集搜客网络爬虫 的对应教程是《多层嵌套样例复制


前面我们用样例复制的方法来采集列表网页 。但是很多页面上只有一部分是列表,可以做样例复制,其它部分不属于列表,不需要做样例复制。

比如下面的豆瓣电影短评页面


要解决这样的局部样例复制问题,可以用嵌套整理箱的方法,把需要样例复制的部分放在一个小的整理箱里。

本教程就以上面的页面为例,讲解具体的嵌套整理箱的操作方法。


教程案例

采集规则:嵌套案例(可点击下载)

样本网址:https://movie.douban.com/subject/34874432/comments?status=P

采集内容: 电影、导演、主演、类型、地区、片长、上映、短评列表、作者、星级、时间、评论、有用


操作步骤:

1. 先标注不需要做样例复制的字段

打开页面,页面右边的导演,主演,类型,地区,片长等这些字段是不需要样例复制的,对这些字段进行标注,标注的详细操作可以参考采集网页数据

这部分标注完成后,工作台的字段如下图所示。


2. 做嵌套整理箱

2.1 标注短评列表里的第一个字段

比如我们要采集电影短评列表里的作者,在页面上双击第一个短评的作者,做标注。


2.2 添加嵌套整理箱

在工作台上,鼠标右键点击“作者”,选择添加-上方。


按提示,输入嵌套整理箱的名字。


在工作台右移“作者”,使得“作者”相对于“短评列表”向右缩进,形成包含的位置关系。这样就把“短评列表”设置为一个整理箱,整理箱里有“作者”这个字段。





  继续在页面上标注第一个电影短评里其它字段,这些字段应该都与“作者”对齐,包含在短评列表里。

注意:为了后面的样例复制,所有的标注都要在第一个电影短评里做。



2.3 样例复制

我们要采集每一条影评里的作者,星级,时间,评论,不需要去标注每一条影评。只需要标注第一条影评,然后用样例复制的方法,就可以采集到页面上的所有影评。

如果再加上翻页设置,爬虫可以自动翻页,批量采集到多页的影评。

本例中的样例复制是针对“短评列表”这个整理箱的,具体的操作过程如下。

样例1映射

最后一个选项是整理箱选择,一定要选择“影评列表”。


样例2映射



这样我们就完成了嵌套整理箱的设置,并且对嵌套整理箱做了一个样例复制。

然后测试,保存任务,采集数据。这些具体的操作过程见前面教程采集网页数据



本例采集到的数据:


鲜花

握手

雷人

路过

鸡蛋

最新评论

GMT+8, 2021-9-20 00:50