定位映射采集列表数据——以B站视频列表为例

2020-12-19 11:59| 发布者: Fuller| 查看: 10039| 评论: 0

摘要: 前面有教程讲了怎样用样例复制来采集列表数据,除了用样例复制,还可以用定位映射来采集列表数据。 下面以B站视频搜索列表作为案例来讲解,操作步骤如下:1.操作步骤2.操作步骤详解• 采集规则:B站视频搜索列表_教 ...

配套软件版本:V10及更高 数据管家——增强版网络爬虫

老版本对应教程:V9及更低 集搜客网络爬虫 的对应教程是《定位标志采集列表数据——以百度旅游为例


前面有教程讲了怎样用样例复制来采集列表数据,除了用样例复制,还可以用定位映射来采集列表数据。 下面以B站视频搜索列表作为案例来讲解,操作步骤如下:

1.操作步骤

2.操作步骤详解

•    采集规则:B站视频搜索列表_教程(可点击下载)

•    样本网址:https://search.bilibili.com/all?keyword=%E7%8E%8B%E8%80%85%E8%8D%A3%E8%80%80&from_source=nav_suggest_new

•    采集内容:每一个视频的标题、发布时间、up主、播放数、视频链接

第一步:打开网页

1.1,输入要采集的网址,按回车访问;

1.2,点击侧边栏,“+”定义规则按钮,进入定义规则状态;

1.3,输入任务名,点击“下一步”按钮。

第二步:标注信息

2.1,双击第一个视频的标题,输入字段名,例如:标题,按Enter回车提交,或者打勾确认。

2.2,输入表名称(自定义),在本例中,表名是”B站视频”。表名是本篇教程中很重要的一个概念,下面会有详细的说明。

2.3,重复步骤2.1来标注up主、播放数、发布时间,双击要采集的文本,输入字段名即可。不用再输入表名了。(表名输入一次就可以了)。视频链接没有直接显示在网页上,要用内容映射的方法标注。

2.4,认识工作台和整理箱

现在我们已经标注了第一个视频的信息。在左边的工作台上显示了这些抓取内容。其中第一个抓取内容,就是我们刚才输入的表名,其它的抓取内容排列在它的右下方。相当于,有个整理箱的名字叫“B站视频”,箱子里装着标题、发布时间、播放数、up主、视频链接这些抓取内容。本篇教程就是对整理箱(B站视频)做定位映射,批量采集一个个视频的信息。


第三步:定位映射

在B站的视频搜索列表中,每个视频模块对应一个LI节点,每个LI节点的class都一样:class='video-item matrix'。我们要找到LI节点,并把LI节点的class值映射给整理箱“B站视频”。

3.1,找到LI节点



点击了LI左边的小三角,收起这个节点,可以看到一个整齐的LI节点队列,每个节点的class值都是'video-item matrix'。每个LI节点对应网页上的一个视频模块。



3.2,给整理箱做定位映射

右击第一个LI节点,选择定位映射-B站视频。


3.3,测试


第四步:存规则,爬数据

4.1,点击“存规则”,提示保存成功。

4.2,点击“采数据”就可以开始采集数据。

数据展示:


提示1:只有当区块节点的class值或者id值都相同时,才可以做定位映射,采集整个页面的数据,否则只能做样例复制。

提示2:不同的网页中区块节点的名称会不同,比如B站上的是LI,但是其他网站的可能就是DIV或者其他节点名称,节点名称不同,对定义规则没有影响。

上篇文章:《定位映射提高网页采集精度》                                     下篇文章:《采集图片网址并下载图片

1

鲜花

握手

雷人

路过

鸡蛋

刚表态过的朋友 (1 人)

最新评论

GMT+8, 2024-10-31 12:53