配套软件版本:V10及更高 数据管家——增强版网络爬虫 老版本对应教程:V9及更低 集搜客网络爬虫 的对应教程是《定位标志采集列表数据——以百度旅游为例》 前面有教程讲了怎样用样例复制来采集列表数据,除了用样例复制,还可以用定位映射来采集列表数据。 下面以B站视频搜索列表作为案例来讲解,操作步骤如下: 1.操作步骤 2.操作步骤详解 • 采集规则:B站视频搜索列表_教程(可点击下载) • 样本网址:https://search.bilibili.com/all?keyword=%E7%8E%8B%E8%80%85%E8%8D%A3%E8%80%80&from_source=nav_suggest_new • 采集内容:每一个视频的标题、发布时间、up主、播放数、视频链接 第一步:打开网页 1.1,输入要采集的网址,按回车访问; 1.2,点击侧边栏,“+”定义规则按钮,进入定义规则状态; 1.3,输入任务名,点击“下一步”按钮。 第二步:标注信息 2.1,双击第一个视频的标题,输入字段名,例如:标题,按Enter回车提交,或者打勾确认。 2.2,输入表名称(自定义),在本例中,表名是”B站视频”。表名是本篇教程中很重要的一个概念,下面会有详细的说明。 2.3,重复步骤2.1来标注up主、播放数、发布时间,双击要采集的文本,输入字段名即可。不用再输入表名了。(表名输入一次就可以了)。视频链接没有直接显示在网页上,要用内容映射的方法标注。 2.4,认识工作台和整理箱 现在我们已经标注了第一个视频的信息。在左边的工作台上显示了这些抓取内容。其中第一个抓取内容,就是我们刚才输入的表名,其它的抓取内容排列在它的右下方。相当于,有个整理箱的名字叫“B站视频”,箱子里装着标题、发布时间、播放数、up主、视频链接这些抓取内容。本篇教程就是对整理箱(B站视频)做定位映射,批量采集一个个视频的信息。 第三步:定位映射 在B站的视频搜索列表中,每个视频模块对应一个LI节点,每个LI节点的class都一样:class='video-item matrix'。我们要找到LI节点,并把LI节点的class值映射给整理箱“B站视频”。 3.1,找到LI节点 点击了LI左边的小三角,收起这个节点,可以看到一个整齐的LI节点队列,每个节点的class值都是'video-item matrix'。每个LI节点对应网页上的一个视频模块。 3.2,给整理箱做定位映射 右击第一个LI节点,选择定位映射-B站视频。 3.3,测试 第四步:存规则,爬数据 4.1,点击“存规则”,提示保存成功。 4.2,点击“采数据”就可以开始采集数据。 数据展示: 提示1:只有当区块节点的class值或者id值都相同时,才可以做定位映射,采集整个页面的数据,否则只能做样例复制。 提示2:不同的网页中区块节点的名称会不同,比如B站上的是LI,但是其他网站的可能就是DIV或者其他节点名称,节点名称不同,对定义规则没有影响。 上篇文章:《定位映射提高网页采集精度》 下篇文章:《采集图片网址并下载图片》 |