集搜客GooSeeker网络爬虫之采集大众点评店铺信息数据

2016-7-22 15:49| 发布者: AnswerDSL| 查看: 11465| 评论: 3

摘要: 【第21期】GooSeeker集搜客之采集大众点评店铺信息 一、 采集板块列表页面——确认抓取内容 1) 输入目标网址(例如:http://t.dianping.com/list/shenzhen-category_1),按Enter键,然后在工作台上输入主题名,然 ...

注:集搜客GooSeeker爬虫从V9.0.2版本开始,爬虫术语“主题”统一改为“任务”,在爬虫浏览器里先命名任务再创建规则,然后登录集搜客官网会员中心的“任务管理”里,就可以查看任务的采集执行情况、管理线索网址以及做调度设置了。


观看视频教程

一、 采集板块列表页面——确认抓取内容
    1) 输入目标网址(例如:http://t.dianping.com/list/shenzhen-category_1),按Enter键,在工作台上输入主题名,单击右方的查重,直至出现“该名可以使用”。
   
    2) 新建整理箱。点击新建,输入名称,并创建抓取内容,右击整理箱名选择“添加→包容”。需要继续添加抓取内容的话,选择右击新建的抓取内容,“添加→其后”依次添加抓取内容。勾选“关键内容”,选择整理箱中重要且确定会在网页上出现的内容勾上“关键内容”。
    3) 映射目标抓取内容。在浏览器窗口中点击目标数据——“汉阳馆”,谋数台会自动定位“汉阳馆”在网页标签窗口中节点的位置,找到text节点,右击出现内容映射,点击店铺名字,其他信息的映射同上。


二、 采集板块列表页面——样例复制
      上述步骤只是把第一条结构化信息映射给整理箱,只能采到第一个信息。为了采集该网页上所有信息,就要做样例复制映射。步骤如下:
    1) 左键点击整理箱名。
    2) 勾选启用,启用样例复制功能。


    3) 分别找到第一个商品 和 第二个商品 对应的节点。
    4) 右击 第一个商品对应节点 样例复制功能中的 “第一个” 映射到 样例1。
    5) 右击 第二个商品对应节点 样例复制功能中的 “第二个” 映射到 样例2。


三、 采集下级页面——下级链接(实现层级抓取)

      从网站上采集数据,尤其采集大型网站时,被采集的数据往往位于网站的不同层级的网页上,要采集从当前页面(第一级页面)点击后弹出的网页(第二级页面)的内容时就要规划DS打数机的爬虫路线,实现层级抓取。
    1) 点击店铺名称“汉阳馆”,会自动定位到对应的节点上,找到@href属性(即第二级页面链接),右击出现“内容映射”选择映射到“链接”。
    2) 在工作台上左键单击选择“链接”项,点击勾选上方的“下级线索”,点击“爬虫路线”跳转到爬虫路线工作台可以看到自动生成网络爬虫“线索1”。在下方的目标主题名处,修改输入新的主题名(表示第二级页面调用新的规则,所以不能与本规则的主题名一样。),并单击右方的“谁在用”确保新主题名未被占用。


四、 采集翻页后的数据—翻页采集
      通常在采集数据时,往往都需要继续抓取翻页后的数据。这一部分为大家介绍网络爬虫在进行数据抓取时,如何自动抓取翻页后的数据。步骤如下:
    1) 点击“爬虫路线”跳转到爬虫路线工作台。点击新建,创建一条线索,选择记号线索。
    2) 勾选连贯抓取。
    3) 在爬虫路线工作台中点击定位选项,选择偏好class。
    4) 选择翻页定位区块,线索定位的区块一般是包含"下一页"翻页标志的区块节点,也就是网页上的翻页区块(在网页结构窗口中点击包含 “下一页”翻页标志的区块节点,会在浏览器窗口中显示)。
    5) 进行翻页区定位映射,右击翻页区块节点,选择翻页映射→作为翻页区→线索2。完成后定位编号会显示在工作台爬虫路线上的翻页区定位编号上。
    6) 在网页上点击翻页标志“下一页”,会定位到模块节点(即包含多个下层节点,可双击展开,例如A节点)。展开A节点,找到“下一页”对应text节点(text节点即为文本节点)。
    7) 右击对应的text节点,选择线索映射后点击记号映射,在可爬虫路线工作台记号值中看到“下一页”,记号定位编号显示“下一页”text在网页结构窗口中的对应编号。

五、创建二级抓取规则(实现层级抓取)
    1) 保存完第一级规则后就可以将MS谋数台关掉,然后重新打开,开始编辑第二级规则。或者是点击文件菜单->新建,工作台清空原有内容后,即可建立新规则。
    2) 第一级规则一定要点击存规则后才能关掉MS谋数台,要不然之前做的规则就白做了。
    3) 填写第一级中预定的主题名。(即第四步中的目标主题名)。若显示“该名已被预订,可编辑:是”,则可继续下一步。
    4) 打开新一层的页面,例如http://t.dianping.com/deal/124737,然后对店铺的信息做映射,例如:店名,地址,电话等,具体步骤参照第一步。
    5)做好第二级规则后点存规则。


六、DS打数机抓取数据
    1) 打开DS打数机,对第一级规则进行单搜。采集到的线索提供给第二级规则使用。
    2) 然后对第二级规则进行统计线索,按需单搜抓取网页数。
    3) 存储路径:数据以XML格式默认存放在C盘用户文件夹的DataScraperWorks中。


七、格式转换
如果需要把XML格式转换成execl格式,请参照教程用会员中心将xml转换成excel


鲜花
1

握手

雷人
1

路过

鸡蛋

刚表态过的朋友 (2 人)

相关阅读

发表评论

最新评论

评论 Fuller 2017-9-5 10:42
jayxxy: 为什么我第一层级搜完统计线索为0呢?我都是按照步骤做的
除了做的规则不合适,从而没有抓到下一级的网址以外,还有一个可能原因:在第一级的爬虫路线工作台上给第二级起的主题名与实际用的主题名对不上
评论 umsung 2017-9-5 09:35
jayxxy: 为什么我第一层级搜完统计线索为0呢?我都是按照步骤做的
应该是做的规则有问题,没有抓到
评论 jayxxy 2017-9-5 02:19
为什么我第一层级搜完统计线索为0呢?我都是按照步骤做的

查看全部评论(3)

GMT+8, 2024-3-28 23:23