集搜客GooSeeker网络爬虫之采集大众点评店铺信息数据

2016-7-22 15:49| 发布者: AnswerDSL| 查看: 13297| 评论: 3

摘要: 【第21期】GooSeeker集搜客之采集大众点评店铺信息一、采集板块列表页面——确认抓取内容 1) 输入目标网址（例如：http://t.dianping.com/list/shenzhen-category_1），按Enter键，然后在工作台上输入主题名，然 ...

注：集搜客GooSeeker爬虫从V9.0.2版本开始，爬虫术语“主题”统一改为“任务”，在爬虫浏览器里先命名任务再创建规则，然后登录集搜客官网会员中心的“任务管理”里，就可以查看任务的采集执行情况、管理线索网址以及做调度设置了。

观看视频教程

一、采集板块列表页面——确认抓取内容

1) 输入目标网址（例如：http://t.dianping.com/list/shenzhen-category_1），按Enter键，在工作台上输入主题名，单击右方的查重，直至出现“该名可以使用”。

2) 新建整理箱。点击新建，输入名称，并创建抓取内容，右击整理箱名选择“添加→包容”。需要继续添加抓取内容的话，选择右击新建的抓取内容，“添加→其后”依次添加抓取内容。勾选“关键内容”，选择整理箱中重要且确定会在网页上出现的内容勾上“关键内容”。

3) 映射目标抓取内容。在浏览器窗口中点击目标数据——“汉阳馆”，谋数台会自动定位“汉阳馆”在网页标签窗口中节点的位置，找到text节点，右击出现内容映射，点击店铺名字，其他信息的映射同上。

二、采集板块列表页面——样例复制

上述步骤只是把第一条结构化信息映射给整理箱，只能采到第一个信息。为了采集该网页上所有信息，就要做样例复制映射。步骤如下：

1) 左键点击整理箱名。

2) 勾选启用，启用样例复制功能。

3) 分别找到第一个商品和第二个商品对应的节点。

4) 右击第一个商品对应节点样例复制功能中的 “第一个” 映射到样例1。

5) 右击第二个商品对应节点样例复制功能中的 “第二个” 映射到样例2。

三、采集下级页面——下级链接（实现层级抓取）

从网站上采集数据，尤其采集大型网站时，被采集的数据往往位于网站的不同层级的网页上，要采集从当前页面（第一级页面）点击后弹出的网页（第二级页面）的内容时就要规划DS打数机的爬虫路线，实现层级抓取。

1) 点击店铺名称“汉阳馆”，会自动定位到对应的节点上，找到@href属性（即第二级页面链接），右击出现“内容映射”选择映射到“链接”。

2) 在工作台上左键单击选择“链接”项，点击勾选上方的“下级线索”，点击“爬虫路线”跳转到爬虫路线工作台可以看到自动生成网络爬虫“线索1”。在下方的目标主题名处，修改输入新的主题名（表示第二级页面调用新的规则，所以不能与本规则的主题名一样。），并单击右方的“谁在用”确保新主题名未被占用。

四、采集翻页后的数据—翻页采集

通常在采集数据时，往往都需要继续抓取翻页后的数据。这一部分为大家介绍网络爬虫在进行数据抓取时，如何自动抓取翻页后的数据。步骤如下：

1) 点击“爬虫路线”跳转到爬虫路线工作台。点击新建，创建一条线索，选择记号线索。

2) 勾选连贯抓取。

3) 在爬虫路线工作台中点击定位选项，选择偏好class。

4) 选择翻页定位区块，线索定位的区块一般是包含"下一页"翻页标志的区块节点，也就是网页上的翻页区块（在网页结构窗口中点击包含 “下一页”翻页标志的区块节点，会在浏览器窗口中显示）。

5) 进行翻页区定位映射，右击翻页区块节点，选择翻页映射→作为翻页区→线索2。完成后定位编号会显示在工作台爬虫路线上的翻页区定位编号上。

6) 在网页上点击翻页标志“下一页”，会定位到模块节点（即包含多个下层节点，可双击展开，例如A节点）。展开A节点，找到“下一页”对应text节点（text节点即为文本节点）。

7) 右击对应的text节点，选择线索映射后点击记号映射，在可爬虫路线工作台记号值中看到“下一页”，记号定位编号显示“下一页”text在网页结构窗口中的对应编号。

五、创建二级抓取规则（实现层级抓取）

1) 保存完第一级规则后就可以将MS谋数台关掉，然后重新打开，开始编辑第二级规则。或者是点击文件菜单->新建，工作台清空原有内容后，即可建立新规则。

2) 第一级规则一定要点击存规则后才能关掉MS谋数台，要不然之前做的规则就白做了。

3) 填写第一级中预定的主题名。（即第四步中的目标主题名）。若显示“该名已被预订，可编辑：是”，则可继续下一步。

4) 打开新一层的页面，例如http://t.dianping.com/deal/124737，然后对店铺的信息做映射，例如：店名，地址，电话等，具体步骤参照第一步。
5)做好第二级规则后点存规则。

六、DS打数机抓取数据

1) 打开DS打数机，对第一级规则进行单搜。采集到的线索提供给第二级规则使用。

2) 然后对第二级规则进行统计线索，按需单搜抓取网页数。

3) 存储路径：数据以XML格式默认存放在C盘用户文件夹的DataScraperWorks中。

七、格式转换
如果需要把XML格式转换成execl格式，请参照教程用会员中心将xml转换成excel。

鲜花

1

握手

雷人

1

路过

鸡蛋

刚表态过的朋友 (2 人)

收藏邀请

上一篇：【第23期】精确定位采集网页信息下一篇：自动点击京东商品价格条件，智能采集价格数据

集搜客GooSeeker网络爬虫之采集大众点评店铺信息数据

刚表态过的朋友 (2 人)

相关阅读

最新评论

相关分类

下级分类

热门排行