快捷导航

集搜客入门

2015-10-21 17:23| 发布者: wangyong| 查看: 17387| 评论: 8

摘要: 什么都不懂的小白们,一开始接触此类软件都会觉得好难啊,怎么这么多专业名词啊,我好晕啊!!!嘛~不要急呐~新技能的get哪会那么容易呢,玩个游戏要玩好都需要时间,更何况咱们还是做这么有技术含量的事呢。废话不 ...

本文介绍集搜客GooSeeker基本使用方法,可快速简单的抓取网页上的数据。

注释:本文演示的抓取规则,可到资源库下载学习:集搜客怎样抓取网页数据演示规则,下载运行即可抓取样本数据

一、制作抓取规则

如果把“抓取数据”比喻成“做一道数学题”的话,“规则”就是你要得到“计算结果”(就是数据)之前列出的“方程式”。后面的很多概念请好好看图哦,图上面都有标明的 。

1.输入目标网址,命名主题名

图1 

第一步:将要抓取的网址输入到MS谋数台的网址栏,按ENTER键加载,可以看到网页在MS谋数台底部浏览器窗口出现。 

第二步:页面显示后,在命名主题工作台处输入主题名并 查重以确定主题名是否可用,主题名被占用会导致规则无法保存。

2.新建整理箱

图2 

第一步: 点击新建按钮,在弹出的窗口中输入想要命名的整理箱名称。 

第二步: 在整理箱中创建抓取内容,右击整理箱名称选择 “添加→包容”(表示抓取内容包含在整理箱中)。继续添加的话,选择右击新建的抓取内容,“添加→其后”依次添加抓取内容; 

第三步:勾选“关键内容”,选择整理箱中 重要且确定会在网页上出现的内容 勾上“关键内容”,它是爬虫判断是否采数据的参照点。

3.映射目标抓取内容

 

图3 

第一步: 在浏览器窗口中点击目标数据——“商品名”(Apple/苹果iphone 6s)

第二步: 谋数台会自动定位“商品名”在网页标签窗口中节点的位置(A节点)。

第三步: 展开A节点,找到text

第四步: 点击text,可在 “文本窗口” 内容中看到text的值;

第五步: 右击text做 “内容映射” 到商品名称

抓取“商品价格”和抓取商品名称的操作步骤相同。

Tips1:如果在内容映射后,发现只是抓取到了商品名称的一部分,参考教程:如何抓取网页片段完整信息

4.  通过样例复制,抓取网页上相同结构的数据

图4 

第一步:点击整理箱名

第二步:勾选启用,启用样例复制功能。

第三步:分别找到第一个商品 和 第二个商品 对应的节点

第四步:右击 第一个商品对应节点 样例复制功能中的 “第一个” 映射到 样例1

第五步:右击 第二个商品对应节点 样例复制功能中的 “第二个” 映射到 样例2

Tips:详细样例复制的复制操作参考教程:怎样批量抓取网页上结构相同的数据——样例复制

5.  规则测试成功后存规则

图5

第一步:点击 测试 按钮可以看到抓取的内容,测试可看到抓取到的内容是不是我们想要的

第二步:测试成功后,点击 存规则,规则上载到服务器。

第三步:保存规则成功后,点击 爬数据 按钮就开始采集了。

二、启动DS打数机爬数据

1. 爬数据,DS打数机有多种采集数据的方式,具体见DS打数机如何采集数据,下面介绍两种启动DS打数机的方法:

第一种:直接点击MS里面 “存规则” 按钮后面的 “爬数据” 按钮。

第二种:打开 DS打数机,在 “搜索框” 输入 主题名(可使用通配符*辅助搜索)搜索后点击单搜开始抓取数据。

图6

Tips1:不只想要抓取当前页面的内容还想要抓取翻页后的内容,参考教程:怎样抓取翻页后的数据

Tips2:想要抓取当前页面的内容在深入到下一页抓取商品详情页的内容,参考教程:怎样深入多层级网页采集数据

2.看结果

数据以XML格式 默认存放在C盘用户文件夹的DataScraperWorks 中,可自定义更改结果存储路径。

同时集搜客提供将XML批量导入EXCEL的工具。excel转化之后的数据,如图6所示。

图7

47

鲜花
1

握手
1

雷人
3

路过
4

鸡蛋

刚表态过的朋友 (56 人)

发表评论

最新评论

评论 阿里 2017-4-23 00:56
这个教程不错
评论 scraper 2016-10-25 10:23
beanbing: 看了微博博主采集的,其中用了节点映射,而非文本映射(#text)两者都是一样的吗
可以认为是一样的 text是比较精确的采集 用A节点这些也可以 不过可能会有一些空格存在 有些情况下 一个text()的内容不完整 就要用到上级父节点 像这篇教程这样
评论 beanbing 2016-10-25 10:16
看了微博博主采集的,其中用了节点映射,而非文本映射(#text)两者都是一样的吗
评论 Fuller 2016-4-6 22:18
海呆呆: 不知道为什么,按着流程都做好了,测试时,下面输出信息确实有数据,但保存规则后,爬数据,显示没有线索了,可添加新线索或激活已有线索 ...
初级教程第三章就是讲怎样管理线索:http://www.gooseeker.com/doc/article-131-1.html
评论 海呆呆 2016-4-6 20:31
不知道为什么,按着流程都做好了,测试时,下面输出信息确实有数据,但保存规则后,爬数据,显示没有线索了,可添加新线索或激活已有线索
评论 ParcoHan 2016-1-3 03:17
这个初级教程说明已经不错了,对于新人来说认真看一遍基本都能操作。但还是建议高手们有空写些更详细的讲解,对于扩大集搜客很有帮助!
评论 goGeeker 2015-12-24 16:45
【开发者工具】--【导入】--选择XML文件
评论 Fuller 2015-11-11 23:02
这个教程还可以分拆一下,另外分拆成多个文档,分别讲解
1,内容怎样抓取
2,多个样例怎样抓取
3,要翻页怎么办
分拆开则查阅方便,阅读也没有压力

查看全部评论(8)

集搜客GooSeeker网络爬虫 ( 粤ICP备11065265号-2 )

GMT+8, 2017-9-24 03:59