本文介绍集搜客GooSeeker基本使用方法,可快速简单的抓取网页上的数据。 注释:本文演示的抓取规则,可到资源库下载学习:集搜客怎样抓取网页数据演示规则,下载运行即可抓取样本数据。 一、制作抓取规则如果把“抓取数据”比喻成“做一道数学题”的话,“规则”就是你要得到“计算结果”(就是数据)之前列出的“方程式”。后面的很多概念请好好看图哦,图上面都有标明的 。 1.输入目标网址,命名主题名 图1 第一步:将“要抓取的网址”输入到MS谋数台的网址栏,按ENTER键加载,可以看到网页在MS谋数台底部浏览器窗口出现。 第二步:页面显示后,在命名主题工作台处“输入主题名”并 查重以确定主题名是否可用,主题名被占用会导致规则无法保存。 2.新建整理箱 图2 第一步: 点击新建按钮,在弹出的窗口中输入想要命名的整理箱名称。 第二步: 在整理箱中创建抓取内容,右击整理箱名称选择 “添加→包容”(表示抓取内容包含在整理箱中)。继续添加的话,选择右击新建的抓取内容,“添加→其后”依次添加抓取内容; 第三步:勾选“关键内容”,选择整理箱中 重要且确定会在网页上出现的内容 勾上“关键内容”,它是爬虫判断是否采数据的参照点。 3.映射目标抓取内容 图3 第一步: 在浏览器窗口中点击目标数据——“商品名”(Apple/苹果iphone 6s)。 第二步: 谋数台会自动定位“商品名”在网页标签窗口中节点的位置(A节点)。 第三步: 展开A节点,找到text。 第四步: 点击text,可在 “文本窗口” 内容中看到text的值; 第五步: 右击text做 “内容映射” 到商品名称。 抓取“商品价格”和抓取“商品名称”的操作步骤相同。 Tips1:如果在内容映射后,发现只是抓取到了商品名称的一部分,参考教程:如何抓取网页片段完整信息 4. 通过样例复制,抓取网页上相同结构的数据
图4 第一步:点击整理箱名。 第二步:勾选启用,启用样例复制功能。 第三步:分别找到第一个商品 和 第二个商品 对应的节点。 第四步:右击 第一个商品对应节点 样例复制功能中的 “第一个” 映射到 样例1。 第五步:右击 第二个商品对应节点 样例复制功能中的 “第二个” 映射到 样例2。 Tips:详细样例复制的复制操作参考教程:怎样批量抓取网页上结构相同的数据——样例复制 5. 规则测试成功后存规则 图5 第一步:点击 测试 按钮可以看到抓取的内容,测试可看到抓取到的内容是不是我们想要的。 第二步:测试成功后,点击 存规则,规则上载到服务器。 第三步:保存规则成功后,点击 爬数据 按钮就开始采集了。 二、启动DS打数机爬数据1. 爬数据,DS打数机有多种采集数据的方式,具体见DS打数机如何采集数据,下面介绍两种启动DS打数机的方法: 第一种:直接点击MS里面 “存规则” 按钮后面的 “爬数据” 按钮。 第二种:打开 DS打数机,在 “搜索框” 输入 主题名(可使用通配符*辅助搜索)搜索后点击单搜开始抓取数据。 图6 Tips1:不只想要抓取当前页面的内容还想要抓取翻页后的内容,参考教程:怎样抓取翻页后的数据 Tips2:想要抓取当前页面的内容在深入到下一页抓取商品详情页的内容,参考教程:怎样深入多层级网页采集数据 2.看结果 数据以XML格式 默认存放在C盘用户文件夹的DataScraperWorks 中,可自定义更改结果存储路径。 同时集搜客提供将XML批量导入EXCEL的工具。excel转化之后的数据,如图6所示。 图7 |