快捷导航

小白入门:直观标注采数据

2016-5-24 17:10| 发布者: HJLing| 查看: 11355| 评论: 0

摘要: 一、定义主题名1.1 打开MS谋数台,在网址处粘贴需要采集数据的网址,按回车键等待页面加载。1.2 看到下方的浏览器窗口已经加载出页面,并且右上的页面地址自动填上,说明页面已经加载完成。1.3 在主题名处填写规则主 ...


一、定义主题名

1.1  打开MS谋数台,在网址处粘贴需要采集数据的样例网址,按回车键等待页面加载。

1.2  看到下方的浏览器窗口已经加载出页面,并且右上的页面地址自动填上,说明页面已经加载完成。


1.3  在主题名处填写规则主题名,由于主题名不能重复,所以需要点击查重按钮查看当前主题名是否可用,弹出窗显示“该名可以使用”时就可以继续下面操作,否则需要更改当前主题名直至不重复。


二、定义规则

2.1  点击要采集的内容,这里点击商品名,可以看到商品名称变成黄底,表示被选中的信息。

2.2  再点击一次,会弹出一个输入框,输入抓取内容名称。

2.3  输入第一个抓取内容时,会弹出创建整理箱的弹窗,输入整理箱名称后,点击确认。

2.4  可以看到工作台页面已经建立了整理箱抓取内容。

2.5  同样对价钱和店铺做步骤2.1和2.2,可以看到工作台已经有3个抓取内容。

2.6  点击测试按钮。

2.7   弹出提示框,勾选关键内容是为了给爬虫执行采集提供判断标志,对于页面一定会出现的内容可以勾上"关键内容"。

2.8   这里给商品名勾选关键内容。

2.9  点击测试,可以看到下方输出信息会显示采集内容。可以看到目前采集到的只是一个商品的信息,要把整个页面上结构相同的商品信息都采集下来,就需要做样例复制。


三、样例复制

3.1     在创建规则工作台,点击列表,勾选启用样例复制。注意:只有容器节点才能启用样例复制。

3.2   选择第一个商品的样例节点,右击-样例复制映射-第一个。


3.3  同理对第二个商品做样例复制。

3.4  可以看到样例复制处显示样例复制的编号,再点击测试,可以看到输出信息已经有多个商品信息。

3.5   点击右上方存规则,再点击爬数据。

3.6  可以看到DS打数机在运行采集数据。


四、查看采集结果文件

数据以XML格式 默认存放在C盘用户文件夹的DataScraperWorks 中,可通过DS打数机的“文件-存储路径”来自定义结果文件的存储路径。


五、xml转excel

每采集一个网页,就会得到一个xml数据文件,如果是连续翻页采集,那么每翻一页都会生成一个xml文件,通过把xml转为excel,可以合并到一个excel文件中,以供进一步的处理。操作方法见http://www.gooseeker.com/doc/thread-1821-1-1.html

这样子就完成了数据采集了,当然,GooSeeker不止这点能耐,采集图片、翻页采集、深入页面采集详细信息,通通不是问题,快跟着教程开启数据采集之路吧!


若有疑问可以集搜客网络爬虫
20

鲜花
2

握手
1

雷人

路过
6

鸡蛋

刚表态过的朋友 (29 人)

相关阅读

最新评论

集搜客GooSeeker网络爬虫 ( 粤ICP备11065265号-2 )

GMT+8, 2017-7-26 02:45