您现在看到的是旧版软件教程,新版软件的界面、功能经过全新改版,更加简单好用 学习新版教程请戳采集网页数据 一、定义主题名 1.1 打开集搜客,在右上角打开MS谋数台,在网址处粘贴需要采集数据的样例网址,按回车键等待页面加载。 1.2 看到下方的浏览器窗口已经加载出页面,并且右上的页面地址自动填上,说明页面已经加载完成。
二、定义规则 2.1 点击要采集的内容,这里点击商品名,可以看到商品名称变成黄底,表示被选中的信息。 2.2 再点击一次,会弹出一个输入框,输入抓取内容名称。 2.3 输入第一个抓取内容时,会弹出创建整理箱的弹窗,输入整理箱名称后,点击确认。 2.4 可以看到工作台页面已经建立了整理箱抓取内容。 2.5 同样对价钱和店铺做步骤2.1和2.2,可以看到工作台已经有3个抓取内容。 2.6 点击测试按钮。 2.7 弹出提示框,勾选关键内容是为了给爬虫执行采集提供判断标志,对于页面一定会出现的内容可以勾上"关键内容"。 2.8 这里给商品名勾选关键内容。 2.9 点击测试,可以看到下方输出信息会显示采集内容。可以看到目前采集到的只是一个商品的信息,要把整个页面上结构相同的商品信息都采集下来,就需要做样例复制。 三、样例复制 下面讲的是旧版软件的样例复制操作,对新手来说会有点复杂,新版软件操作更加简单,这里简单说一下,直接单击网页上第一个样例的任意位置,就会定位到dom窗口里的一个节点,鼠标右击节点选样例复制映射->第一个,再按照这个方法,单击网页上第二个样例的任意位置,又定位到dom里一个节点,右击选择样例复制映射->第二个,就完成了,详细说明见教程《采集列表数据》。 3.1 在创建规则工作台,点击列表,勾选启用样例复制。注意:只有容器节点才能启用样例复制。 3.2 选择第一个商品的样例节点,右击-样例复制映射-第一个。 3.3 同理对第二个商品做样例复制。 3.4 可以看到样例复制处显示样例复制的编号,再点击测试,可以看到输出信息已经有多个商品信息。 3.5 点击右上方存规则,再点击爬数据。 3.6 可以看到DS打数机在运行采集数据。 四、查看采集结果文件 数据以XML格式 默认存放在C盘用户文件夹的DataScraperWorks 中,可通过DS打数机的“文件-存储路径”来自定义结果文件的存储路径。 五、xml转excel 每采集一个网页,就会得到一个xml数据文件,如果是连续翻页采集,那么每翻一页都会生成一个xml文件,通过把xml转为excel,可以合并到一个excel文件中,以供进一步的处理。操作方法见http://www.gooseeker.com/doc/thread-1821-1-1.html 这样子就完成了数据采集了,当然,GooSeeker不止这点能耐,采集图片、翻页采集、深入页面采集详细信息,通通不是问题,快跟着教程开启数据采集之路吧! |