快捷导航

去资源库下载规则,轻松抓数据

2017-6-16 09:26| 发布者: Fuller| 查看: 608| 评论: 0

摘要: 海量规则模板,免去做规则烦恼。如果你不会做规则但又非常想直接抓取数据,可以到集搜客的资源库直接下载规则模板,直接抓取数据。集搜客的资源库拥有大量成熟的规则模板,提供微信、微博、电商、新闻、论坛、行业等 ...
海量规则模板,免去做规则烦恼。
如果你不会做规则但又非常想直接抓取数据,可以到集搜客的资源库直接下载规则模板,直接抓取数据。
集搜客的资源库拥有大量成熟的规则模板,提供微信、微博、电商、新闻、论坛、行业等多种网站的采集规则模板,可以满足大多数人的数据需求,在这里查看这些规则:
http://www.gooseeker.com/res/crawl_rule.html?operate=view&resType=-1

如何下载、运行规则?

一、 下载安装爬虫浏览器
《下载安装Gooseeker爬虫软件》

二、下载规则
1. 运行Gooseeker爬虫浏览器
双击桌面上的


2. 点击 官网首页 资源-》规则市场






4. 进入规则下载页面。我们就以亚马逊商品列表-1为例。在上述页面点击它,进入这个规则的下载页面。
 详细阅读规则介绍,包括采集内容,样本网址。尤其注意这个规则是否有配套的规则,是否有特殊的操作步骤。可以点击样本网址,了解这个规则能采集的页面。


 
 
点击下载,下载这个规则。下载完毕有提示,点击会员中心,进入会员中心页面。


三、运行规则
1. 在会员中心,点击 规则管理

 



2. 在规则管理页面,点击 亚马逊商品列表-11的启动采集



3. 打数机就会运行起来,开始采集样本页面的数据。


 
4. 采集下来的数据,保存在哪里?
样本页面采集完毕后,打数机会显示采集完成。


 
在打数机,查看数据存储路径:文件-》存储路径。一般来说,如果没有特别的设置,系统指定的存储路径为datascraperworks \ 亚马逊商品列表-11 \ ,你也可以在打数机运行期间,就打开这个文件夹,会看到XML文件一个一个生成。


 
5. 把采集下来的数据XML转EXCEL
 采集下来的数据,是XML形式,一个页面生成一个XML文件,在这个例子里,因为样本页面只有一页,所以只得到了一个XML文件。一般会有很多个XML文件


5.1 把这些XML压缩成ZIP文件



得到一个ZIP文件:

5.2 在会员中心导入/导出数据
进入会员中心,点击规则管理,点击 亚马逊商品列表-11的管理。



 
进入这个规则的管理页面,点击导入数据


 
把刚才的ZIP文件导入。
 




然后,点击导出数据


 

导出成功后,点击下载。


 
一般,这个ZIP文件会保存在本地的下载目录里。在本地下载目录里查看这个文件


 
点击这个ZIP文件,得到解压的EXCEL文件


 四、添加网址,用规则采更多的网址和数据
一般下载了规则,可不光是用来采集样本页面的。我们要用这个规则来采集一大批类似的页面。
对于亚马逊商品列表-11这个规则,样本页面是:


 
点击页面上21-40,就会到下一页,红框内是对应的网址。


 
同样点击后面的41-60,61-80,81-100,我们会得到四个新的网址。显然,抓取规则也适用于这四个网址。

在DS打数机里,右击主题名,出现选择菜单,选择管理线索->添加。把要采集的网址加入


 
添加网址,保存。


 
点击“单搜”,要求输入多少线索数,其实就是要采集的网址数,刚才输入了4条网址,所以输入4,点确定。打数机开始采集数据。采集完成后,可以按上面的步骤,查看数据,把数据从XML转EXCLE。



鲜花

握手

雷人

路过

鸡蛋

最新评论

集搜客GooSeeker网络爬虫 ( 粤ICP备11065265号-2 )

GMT+8, 2017-7-25 18:39