GooSeeker 产品资源教程视频教程使用交流资讯

开启辅助访问切换风格

快捷导航

集搜客GooSeeker网络爬虫 › 官方文档 ›文档 › 查看内容

去资源库下载规则，轻松抓数据

2017-6-16 09:26| 发布者: Fuller| 查看: 24306| 评论: 2

摘要: 海量规则模板，免去做规则烦恼。如果你不会做规则但又非常想直接抓取数据，可以到集搜客的资源库直接下载规则模板，直接抓取数据。集搜客的资源库拥有大量成熟的规则模板，提供微信、微博、电商、新闻、论坛、行业等 ...

海量规则模板，免去做规则烦恼。
如果你不会做规则但又非常想直接抓取数据，可以到集搜客的资源库直接下载规则模板，直接抓取数据。
集搜客的资源库拥有大量成熟的规则模板，提供微信、微博、电商、新闻、论坛、行业等多种网站的采集规则模板，可以满足大多数人的数据需求，在这里查看这些规则：http://www.gooseeker.com/res/crawl_rule.html?operate=view&resType=-1

如何下载、运行规则？

一、下载安装爬虫浏览器
见《下载安装Gooseeker爬虫软件》

二、下载规则
1. 运行Gooseeker爬虫浏览器
双击桌面上的

2. 点击官网首页资源-》规则市场

3. 进入规则市场页面 http://www.jisouke.com/res/crawl_rule.html?operate=view&resType=-1

4. 进入规则下载页面。我们就以亚马逊商品列表-1为例。在上述页面点击它，进入这个规则的下载页面。

详细阅读规则介绍，包括采集内容，样本网址。尤其注意这个规则是否有配套的规则，是否有特殊的操作步骤。可以点击样本网址，了解这个规则能采集的页面。

点击下载，下载这个规则。下载完毕有提示，点击会员中心，进入会员中心页面。

三、运行规则
1. 在会员中心，点击规则管理

2. 在规则管理页面，点击亚马逊商品列表-11的启动采集

3. 打数机就会运行起来，开始采集样本页面的数据。

4. 采集下来的数据，保存在哪里？
样本页面采集完毕后，打数机会显示采集完成。

在打数机，查看数据存储路径：文件-》存储路径。一般来说，如果没有特别的设置，系统指定的存储路径为datascraperworks \ 亚马逊商品列表-11 \ ，你也可以在打数机运行期间，就打开这个文件夹，会看到XML文件一个一个生成。

5. 把采集下来的数据XML转EXCEL
采集下来的数据，是XML形式，一个页面生成一个XML文件，在这个例子里，因为样本页面只有一页，所以只得到了一个XML文件。一般会有很多个XML文件。

5.1 把这些XML压缩成ZIP文件

得到一个ZIP文件：

5.2 在会员中心导入/导出数据
进入会员中心，点击规则管理，点击亚马逊商品列表-11的管理。

进入这个规则的管理页面，点击导入数据

把刚才的ZIP文件导入。

然后，点击导出数据

导出成功后，点击下载。

一般，这个ZIP文件会保存在本地的下载目录里。在本地下载目录里查看这个文件

点击这个ZIP文件，得到解压的EXCEL文件

四、添加网址，用规则采更多的网址和数据
一般下载了规则，可不光是用来采集样本页面的。我们要用这个规则来采集一大批类似的页面。
对于亚马逊商品列表-11这个规则，样本页面是：

点击页面上21-40，就会到下一页，红框内是对应的网址。

同样点击后面的41-60，61-80，81-100，我们会得到四个新的网址。显然，抓取规则也适用于这四个网址。

在DS打数机里，右击主题名，出现选择菜单，选择管理线索->添加。把要采集的网址加入。

添加网址，保存。

点击“单搜”，要求输入多少线索数，其实就是要采集的网址数，刚才输入了4条网址，所以输入4，点确定。打数机开始采集数据。采集完成后，可以按上面的步骤，查看数据，把数据从XML转EXCLE。

刚表态过的朋友 (2 人)

上一篇：【第60期】集搜客爬虫入门下一篇：连续动作：如何把抓到的信息与动作步骤对应起来—以58同城为例 ...

相关阅读

• 淘宝开店运营十大攻略

最新评论

评论 Fuller 2020-5-16 18:32: 这个文章对应的是老版本的，新版本查找规则是在左栏。你知道怎样进入会员中心吗？可以在使用交流那里发帖子，那里可以贴图
西班牙三棵树: 请问我的会员中心里为什么没有规则这个呀也没有导入导出数据

评论西班牙三棵树 2020-5-16 16:39: 请问我的会员中心里为什么没有规则这个呀也没有导入导出数据

查看全部评论(2)

相关分类

下级分类

热门排行

旧版: 网站; 社区

支持: 常见问题; 视频教程; 速查手册; 指导书

关于: 公司简介; 联系方式; 友情链接

关注: 新浪微博; 官方微信

4008-770-662
仅收市话费，周一至周日9:00-18:00
24小时在线客服

GMT+8, 2026-7-17 01:18