海量规则模板,免去做规则烦恼。 如果你不会做规则但又非常想直接抓取数据,可以到集搜客的资源库直接下载规则模板,直接抓取数据。 集搜客的资源库拥有大量成熟的规则模板,提供微信、微博、电商、新闻、论坛、行业等多种网站的采集规则模板,可以满足大多数人的数据需求,在这里查看这些规则:http://www.gooseeker.com/res/crawl_rule.html?operate=view&resType=-1 如何下载、运行规则? 2. 点击 官网首页 资源-》规则市场 4. 进入规则下载页面。我们就以亚马逊商品列表-1为例。在上述页面点击它,进入这个规则的下载页面。 详细阅读规则介绍,包括采集内容,样本网址。尤其注意这个规则是否有配套的规则,是否有特殊的操作步骤。可以点击样本网址,了解这个规则能采集的页面。 点击下载,下载这个规则。下载完毕有提示,点击会员中心,进入会员中心页面。
2. 在规则管理页面,点击 亚马逊商品列表-11的启动采集 3. 打数机就会运行起来,开始采集样本页面的数据。 4. 采集下来的数据,保存在哪里? 样本页面采集完毕后,打数机会显示采集完成。 在打数机,查看数据存储路径:文件-》存储路径。一般来说,如果没有特别的设置,系统指定的存储路径为datascraperworks \ 亚马逊商品列表-11 \ ,你也可以在打数机运行期间,就打开这个文件夹,会看到XML文件一个一个生成。 5. 把采集下来的数据XML转EXCEL 采集下来的数据,是XML形式,一个页面生成一个XML文件,在这个例子里,因为样本页面只有一页,所以只得到了一个XML文件。一般会有很多个XML文件。 5.1 把这些XML压缩成ZIP文件 得到一个ZIP文件: 5.2 在会员中心导入/导出数据 进入会员中心,点击规则管理,点击 亚马逊商品列表-11的管理。 进入这个规则的管理页面,点击导入数据 把刚才的ZIP文件导入。 然后,点击导出数据 导出成功后,点击下载。 一般,这个ZIP文件会保存在本地的下载目录里。在本地下载目录里查看这个文件 点击这个ZIP文件,得到解压的EXCEL文件 四、添加网址,用规则采更多的网址和数据 一般下载了规则,可不光是用来采集样本页面的。我们要用这个规则来采集一大批类似的页面。 对于亚马逊商品列表-11这个规则,样本页面是: 点击页面上21-40,就会到下一页,红框内是对应的网址。 同样点击后面的41-60,61-80,81-100,我们会得到四个新的网址。显然,抓取规则也适用于这四个网址。 在DS打数机里,右击主题名,出现选择菜单,选择管理线索->添加。把要采集的网址加入。 添加网址,保存。 点击“单搜”,要求输入多少线索数,其实就是要采集的网址数,刚才输入了4条网址,所以输入4,点确定。打数机开始采集数据。采集完成后,可以按上面的步骤,查看数据,把数据从XML转EXCLE。 |