去资源库下载规则,轻松抓数据

2015-8-21 10:24| 发布者: ym| 查看: 32913| 评论: 0

摘要: 如果你不会做规则但又非常想直接抓取数据,或者是觉得做规则很难、耗时费力的初学者,可以到集搜客的资源库直接下载规则模板,直接抓取数据,体验规则是如何定义和运行的,会让你改观对网络爬虫的认识,抓取网页数据 ...
观看视频教程

海量规则模板,免去做规则烦恼

如果你不会做规则但又非常想直接抓取数据,或者是觉得做规则很难、耗时费力的初学者,可以到集搜客的资源库直接下载规则模板,直接抓取数据,体验规则是如何定义和运行的,会让你改观对网络爬虫的认识,抓取网页数据无需学会Python、Java、C++等编程语言,使用集搜客软件去资源库下载规则模板,一样可以轻松抓取到海量网络数据;

集搜客的资源库拥有大量成熟的规则模板,提供微信、微博、电商、新闻、论坛、行业等多种网站的采集规则模板,可以满足大多数人的数据需求,一键轻松抓数据,免去做规则烦恼


下载规则的使用方法:

1、下载规则后运行DS打数机采集数据

资源库下载规则后,就会提示下载完成和现在运行,点击运行就会弹出DS打数机采数据;如果想以后再运行的话,有以下两种方法:

  • 到集搜客官网的会员中心“我的资源”->“我的下载”中,点击“运行”按钮直接启动DS打数机采集一条网址的数据;
  • 手工启动DS打数机点击主题名右侧的“单搜”按钮或者“集搜”按钮,输入要抓取的线索,就会依次爬取每个网址的数据。
  • PS:建议右击主题名,选择“统计线索”了解一下有多少线索数量再输入

注意:一开始采到的就是样本网页的数据,这是做规则时自动生成的,也是给用户测试用的,如果运行正常就说明规则是有效的,不想要样本网页数据的话,撤销线索的方法:右击主题名,选择“管理线索”->“撤销所有线索”;删除线索的方法:去集搜客官网的会员中心->爬虫管理->规则管理,删掉样本网址。

2、添加/激活线索网址

当网址都采完了,会提示没有等待抓取的线索,可以添加/激活线索,添加/激活线索网址的方法如下:

方法1:通过会员中心的爬虫管理来添加/激活:在集搜客官网的会员中心->爬虫管理->规则管理进行添加/激活操作。

方法2:通过DS打数机的管理线索来添加/激活:在DS打数机里右击主题名,选择管理线索->添加/激活线索。

   

3、查看结果文件、导入excel

采完数据后要到本地的DataScraperWorks文件夹查看结果文件,如需导入excel,可参考如何将XML结果文件导入excel

4、查看修改规则

规则是存储在服务器中,查看规则的话就要到MS谋数台搜规则里加载查看和修改,详见规则怎么查看、修改、另存、删除

若有疑问可以集搜客网络爬虫
12

鲜花

握手

雷人
1

路过
5

鸡蛋

刚表态过的朋友 (18 人)

相关阅读

最新评论

GMT+8, 2024-10-31 12:53