集搜客数据管家是GooSeeker发布的采用新内核的网络爬虫工具,数据管家不仅仅把集搜客网络爬虫软件移植到新内核上,而且整个操作体验更加简洁易用了。 下面将讲解用数据管家采集微博的操作过程,请预先下载并安装好集搜客数据管家软件。 1,进入微博采集工具管理界面 集搜客数据管家软件看起来就是一个浏览器,用法也跟浏览器一样。要采集微博数据,就要在数据管家上先进入微博采集工具箱页面,页面上有好多微博采集工具,找到想使用的微博工具,进入该工具的管理页面,就可启动采集过程和管理采集过程。下面将详细讲解。 1.1,进入微博工具箱页面 微博采集工具箱页面罗列了所有工具,是gooseeker.com官网上的一个网页。 a) 怎样找到微博工具箱 数据管家刚一运行,就会把GooSeeker网站首页加载出来。另一个进入方法是点击地址栏上的“返回首页”按钮重新把首页显示出来(参看下图箭头指向的按钮)。 在首页顶部选择菜单“产品”->“微博采集”就能进入微博采集工具箱界面。 b) 选择合适的微博采集工具 微博上的不同网页对应不同的采集工具,这些采集工具的关系参看《新浪微博数据采集攻略》,这些工具可以组合在一起使用,前一个工具采集到的数据导成excel格式以后,把网址拷贝出来,添加到下一个工具中。 点击下图中的某个工具,会进入工具介绍页,在那里点击“开始使用”按钮即可进入工具的管理页面。 如下图,每个方块是一个微博采集工具。 下面以关键词搜索结果采集为例,讲解爬虫运行方法。 1.2,进入关键词搜索结果采集界面 虽然微博采集工具不同,但是界面基本上相同,主要的功能按钮有: a)创建任务 对应上图的“确认添加”和“细分条件”,当输入了要搜索的关键词以后,可以设置细分条件,也可以不设置。确认添加后就创建了采集任务 b)启动采集 对应上图的“启动采集”按钮。如果数据管家还没有运行起来两个爬虫群窗口,那么需要点击“启动采集”,点击后会提示是否需要预先登录微博。如果还没有登录,一定要先登录微博。 c)打包 采集完成了或者在采集中途,都可以点击“打包”按钮,就能看到提示界面,把已经采集到的微博数据下载下来。 d)数据下载 只有新采集的数据可以点击“打包”按钮,如果要重新下载以前打包的数据,点击“数据下载”按钮。 e)其他功能 界面上还有很多管理功能,比如 1,点击“采集状态”按钮,可以看详细的采集进度 2,点击某条采集任务的关键词,界面下部就会显示最新采集结果数据 3,点击“采集状态”按钮以后,在界面上会显示“重采失败线索”按钮,可以把采集失败的网址重新采集一遍。 2,观察采集运行情况 2.1,采集数据的窗口 集搜客数据管家可以同时打开很多页签浏览器,点击“启动采集”的时候会增加两个页签浏览器窗口,他们跟普通窗口不一样,右下角有个进度球,鼠标悬浮在上面可以看到状态不断变化。 有进度球的窗口关闭的时候都会提示,要求确认是“强制关闭”还是“安全关闭”,如果强制关闭,窗口立即就关闭了,如果安全关闭,等待把当前任务采集完成了,就会自动关闭。 2.2,打包数据的窗口 启动微博采集以后,会同时运行起来两个爬虫群窗口,其中一个看起来并不采集数据,但是,最好也不要关闭,因为这个窗口是专门用来打包数据的,如果关闭了,只能等采集数据的窗口做最后一次打包,如果最后这一次打包失败,会丢失掉大量数据。 下面是打包数据窗口的截图,可以看到持续不断地打包数据。这种增量式打包更可靠,即使有丢失也是局部的。 3,注意事项 1. 爬虫正在运行的时候,不要最小化数据管家的界面,也不要缩小,而是应该尽量最大化,否则微博有可能会不加载网页内容。 2. 如果还想用电脑做其他事情,数据管家界面上可以覆盖别的窗口,并不影响爬虫的运行,就是不能最小化。 |
Seanna2001: 看到翻页了,但是每次可打包数据都是0条
Fuller: 采集微博关键词搜索?还是评论转发?爬虫运行的时候,有没有看到爬虫浏览器中把微博页面加载出来?有没有看到翻页? ...