微博是最受人们关注的重要传播媒介之一,是供人们创作并传播内容的新媒体平台, 集灵活性、开放性、自由性、互动性于一身。 微博的实时性、社交性等特点使得微博上的事件可以快速在微博平台上传播, 因此微博成为用户获取新闻和热点事件的重要途径, 同时也成为机构和个人即时发布信息的主要信息源。在微博平台上,新闻热点事件层出不穷, 媒体相继跟踪报道, 实时发布消息, 由此导致了微博平台上热点话题层出不穷。 针对微博平台上的博文数据和其它各种数据的研究也一直是高校论文命题的热点。 GooSeeker致力于为大学生提供易用的数据收集和文本挖掘工具,有一整套的微博数据收集工具,主要分为微博采集工具箱和微博快捷采集两类。 今天我们就以微博工具箱的微博博主博文内容工具为例介绍怎样获取更多的微博数据用于分析和研究。 1. 下载集搜客网络爬虫软件 最新版集搜客网络爬虫软件叫:GooSeeker数据管家(增强版爬虫软件)。数据管家实际是一个特殊的浏览器,具有爬虫功能和数据分析功能的浏览器。 安装完毕,数据管家会自启动。关闭数据管家后,要再次启动,可双击桌面上的数据管家图标。 2. 打开集搜客官网 登陆爬虫,登陆会员中心(如果没有自动加载集搜客官网,请在数据管家软件上打开集搜客官网https://www.gooseeker.com)。注意爬虫账号和会员中心账号一定要一致,并检查是否已经连上服务器(绿勾连接,红勾未连接)。 3. 登陆微博网站并检查微博显示界面是新版还是旧版 3.1 登录微博网站 根据使用经验,采集微博之前,需要先登录微博网站,才能更多的浏览完整内容。在不登录的情况下,有很多限制,比如很多内容不显示,不显示翻页等。 在数据管家新开一个页签,在新页签打开微博网站 https://weibo.com,登录微博。 3.2 检查是否是新版界面,如果是新版界面,则选择返回旧版页面 检查和切换界面方法:把页面右上角的设置菜单点开,如果有“返回原版微博”,则点击该选项,切换回旧版微博界面。如果没有这个选项,则不用做切换。 4. 进入微博工具箱界面 点击数据管家左侧边栏的“微”按钮,进入微博工具箱界面。 5. 选择合适的快捷工具 根据要采集的微博数据类型,选择对应的工具。 对于微博博主主页来说,选择“微博博主主页内容”,然后会显示此工具的详情页面。点击右上角的“开始使用”, 进入工具界面,如果出现登录提示,做一下登录就可以了。然后就可以看到工作界面了。 第一次进入,会有帮助提示,可以点击下一步查看,也可以点击关闭 6. 操作步骤 6.1 ,新建采集任务 点击“新建采集任务”按钮,在弹出的输入界面里,给采集任务起个名字,名字随意,自己好任好记就可以。 把需要采集的博主网址用Ctrl+v粘贴到网址输入栏,点击确定。 采集范围的3个选项的含义: 1. 全部历史微博:由于微博有一个网址最多翻50页的限制,所以如果博主的博文超过了50页,可以选择这个选项,有助于采集到更多的博文数据。 2. 通过链接翻页看到的全部微博:最大翻50页 3. 仅第1页 6.2 启动采集 6.3 采集中的爬虫窗口 点击获取数据之后,数据管家自动弹出两个采集窗口(窗口右下方有绿色的状态球),一个窗口加载网页,采集数据,一个窗口打包上传数据。两个采集窗口工作时,都不能关闭。 6.4 打包下载数据 采集完成后,采集状态会从橙色的“采集中”,变成绿色的”已采集”。然后打包下载数据,下载下来的数据一般保存在电脑的下载文件夹。 如果,采集不成功,采集状态会变成红色的“已停止”,这时,要检查 1. 需要提前登陆的网站,是否已经登陆; 2. 再重新采集一遍,注意观察采集窗口,网页是否正常加载,如果网页正常加载,但仍然采集失败,请在论坛或者QQ群联系集搜客官方,我们会及时测试维护这些工具。 7. 采集到的数据 微博博主主页工具采集的样例数据: 图14 |