集搜客有成熟的微博工具箱,可以采集微博的关键词搜索,博主主页内容,博主信息,微博话题,博文转发/评论等等。不需要做采集规则,输入关键词或者网页链接就可以采集,非常简单快捷。 我们以博主主页内容为例,讲解微博工具箱的使用过程。 1. 首先下载安装Gooseeker数据管家(增强版爬虫软件) 数据管家实际是一个特殊的浏览器,具有爬虫功能和数据分析功能的浏览器。 安装完毕,数据管家会自启动。 关闭数据管家后,要再次启动,可双击桌面上的数据管家图标。 2. 在Gooseeker数据管家,打开集搜客官网https://www.gooseeker.com 首先,分别登录爬虫软件(见下图左下角红框),和登录会员中心(见下图右上角红框)。 注意:爬虫账号和会员中心账号一定要一致。数据管家第一次运行会提示登录,这是登录爬虫软件。如果做了这次登录,通常情况下,在打开集搜客官网的时候会自动提示同步登录会员中心,点击确认即可。 其次,检查是否已经连上服务器(绿勾连接,红叉未连接)。如果服务器未连接,请重新登陆左下角爬虫账号(不是右上角的登录会员中心),点击“重选服务器”按钮,输入 https://www.gooseeker.com ,注意优先使用 https,如果https不能连接,再尝试http 3. 打开微博网站https://www.weibo.com,并登陆一个微博账号 在数据管家浏览器新开一个页签窗口,打开微博网站。 https://www.weibo.com,并登陆一个微博账号。 因为微博网站要登陆后,才能正常浏览,所以采集之前,要先在数据管家里打开并登陆微博网站。 4. 进入微博工具箱 在数据管家的左侧边栏,点击“微”按钮,进入微博工具箱。 选中博主主页内容工具 进入博主主页内容工具的简介页面 5. 操作步骤 大概需要以下4个步骤。 5.1 新建采集任务 点击网页上的“新建采集任务”按钮,出现如下图所示的对话框。下面重点说明根据采集需求,怎么选择采集范围,以及怎样获取博主主页链接。 5.1.1 采集博主所有的博文 如果要采集博主所发的全部博文,采集范围选择“全部历史微博”。(如果博文不超过10页,也可以选择“通过链接翻页看到的全部微博”) 博主主页链接这样获取: 采集范围选择 “通过链接翻页看到的全部微博” 博主主页链接这样获取: 5.1.3 采集某个特定时间段,或者某些特定筛选条件下的博文 采集范围选择“通过链接翻页看到的全部微博”。 通过博主主页的高级搜索功能,获取博主主页链接。 选择了采集范围,并添加了链接后,就可以点击启动采集。 注意,点击启动采集后,会有如下提示框,要求采集之前,在当前浏览器登陆微博。我们在前面已经登陆过了,所以点击继续。如果没有登陆,点击“去登陆”,系统会自动打开微博网站,你需要去登陆一个微博账号。然后再回来点击继续。爬虫会弹出采集窗口,加载微博网页,采集数据。 弹出两个采集窗口,一个加载网页,采集数据,一个打包上传数据,两个窗口都不能关。 5.3 打包、下载数据 采集完成后,采集状态变成绿色的已采集,然后就可以打包,下载数据。 6. 采集到的数据 打包下载压缩的ZIP数据包,一般会下载到电脑的下载文件夹。可以双击自解压得到excel数据表。 示例数据: 除了博文,数据表里还有个字段值得特别注意:博文独立链接。有了博文独立链接,我们可以把这些链接添加到转发/评论工具,批量采集各个博文的转发和评论。或者添加到博文展开工具,批量采集到完整的被折叠长博文。 从以上的介绍可以看出,微博工具箱里的多个工具可以结合起来使用,能采集到更大批量的数据。 |