集搜客有成熟的微博工具箱,可以采集微博的关键词搜索结果,博主博文,博主信息,微博话题,博文转发/评论等等。不需要做采集规则,输入关键词或者网页链接就可以采集,非常简单快捷。 我们以微博关键词搜索结果为例,讲解微博工具箱的使用过程。 1. 首先下载安装Gooseeker数据管家(增强版爬虫软件) 数据管家实际上是一个特殊的浏览器,具有爬虫功能和数据分析功能的浏览器。 安装完毕,数据管家会自启动。 关闭数据管家后,要再次启动,可双击桌面上的数据管家图标。 2. 在Gooseeker数据管家,打开集搜客官网https://www.gooseeker.com 首先,要分别登录爬虫软件(见下图左下角红框)和登录会员中心(见下图右上角红框) 注意:爬虫账号和会员中心账号一定要一致。数据管家第一次运行会提示登录,这是登录爬虫软件。如果做了这次登录,通常情况下,在打开集搜客官网的时候会自动提示同步登录会员中心,点击确认即可。 其次,检查是否已经连上服务器(绿勾连接,红叉未连接)。如果服务器未连接,要重新登陆左下角爬虫账号(不是右上角的登录会员中心),点击“重选服务器”按钮,输入 https://www.gooseeker.com ,注意优先使用 https,不是http,如果https不能连接,再尝试http 3. 在数据管家浏览器新开一个页签窗口,打开微博网站https://www.weibo.com,并登陆一个微博账号。 因为微博网站要登陆后,才能正常浏览,所以采集之前,要先在数据管家打开并登陆微博网站。 4. 进入微博工具箱 在数据管家的左侧边栏,点击“微”按钮,进入微博工具箱。 选中关键词搜索工具 进入关键词工具的简介页面 5. 操作步骤 不太热的关键词,搜索结果小于50页,按5.1最简单的操作步骤就可以了。 比较热的关键词,搜索结果满50页了,要按5.2的步骤,细分搜索条件。 5.1 最简单的操作步骤 如下图所示,添加关键词,选择时间段,确认添加,启动采集。采集完成后,打包、下载数据。 注意,点击启动采集后,会有如下提示框,要求采集之前,在当前浏览器登陆微博。我们在前面已经登陆过了,所以点击继续。如果没有登陆,点击“去登陆”,系统会自动打开微博网站,你需要去登陆一个微博账号。然后再回来点击继续。爬虫会弹出采集窗口,加载微博网页,采集数据。 弹出的采集窗口:有个一直旋转的图标,表示正在执行爬虫任务。根据服务器的忙闲程度,有可能很快就会分配到任务,就能看到微博网页加载了出来 5.2 复杂一点的操作步骤 微博网站的关键词搜索,每一次搜索,最多显示50页。对一个比较热的词,有可能几小时甚至1小时的搜索结果会达到50页。采集时,需要细分时间段和其它的高级搜索选项。 比如,关键词“疫苗”,比较热,我们要采集4月1日到4月10之间有关“疫苗”的博文,可以这样细分时间段: 实际上,关于“疫苗”,两天的博文也会超过50页,我们可以更细的划分,以小时为单位。 怎么选择合适的时间单位?采集之前,先在微博上用关键词高级搜索,手动搜索一下,看看大概多长时间会有50页的博文。 有些用户会对采集到的博文有特别筛选要求,比如只要原创的博文。 可以在高级设置里勾选。 高级设置里有很多选项,实际操作时可根据需要勾选。(高级设置里的周期采集,适用于长期跟踪采集微博,是旗舰版以上用户的高级功能) 上述高级搜索设置和微博网站的高级搜索一致。如果不太熟悉,可以在微博网站上手动多练习几次关键词的高级搜索。 6. 采集到的数据 采集到的数据,打包下载得到一个压缩的ZIP数据包,一般会下载到电脑的下载文件夹。双击自解压得到excel格式的数据表。 注意:采集完成后,可能需要一点时间转换成excel格式,时间长短视服务器忙闲程度,所以,最好先等几分钟再打包。如果发现打包不全,过一会再尝试打包一次。 示例数据: 除了博文,这个数据表里有两个字段值得特别注意:博主主页链接和博文独立链接。 有了博主主页链接,我们可以把这些链接批量添加到博主主页工具,批量采集各个博主发布的所有博文。或者添加到博主详细资料工具,得到博主简介/粉丝数/关注数/博文数/所在地,标签等详细信息。 有了博文独立链接,我们可以把这些链接添加到转发/评论工具,批量采集各个博文的转发和评论。或者添加到博文展开工具,批量采集到完整的长博文。 从以上的介绍可以看出,微博工具箱里的各个工具可以结合起来使用,功能更强大,能采集到更大批量的数据。 |