写论文需要收集微博数据,一般我们推荐同学们使用GooSeeker微博工具箱,多个工具互为配合,统一的界面设计,使用起来很方便。 近来不少同学在Q群和论坛问能否采集微博位置相关的信息, 这样做数据分析的时候多一个维度。 其实微博采集,除了微博工具箱,GooSeeker还提供了一系列的快捷采集工具,添加链接或者关键词,就可以采集数据,不用做采集规则,非常简单快捷。 今天我们就介绍怎样使用快捷采集来获取微博位置相关的信息。 1. 下载安装GooSeeker网络爬虫 最新版GooSeeker网络爬虫叫数据管家,是增强版爬虫软件。数据管家实际是一个特殊的浏览器,具有爬虫功能和数据分析功能的浏览器。 安装完毕,数据管家会自启动。关闭数据管家后,要再次启动,可双击桌面上的数据管家图标。 2. 运行GooSeeker数据管家 GooSeeker数据管家第一次运行的时候会提示输入集搜客账号,一定要输入正确才能登录到爬虫服务平台,否则采集功能不能执行,只能当成普通浏览器使用。 数据管家一运行就会打开GooSeeker官网,如果没有自动打开,那么手工输入集搜客官网https://www.gooseeker.com网址。第一次运行的时候,会提示没有登录会员中心,会出现提示框,只要确认即可实现爬虫软件与会员中心同步登录。 登陆爬虫,登陆会员中心(注意爬虫账号和会员中心账号一定要一致)都成功完成的话,就能看到成功连上爬虫服务器(绿勾连接,红勾未连接),如下图 3. 登陆微博网站 根据使用经验,采集微博之前,需要先登录微博,才能持续浏览完整内容。 在数据管家新开一个页签,在新页签打开微博网站 https://www.weibo.com/,并登陆一个微博账号。 4. 进入快捷采集 点击数据管家左侧边栏的“快”按钮,进入快捷采集。 5. 选择合适的快捷工具 根据要采集的网页,选择 类别 - 网站 - 网页。微博位置相关的快捷采集有3个,分别是: 下面的示例以“微博签到采集_此地热议”为例。如下图所示,可以打开示例页面看看,确保后面操作时,添加的链接和示例页面类似。或者浏览网页下方的示例数据,进一步了解选定的快捷工具是否满足要求。 6. 操作步骤 我们以“微博签到采集_此地热议”为例,讲解操作过程。 6.1 粘贴链接,启动采集 比如,我们要采集与河南信阳有关的微博,要在微博网站上找到河南信阳的网页,然后把网址拷贝下来,就是这个网址: https://weibo.com/p/1001018008641150000000000,用Ctrl+v粘贴到快捷工具的网址输入栏,启动采集。 6.2 采集中的爬虫窗口 点击获取数据之后,数据管家自动弹出两个采集窗口(窗口右下方有绿色的状态球),一个窗口加载网页,采集数据,一个窗口打包上传数据。两个采集窗口工作时,都不能关闭。 6.3 打包下载数据 数据管家在弹出采集窗口的同时,还弹出了一个快捷采集数据管理窗口。在管理窗口上看,采集完成后,采集状态会从橙色的“采集中”,变成绿色的”已采集”。然后就可以打包下载数据,下载下来的数据一般保存在电脑的下载文件夹。 如果,采集不成功,采集状态会变成红色的“已停止”,这时,要检查 1. 添加的链接是否和样本页面类似; 2. 需要提前登陆的网站,是否已经登陆; 3. 再重新采集一遍,注意观察采集窗口,网页是否正常加载 如果网页正常加载,但仍然采集失败,请在论坛或者QQ群联系集搜客官方,我们会及时测试维护这些工具。 7. 采集到的数据 微博签到_此地热议的样例数据: 8. 怎样获得微博签到地点相关的网址 上面我们添加的是签到地为信阳的网址。如果我们想添加其它城市,比如贵阳,怎样得到这个签到网址呢? 首选在微博首页搜索“贵阳”,然后在高级搜索里选择“含短链”,这样在结果里就可以找到贵阳的位置信息网址。 如上图, 把贵阳的网址复制出来,就可以添加到“微博签到采集_此地热议” 。我们把这个网址写到下面再研究一下怎样拓展 https://weibo.com/p/1001018008652010000000000 这个网址后面添加checkin或nearby,就是另2个微博签到采集的网址: 1. 微博签到采集_来过此地的人:https://weibo.com/p/1001018008652010000000000/checkin 2. 微博签到采集_探索此地:https://weibo.com/p/1001018008652010000000000/nearby |