【编者注】集搜客GooSeeker集微库-微博采集工具箱在3月份推出之后,受到很多用户的喜爱,我们希望更多的用户在使用的过程中将问题反馈给集搜客,一起改进软件,使集微库更加易用。PS:应用户反馈需求,集微库微博采集工具箱将在本周推出第6个小工具(微博博主详细信息采集工具)。 近年来,对社媒的分析,首选Facebook、推特、微博等社交平台的数据切入,在我身边,说到对微博数据的挖掘分析,跃跃欲试,但着手开始,问题扑面而来。一是论文方向确定的烦恼,二是确定后足够的样本数据的获取问题,三就是真正分析了,结果是没有结论,再试没有结论,最后还是没有结论,这样对研究者来说是极其痛苦的,同时也很容易陷入为了分析而分析的窘境。 互联网不乏一些对微博数据分析的工具,比如: ... ... 百度一搜一箩筐,但真正符合我需求的还没有,不是挑剔,是实话实说。 按我的理解,这些微博数据分析工具相当于是一个已经确定分析模型与算法的输出工具,输入微博或是网址之后,诸如用户情感值、粉丝质量、水军分析、传播视图等分析报告新鲜出炉,作为一名比较死磕的研究僧,结论很重要,但过程更重要。所以,先选好论文方向,再建立分析模型,最后得出结论。 结合自己的经历,下面说说微博论文方向和用到的工具。 (1)论文方向搜搜知网,微博数据挖掘的研究方向五花八门,中国对微博最早的研究出现在2009年,不过对微博数据的挖掘,是从10年才开始热起来的,这要结合当时微博的发展背景,一个产品,使用人数多到一定的程度便会引起更多的人去关注。 抓了在知网上有收录的快两千篇微博数据挖掘的论文信息,对研究主题进行分类统计,大概可以看出:
研究方向万花筒般,本人的研究方向倾向于文本挖掘,曾经参加过微博的一个商业项目(给XX公司做手机人群研究),由发布终端来判断用户的手机型号,从这些用户的博文中挖掘不同手机用户群体的差异。 以目标手机为关键词,高级搜索出博文,提出无效样本博文后,将这些样本数据进行分词打标,然后对不同机型的用户博文差异词进行分类匹配,统计不同机型的匹配度样本数占比,标签词对哪种机型较为匹配,则通过匹配度距离来衡量。 没有用到复杂的分析工具,明确分析思路后建立分析框架就较为顺手了,最后从中可以看到一些有趣的结论,XX手机的用户相对XX手机的用户具有更宽泛的话题(营销传播触达难度更大),XX手机用户讨论的更多的是时政话题,而XX手机用户较为关注网络购物,又或者是XX手机用户相对XX手机更为年轻等等。因为涉及到商业协议,具体的分析结论不贴出了。 明确研究方向很重要,只是一个大概的方向还不行,这样很容易像无头的苍蝇样乱飞乱撞。 (2)工具对于微博的挖掘分析,研究者首先最需要的应该是微博的原始数据。 程序员出生的话,自己动手写写爬虫,当作编程作业,抓成后还可以收获满满的成就感。不过也有像我同学一样接近毕业着急赶论文耗不起捣鼓程序或者是对编程门外汉的朋友,这种情况就要借助于一些数据获取工具,对爬虫术业有专攻的一些大牛研发的工具足够解决微博的数据获取问题了,所以不妨借助它们。
这个工具知乎上也有人做过推荐,本着没有使用就没有发言权的原则,对于这个微博可视化分析工具不多做说明,有兴趣的可以试试,我主要讲下下面一个微博数据抓取工具箱。 因为我有自己的研究模型,所以在研究阶段最让我头疼的应该是原始数据的获取了,这个工具确实帮了大忙。 微博对抓取数据量和频率做了限制,自己写过爬虫的人来说应该深有体会,采集的数据多了,必定会被封账号,被封后还得清缓冲换ID换账号,最终抓到的数据也不一定全。 这个工具GooSeeker集微库,测试之后,效果还好,能够获取微博的原始数据,适合论文分析使用,不会编程,那就试试,它不需要任何一点程序知识。 测试可以先指定了一个明星的微博账号,邓超学霸~ 邓超学霸发了729条微博,它这个工具抓了大概10分钟。 最后导出数据后是这样的,有651条数据,虽然没有729条但比我自己写爬虫抓的要全。 这个工具箱有5个小工具,分别是:
基本上覆盖微博的所有数据,这个工具箱对需要微博数据的研究僧算是福音了。 或者你有没有想过(这是我看到的一个知友提过的想法): 从指定用户开始,抓取他所有的微博信息及每条微博下面评论、转发、点赞用户的相关属性信息(包括id、用户名、所在地、粉丝数、关注数、标签等等),然后进行迭代,抓取刚才抓到用户(即刚才评论、转发、点赞的所有用户)的所发布的所有(可以自己设置抓取页数)微博信息,在抓他每条微博下面评论、转发、点赞用户的相关属性信息,以此类推…... 你有兴趣的话,可以试试。 |