GooSeeker大数据开发团队开发的在线的分词工具软件,要做到“文科生能用的分词软件”,比如,公共管理专业、社会学各专业、工商行政管理各专业、营销管理各专业等等。“文科生”没有任何褒贬含义,其实我们GooSeeker团队的分析师也大部分都是“文科生”,因为他们可以免受技术思路的束缚,直接看到业务层面的问题和解答,在商业分析和智慧城市大数据管理等领域执行各种研究工作的策划、顶层设计和管理。 基于以上目标,总路线是采用在线云服务,重点解决以下几个问题: 1. 下载到本地安装的软件万一有病毒或者木马怎么办?即使官方发布的软件不会含有病毒,但是从别的软件下载网站下载的版本就是一个不得不考虑的问题 2. 最新的软件功能是否能及时用上?下载到本地安装的软件,这也是一个痛点问题,所以,我们要采用云的方式,除了能第一时间把新功能交给用户以外,还可以第一时间用上最新的自然语言处理(NLP)、中文信息处理和文本挖掘技术和产品。比如,在云服务的架构下,可以随时采用更加先进的中文分词技术,毕竟这些基础技术都需要采用第三方的业界领先的产品。 3. 产品和服务是否一直持续提供?技术在发展,用户需求在变化,一个好的产品一定是一个持续服务的产品,比如,软件功能升级、用户问题解答。 4. 导入的文档可以是pdf,word,txt,excel,输出都是excel,excel是分析师的最爱。 基于以上考虑,在持续的产品发展过程中,GooSeeker研发团队参考了大量的分词和文本挖掘软件。如果讲技术或者面向工程师,应该去研究BAT们发布的NLP云服务,毫无疑问十分强大。然而,面对“文科生”和各专业写论文的学生,而且想快速帮助他/她完成分析任务,还是应该放眼那些便捷软件工具为好。 这个系列文章,我们重点剖析Rost-CM内容挖掘系统,只有吸取先进养分,才能做得更加卓越。 1,Rost-CM的功能界面 Rost CM发展了多个版本,下面是我最熟悉和使用最多的版本4.0.0 还有5.8.0 从界面和菜单就能看出,这是一个功能丰富的软件,围绕着内容挖掘(Content Mining)集成了很多功能模块。先重点关注以下两个功能(节选自V6版本的ROST用户手册): (1)分词 点击功能性分析下拉列表框中的分词选项,打开分词窗口,在待处理文本框中载入待处理文件,如“虚拟学习团队2010‐8‐7.txt”,则系统按照程序目录下的User 目录下的User.txt 文档,自动在输出文件框中生成“虚拟学习团队2010‐8‐7_分词后.txt”文件,获得以空格分离的分词后文档,如果原来文档中有空格的位置保留空格。点击确定按钮,即可打开该文档。 如果需要自己增加一些词,则点击工具下拉列表框中的自定义文件→分词自定义词表,系统将自动在记事本中打开user 目录下的user.txt 文件,编辑后点击保存存盘,再次重新启动本软件,方可生效。 (2)字频分析 点击功能性分析下拉列表框中的字频分析选项,打开字频分析窗口, 在待处理文件框中载入待处理文件, 如“ 虚拟学习团队2010‐8‐7.txt”,则系统自动在输出文件框中生成“虚拟学习团队2010‐8‐7_字频.txt”文件,点击确定按钮,即可打开该文档。 这是两个最重要的功能,大部分基于分词的研究任务或者作业基本上用这两个功能就够了,得到了分词结果,可以做各种统计,最可能做的可视化操作是画一个词云。后续的这些数据分析和可视化操作,可以在其他专用软件上做,很灵活。所以,暂且放下其他功能不去深究,先看看我对产品的规划。 2,文科生都能用的分词工具 上面已经说过,最常用的功能就是 分词和词频 统计,能否做到导入要分析的内容就能导出需要的结果?是的,不需要将分词和词频分析分成两个步骤。 导入以后,就能看到原始数据和分词好的数据,也能看到按照词频排序的词语,这时候可以不做多余的操作,只导出就行了,会将四张表打包在一起:
既然分词和词频统计这么简单,为什么非要坐到电脑前做这件事情呢?如果要分词的文件是通过微信收到的,如果分词结果要通过微信发送出去,如果结果文件要在PC和手机间传递,都只需扫一次二维码即可,这就是微信小程序——分词作业帮 的用处。 3,写作规划 接下来,我将用多篇文章,引导读者深入体验多个分词工具的功能特性。 |