学习Rost-CM内容挖掘系统的分词工具

2018-4-24 19:26| 发布者: Fuller| 查看: 15654| 评论: 4

摘要: GooSeeker大数据开发团队开发的在线的分词工具软件,要做到“文科生能用的分词软件”,比如,公共管理专业、社会学各专业、工商行政管理各专业、营销管理各专业等等。 ... ... ... ...

GooSeeker大数据开发团队开发的在线的分词工具软件,要做到“文科生能用的分词软件”,比如,公共管理专业、社会学各专业、工商行政管理各专业、营销管理各专业等等。“文科生”没有任何褒贬含义,其实我们GooSeeker团队的分析师也大部分都是“文科生”,因为他们可以免受技术思路的束缚,直接看到业务层面的问题和解答,在商业分析和智慧城市大数据管理等领域执行各种研究工作的策划、顶层设计和管理。

基于以上目标,总路线是采用在线云服务,重点解决以下几个问题:

1.    下载到本地安装的软件万一有病毒或者木马怎么办?即使官方发布的软件不会含有病毒,但是从别的软件下载网站下载的版本就是一个不得不考虑的问题

2.    最新的软件功能是否能及时用上?下载到本地安装的软件,这也是一个痛点问题,所以,我们要采用云的方式,除了能第一时间把新功能交给用户以外,还可以第一时间用上最新的自然语言处理(NLP)、中文信息处理和文本挖掘技术和产品。比如,在云服务的架构下,可以随时采用更加先进的中文分词技术,毕竟这些基础技术都需要采用第三方的业界领先的产品。

3.    产品和服务是否一直持续提供?技术在发展,用户需求在变化,一个好的产品一定是一个持续服务的产品,比如,软件功能升级、用户问题解答。

4.    导入的文档可以是pdf,word,txt,excel,输出都是excel,excel是分析师的最爱。

基于以上考虑,在持续的产品发展过程中,GooSeeker研发团队参考了大量的分词和文本挖掘软件。如果讲技术或者面向工程师,应该去研究BAT们发布的NLP云服务,毫无疑问十分强大。然而,面对“文科生”和各专业写论文的学生,而且想快速帮助他/她完成分析任务,还是应该放眼那些便捷软件工具为好。

这个系列文章,我们重点剖析Rost-CM内容挖掘系统,只有吸取先进养分,才能做得更加卓越。

1,Rost-CM的功能界面

Rost CM发展了多个版本,下面是我最熟悉和使用最多的版本4.0.0


还有5.8.0

从界面和菜单就能看出,这是一个功能丰富的软件,围绕着内容挖掘(Content Mining)集成了很多功能模块。先重点关注以下两个功能(节选自V6版本的ROST用户手册):

(1)分词

点击功能性分析下拉列表框中的分词选项,打开分词窗口,在待处理文本框中载入待处理文件,如“虚拟学习团队2010‐8‐7.txt”,则系统按照程序目录下的User 目录下的User.txt 文档,自动在输出文件框中生成“虚拟学习团队2010‐8‐7_分词后.txt”文件,获得以空格分离的分词后文档,如果原来文档中有空格的位置保留空格。点击确定按钮,即可打开该文档。

如果需要自己增加一些词,则点击工具下拉列表框中的自定义文件→分词自定义词表,系统将自动在记事本中打开user 目录下的user.txt 文件,编辑后点击保存存盘,再次重新启动本软件,方可生效。

(2)字频分析

点击功能性分析下拉列表框中的字频分析选项,打开字频分析窗口, 在待处理文件框中载入待处理文件, 如“ 虚拟学习团队2010‐8‐7.txt”,则系统自动在输出文件框中生成“虚拟学习团队2010‐8‐7_字频.txt”文件,点击确定按钮,即可打开该文档。

这是两个最重要的功能,大部分基于分词的研究任务或者作业基本上用这两个功能就够了,得到了分词结果,可以做各种统计,最可能做的可视化操作是画一个词云。后续的这些数据分析和可视化操作,可以在其他专用软件上做,很灵活。所以,暂且放下其他功能不去深究,先看看我对产品的规划。

2,文科生都能用的分词工具

上面已经说过,最常用的功能就是 分词和词频 统计,能否做到导入要分析的内容就能导出需要的结果?是的,不需要将分词和词频分析分成两个步骤。


导入以后,就能看到原始数据和分词好的数据,也能看到按照词频排序的词语,这时候可以不做多余的操作,只导出就行了,会将四张表打包在一起:

  • 分词效果表:一行原始内容对应一行经过分词的内容
  • 打标结果表:如果筛选了词语,就有这种表,把每条原始内容含有的词语罗列出来
  • 切词表:就是通常所说的词频表
  • 选词结果表:跟切词表一样的结构,但是只有筛选过的词,如下图,很多高词频的词是无助于分析的,甚至会干扰分析结果


既然分词和词频统计这么简单,为什么非要坐到电脑前做这件事情呢?如果要分词的文件是通过微信收到的,如果分词结果要通过微信发送出去,如果结果文件要在PC和手机间传递,都只需扫一次二维码即可,这就是微信小程序——分词作业帮 的用处。

3,写作规划

接下来,我将用多篇文章,引导读者深入体验多个分词工具的功能特性。

3

鲜花

握手

雷人

路过

鸡蛋

刚表态过的朋友 (3 人)

发表评论

最新评论

评论 Fuller 2019-1-9 19:52
lixueyun: 集搜客软件不会用,最近在学,感觉教程很零散,请问一下有什么好的教程推荐吗?谢谢啦
集搜客的分词工具很容易用,爬虫难学,但是分词工具都不用看教程,这里有介绍:https://www.gooseeker.com/res/softdetail_13.html
评论 lixueyun 2019-1-9 18:12
Fuller: rost应该都不维护了,用集搜客的分词软件满足不了你的需求?
集搜客软件不会用,最近在学,感觉教程很零散,请问一下有什么好的教程推荐吗?谢谢啦
评论 Fuller 2018-10-4 17:10
小白何时不菜: 您好,请问一下ROST CM6.0可以给分享一下吗?找了好多都用不了,非常感谢!!邮箱:lixueyun@126.com
rost应该都不维护了,用集搜客的分词软件满足不了你的需求?
评论 小白何时不菜 2018-10-4 17:08
您好,请问一下ROST CM6.0可以给分享一下吗?找了好多都用不了,非常感谢!!邮箱:lixueyun@126.com

查看全部评论(4)

GMT+8, 2024-11-23 13:27