最近要对微博和京东的手机评论分别做分析,类似语义研究,需要对文本数据进行分词,再找出有用的词语,进行标签分类,后面还有一堆的处理步骤,此处省略一万字,但是,单单前面分词这里就弄得头大,原因是本人小白不太懂编程。 在网上随便搜索一下的确能找到不少分词工具,但都是基于java和python语言,对于没有编程基础的人来说就用不了,所以,费了很大劲,终于找到了一款免编程的在线分词工具,叫做集搜客文本分词标注工具,非常简单易用,又刚好满足了我的这种需求,所以,想把这款工具介绍给有相同需求的人! 就拿我的研究为例吧,我把20万条京东的手机评论导入到工具里,它就会自动切分词语,统计出词频,并且按照降序展示出来,我只要把手机相关的词语选出来就行,包括手机外观硬件和买家的体验感受等等词语。 20万条评论数据分词得到了2万个词语,因为是降序浏览的,并且这个工具支持过滤英文、数字、单个词、网址等,选择了过滤条件后,我浏览了大约4千个词语后,就完成选词工作了,得到总共989个词语,也可以看到它的词云图,最后把数据直接下载下来就搞定了。我也把京东评论的989个标签词发布出来,有需要的可以下载。 比较特别的一点就是,这个工具还可以对选出的标签词再次打标,就是找出跟标签词组合在一起并且具有情感色彩的词语,例如:信号是标签词,评论数据有人说手机的信号很好,也有人说手机的信号很差,这里的很好和很差就是情感词。挺适合做深入语义分析的人。 集搜客文本分词标注工具的分词速度还可以,导入20万条数据大约花了10分钟,并且分词精度高,同时支持中英文分词,分词结果和选词结果都可以下载下来,虽然是个收费软件,一个月是20元,但是有7天的免费试用期,小白可以尝试一下。 |