在2019年8月,我们GooSeeker团队发布了第3版分词打标软件,即现在的分词和分类检索平台,在原来文本分词处理的基础上,增加了可以像搜索引擎那样检索和查看数据的分类检索功能模块,分词选词模块则做了一些优化,下面介绍基本操作,希望大家能借助这个工具,发掘出数据的价值。 1.新建任务 1.1.在【我的任务】里,通过【新建任务】,导入要做分词处理或者是要分析的数据文件。 1.2.如果是导入Excel的话,序号和正文两列是必须要有的,其他列可以没有;注意单个文件不要超过10M大小,超过的话需要分成多个文件导入。 2.分词选词 2.1.这里会把“正文”一列进行分词。在【分词选词】->【筛选词语】页面上,词语会按词频从大到小排序,勾选会用到的词语,具体选哪些词语要根据研究主题来定,每一页选完点击【确定】提交就会切换到下一页。 tips:点击词语,在右侧就会看到包含该词的数据,点击右侧数据会弹窗显示完整内容,这样就能边看数据边选词。 2.2.在【选词结果】中查看结果,如果需要补充词语,可以直接点【添加词语】来补充,或者回到筛选词语那里勾选。 3.下载分词选词的数据 3.1.选完词语后,在选词结果或打标结果或分词效果的页面上,点击【下载】按钮,就能下载到分词选词的数据压缩包。 tips:有选词的话,数据包里会有切词表、分词效果表、选词结果表、打标结果表四张表;没有选词的,下载就只有切词表、分词效果表,没有选词结果表和打标结果表。 (1)切词表 (2)分词效果表 (3)选词结果表 (4)打标结果表 3.2.在打标结果页面上,点击【下载匹配矩阵表】按钮,可以下载到正文与所选词语的匹配对应关系表。 (5)匹配矩阵表(表里的正文与词语如果匹配上就会标记1,没匹配上标记为0) 3.3.在分词效果页面上,点击【下载打标匹配表】按钮,下载到打标匹配表。 (6)打标匹配表 4.分类检索 4.1.前面新建任务所导入的数据,在【分类检索】中可以像搜索引擎那样进行搜索查看,也可以进行收藏,收藏后在【收藏管理】里查看和导出。 4.2.如果您在【分类管理】中创建领域->主题->标签词三级分类结构,系统会自动把正文与标签词做匹配,再关联主题和领域进行分类。 tips:可以把前面分词选词所下载到的选词结果表进行分类整理,也可以通过其他方式整理到Excel表里,然后【批量导入】即可。 然后在【分类检索】->【关注】里,就可以对分类匹配到的数据进行筛查,还可以导出分类数据表。 (7)分类数据表 5.关于任务管理 5.1.切换任务 在导航栏,可以选择其他任务,也可以输入任务搜索来切换。 5.2.导入数据 在除“我的任务”外的每一个菜单中都有【导入数据】按钮,通过它可以导入新数据到当前任务里。 5.3.删除任务 在【我的任务】里,选中任务的【删除】按钮,就可以删除该任务。 6.下载到的数据怎么用 前面下载到的数据,可以用于进一步的统计分析、数据建模、情感分析等,我们发布了一些数据的分析案例,大家感兴趣的可以到《GooSeeker分词和分类检索平台使用攻略》里查看。 |