六、如何使用打标结果 用文本分词标注工具可以输出下面四个表,可能对于一些人来说,这样的数据会比较陌生以及不知如何做计算,下面就说说一些思路,但实际的用途不限于这些。 1、标签词库 统计频数,计算权重,进行特征抽取,找出能够反映主题的特征。注意:输出的词频是计算原数据分词后该词语出现的次数,是按词语为单位的,如果想统计在原数据中包含该词的数据条数,即以文本数据为单位,就需要重新计算频数;大家可以对标签词做进一步的文本分类,可以形成某领域内的分类器,也有利于特定主题的统计分析; 2、情感词库 标签词+情感词+调性的组合通常可以结合原数据来分析用户态度,会涉及到一些计算甚至是数学建模,具体计算是要根据研究目的进行,这里就不详述,这也是研究用户偏好、精确量化用户意见及潜在意愿的有效办法,也是支持产品改进、商业决策的有效途径。 3、打标结果表 这个是把标签词和情感词与原数据匹配的结果,不包括没有匹配到的原数据。一个标签词会对应多条文本数据,一条文本数据也可能会包含多个标签词,有的文本数据只匹配到标签词,却没有情感词。可以用来计算用户态度。 4、分词结果表 这是把原数据做词语切分后的结果,以空格为间隔,可以研究分词效果以及词频统计。 |