集搜客文本分词标注工具使用指南5-如何使用打标结果

2016-11-15 16:24| 发布者: ym| 查看: 10137| 评论: 2

摘要: 六、如何使用打标结果 用文本分词标注工具可以输出下面四个表,可能对于一些人来说,这样的数据会比较陌生以及不知如何做计算,下面就说说一些思路,但实际的用途不限于这些。 1、标签词库 统计频数,计算权重,进行 ...

六、如何使用打标结果

文本分词标注工具可以输出下面四个表,可能对于一些人来说,这样的数据会比较陌生以及不知如何做计算,下面就说说一些思路,但实际的用途不限于这些。

1、标签词库

统计频数,计算权重,进行特征抽取,找出能够反映主题的特征。注意:输出的词频是计算原数据分词后该词语出现的次数,是按词语为单位的,如果想统计在原数据中包含该词的数据条数,即以文本数据为单位,就需要重新计算频数;大家可以对标签词做进一步的文本分类,可以形成某领域内的分类器,也有利于特定主题的统计分析;


2、情感词库

标签词+情感词+调性的组合通常可以结合原数据来分析用户态度,会涉及到一些计算甚至是数学建模,具体计算是要根据研究目的进行,这里就不详述,这也是研究用户偏好、精确量化用户意见及潜在意愿的有效办法,也是支持产品改进、商业决策的有效途径。


3、打标结果表

这个是把标签词和情感词与原数据匹配的结果,不包括没有匹配到的原数据。一个标签词会对应多条文本数据,一条文本数据也可能会包含多个标签词,有的文本数据只匹配到标签词,却没有情感词。可以用来计算用户态度。


4、分词结果表

这是把原数据做词语切分后的结果,以空格为间隔,可以研究分词效果以及词频统计。


若有疑问可以集搜客爬虫软件

鲜花

握手

雷人

路过

鸡蛋

相关阅读

发表评论

最新评论

评论 Fuller 2021-10-11 15:40
tysfxy: 对标签词做进一步的文本分类,形成某领域内的分类器,这个过程必须是自己手动完成吗?
集搜客分词软件左栏有个菜单“抽关键词”,点击进去就能使用分类检索功能,要自己手工定义类别,把类别相关的标签词整理出来,输入进去,就能自动匹配标签词分成不同类。

也可以用一些文本挖掘算法,很多程序都整理在这个帖子中:https://www.gooseeker.com/doc/thread-18414-1-2.html
评论 tysfxy 2021-10-11 11:33
对标签词做进一步的文本分类,形成某领域内的分类器,这个过程必须是自己手动完成吗?

查看全部评论(2)

GMT+8, 2024-12-22 09:13