比如彭昱畅这个词,给切成了彭昱,可以手工输入彭昱畅让他重新切吗?
举报 使用道具
| 回复

共 6 个关于本帖的回复 最后回复于 2020-4-27 15:28

沙发
ym 版主 发表于 2020-4-27 15:19:21 | 只看该作者
本帖最后由 ym 于 2020-4-27 15:24 编辑

集搜客分词工具目前是采用条件随机场CRF算法,算法是配置在服务器上的,大家都是用的同一个切词算法,用户不能自定义修改。

相对其他切词算法,CRF在识别新词上有较好的效果,但也会存在识别不准确的情况,如果有些词语没切分出来,可以在“选词结果”里点击“添加词语”,然后系统会直接把所添加的词与原数据进行精确查找匹配并计算出词频,这不是修改切词算法,是类似检索的功能。
举报 使用道具
板凳
简__jane 新手上路 发表于 2020-4-27 15:19:49 | 只看该作者
主要是想看看这个词的词频,我自己添加的词语词频能看到吗?
举报 使用道具
地板
ym 版主 发表于 2020-4-27 15:20:20 | 只看该作者
添加的词语也会计算出词频
举报 使用道具
5#
ym 版主 发表于 2020-4-27 15:22:09 | 只看该作者
不过与自动切词相比,添加词语这种就不会根据上下文的语义来判断,匹配上就算一个,所以会出现交集型歧义的误差,比如“人情”这个词,在句子“要观察个人情况的好坏”里,就会匹配上,但语义上应该是切成“个人”“情况”
举报 使用道具
6#
简__jane 新手上路 发表于 2020-4-27 15:25:56 | 只看该作者
可是自动切词,有些新的名词就没切出来
举报 使用道具
7#
ym 版主 发表于 2020-4-27 15:28:00 | 只看该作者
自动切词、添加词语都各有好坏,自动切词的算法是机器学习算法,有些名词类的词语切不出来也是正常的,把自动切词和添加词语配合着使用,就可以得到更准确的切词效果了。
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-20 07:59