我看到大家讨论比较多的是主题词之间的关系,通过共现矩阵计算中心度,观察主题之间的关系,有时候我们叫这个是语义网络分析,虽然你们技术支持说语义网络有别的含义。

我现在用集搜客分词软件处理微博中的人名,我要把微博内容中体现出来的社交关系分析出来。我发现集搜客分词工具有时候把一个人名分开了,有时候不分开。

所以,我的统计就不准了。我能直接添加新词的方式把这些人名加入吗?加入以后能解决人名被分开的问题吗?


举报 使用道具
| 回复

共 3 个关于本帖的回复 最后回复于 2020-3-25 10:16

微舆情 高级会员 发表于 2020-3-25 10:05:23 | 显示全部楼层
假如系统词库中已经有这2个词: 张三, 张三丰
那在分词的时候,对于文本中的“张三丰”, 会怎样处理呢

举报 使用道具
ym 版主 发表于 2020-3-25 10:13:56 | 显示全部楼层
在“分词选词”->“选词结果”里,通过“添加词语”把没切出来的词语添加进去,这种就会直接把词语与原数据做匹配统计,不会出现词语被切开的问题,但是与自动分词相比,这种没法智能区分有歧义的词语,比如,添加词语“难看”,在句子“很难看出一个人的内在品德”里“难看”也会被统计到,而自动分词就能判断出这种歧义,就不会切词统计
举报 使用道具
ym 版主 发表于 2020-3-25 10:16:50 | 显示全部楼层
本帖最后由 ym 于 2020-3-25 10:18 编辑
微舆情 发表于 2020-3-25 10:05
假如系统词库中已经有这2个词: 张三, 张三丰
那在分词的时候,对于文本中的“张三丰”, 会怎样处理呢

如果是系统自动分词,可能切不出两个人名,通过添加词语,把这两个人名添加进去,因为是直接把词语与原数据做匹配统计的,“张三”与“张三丰”的前两个字相同,“张丰”的统计词频就会包括“张三丰”的词频

举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-28 19:58