请问,用集搜客做情感分析时,为什么导入数据和导出数据的句子总量不一样啊?(导出比导入还多)
举报 使用道具
| 回复

共 22 个关于本帖的回复 最后回复于 2021-12-27 15:10

ym 版主 发表于 2020-3-9 16:38:56 | 显示全部楼层
情感分析是以句子为分析单位的,所以导出来的数据表行数会比导入的数据行数要多,情感分析会把原数据再切一次句子,针对句子做情感分析判断,所以序号会变成由原数据序号+句子序号组成,点击下相同原数据序号的句子,可以看到整条的情感分析统计 QQ图片20200309163511.png
QQ图片20200309163516.png
举报 使用道具
思秋忆 中级会员 发表于 2020-3-9 16:39:09 | 显示全部楼层
意思是这6208就是原先的一句完整的句子?
举报 使用道具
ym 版主 发表于 2020-3-9 16:39:40 | 显示全部楼层
是的,6208就是导入的一整条原数据,6208-53就是从这条原数据切出来的第53个句子
举报 使用道具
思秋忆 中级会员 发表于 2020-3-9 16:40:06 | 显示全部楼层
哦哦懂了
那怎么判断一条完整原始数据是正向负向还是中的情感倾向?
是正的多就正向或者正负抵消就是中性?
举报 使用道具
ym 版主 发表于 2020-3-9 16:44:15 | 显示全部楼层
思秋忆 发表于 2020-3-9 16:40
哦哦懂了
那怎么判断一条完整原始数据是正向负向还是中的情感倾向?
是正的多就正向或者正负抵消就是中性? ...

粗糙估算的话,可以对这条原数据的切出来的句子做一次正负面的加减运算
精确的话,要以整条数据(文章级别)为分析单位,构建情感词典和判断模型,目前集搜客分词和分类检索平台实现的是句子级别的情感分析,暂不支持整条数据的情感判断。

举报 使用道具
思秋忆 中级会员 发表于 2020-3-9 16:49:44 | 显示全部楼层
就简单的正负个数加减对吧
举报 使用道具
ym 版主 发表于 2020-3-9 16:50:10 | 显示全部楼层
是的
举报 使用道具
思秋忆 中级会员 发表于 2020-3-9 16:54:46 | 显示全部楼层
本帖最后由 ym 于 2020-3-9 16:56 编辑

情感分析后得序号,但和原始数据得序号不匹配呢,句子序号不是对应序号的句子拆分的吗?我就想怎么和原文那种1,2,3,。。。。序号一一对应
原数据序号
QQ图片20200309164553.png
导出的情感结果表序号
QQ图片20200309164557.png
举报 使用道具
ym 版主 发表于 2020-3-9 16:56:30 | 显示全部楼层
思秋忆 发表于 2020-3-9 16:54
情感分析后得序号,但和原始数据得序号不匹配呢,句子序号不是对应序号的句子拆分的吗?我就想怎么和原文那 ...

之前版本迭代有个bug,情感分析的原数据序号弄错了,你这些数据可能是迭代之前导入的,所以会有bug,现在创建个新任务,再导入数据做情感分析就没有这个问题了
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-18 12:28