请问,用集搜客做情感分析时,为什么导入数据和导出数据的句子总量不一样啊?(导出比导入还多)
举报 使用道具
| 回复

共 22 个关于本帖的回复 最后回复于 2021-12-27 15:10

沙发
ym 版主 发表于 2020-3-9 16:38:56 | 只看该作者
情感分析是以句子为分析单位的,所以导出来的数据表行数会比导入的数据行数要多,情感分析会把原数据再切一次句子,针对句子做情感分析判断,所以序号会变成由原数据序号+句子序号组成,点击下相同原数据序号的句子,可以看到整条的情感分析统计

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
板凳
思秋忆 中级会员 发表于 2020-3-9 16:39:09 | 只看该作者
意思是这6208就是原先的一句完整的句子?
举报 使用道具
地板
ym 版主 发表于 2020-3-9 16:39:40 | 只看该作者
是的,6208就是导入的一整条原数据,6208-53就是从这条原数据切出来的第53个句子
举报 使用道具
5#
思秋忆 中级会员 发表于 2020-3-9 16:40:06 | 只看该作者
哦哦懂了
那怎么判断一条完整原始数据是正向负向还是中的情感倾向?
是正的多就正向或者正负抵消就是中性?
举报 使用道具
6#
ym 版主 发表于 2020-3-9 16:44:15 | 只看该作者
思秋忆 发表于 2020-3-9 16:40
哦哦懂了
那怎么判断一条完整原始数据是正向负向还是中的情感倾向?
是正的多就正向或者正负抵消就是中性? ...

粗糙估算的话,可以对这条原数据的切出来的句子做一次正负面的加减运算
精确的话,要以整条数据(文章级别)为分析单位,构建情感词典和判断模型,目前集搜客分词和分类检索平台实现的是句子级别的情感分析,暂不支持整条数据的情感判断。

举报 使用道具
7#
思秋忆 中级会员 发表于 2020-3-9 16:49:44 | 只看该作者
就简单的正负个数加减对吧
举报 使用道具
8#
ym 版主 发表于 2020-3-9 16:50:10 | 只看该作者
是的
举报 使用道具
9#
思秋忆 中级会员 发表于 2020-3-9 16:54:46 | 只看该作者
本帖最后由 ym 于 2020-3-9 16:56 编辑

情感分析后得序号,但和原始数据得序号不匹配呢,句子序号不是对应序号的句子拆分的吗?我就想怎么和原文那种1,2,3,。。。。序号一一对应
原数据序号

导出的情感结果表序号

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
10#
ym 版主 发表于 2020-3-9 16:56:30 | 只看该作者
思秋忆 发表于 2020-3-9 16:54
情感分析后得序号,但和原始数据得序号不匹配呢,句子序号不是对应序号的句子拆分的吗?我就想怎么和原文那 ...

之前版本迭代有个bug,情感分析的原数据序号弄错了,你这些数据可能是迭代之前导入的,所以会有bug,现在创建个新任务,再导入数据做情感分析就没有这个问题了
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 利用AI阅读和分析文本:扣子COZE记录用户反
  • 在网页片段内直观标注——以B站评论采集为
  • 利用AI阅读和分析文本:使用COZE建设游记文
  • 使用AI工具Kimi生成python代码为文本分析结
  • 苹果mac电脑安装集搜客网络爬虫软件失败的

热门用户

GMT+8, 2024-11-22 04:32