我知道什么是词向量,但是在阅读这篇论文《基于词向量的跨领域中文情感词典构建方法》的时候,看到“分布式词向量”,有什么特点?怎样构造?怎样使用?能用来算出什么结论?
举报 使用道具
| 回复

共 2 个关于本帖的回复 最后回复于 2021-9-2 12:08

沙发
马涌河畔 金牌会员 发表于 2021-9-2 12:02:24 | 只看该作者
分布式词向量,是不是就是这篇文章《综述 词向量与分布式表示》里说的词的分布式表示,其实和词向量是一个意思?

分布式表示(distribution representation)
将词转化成一种分布式表示,又称词向量(Word embedding)。将词表示成一个定长的连续的稠密向量。
分布式表示优点:(1) 词之间存在相似关系,存在“距离”概念,这对很多自然语言处理的任务非常有帮助。(2) 词向量能够包含更多信息,并且每一维都有特定的含义。


举报 使用道具
板凳
内容分析应用 金牌会员 发表于 2021-9-2 12:08:52 | 只看该作者
马涌河畔 发表于 2021-9-2 12:02
分布式词向量,是不是就是这篇文章《综述 词向量与分布式表示》里说的词的分布式表示,其实和词向量是一个 ...

从这篇文章《分布表示(distributional representation)与分布式表示(distributed representation)》的解释看, 应该是有2个不同的词:
分布表示(distributional representation)
分布表示(distributional representation):是基于分布假设理论,利用共生矩阵来获取词的语义表示,可以看成是一类获取词表示的方法。
什么是分布假说呢?词是承载语义的最基本的单元,而传统的独热表示(one-hot represen-tation)仅仅将词符号化,不包含任何语义信息。如何将语义融入到词表示中?Harris 在 1954 年提出的分布假说(distributional hypothesis)为这一设想提供了理论基础:上下文相似的词,其语义也相似。
“这里的分布”与中文“统计分布”一词语义对应,描述的是上下文的概率分布。用上下文描述语义的表示方法(或基于分布假说的方法)都可以称作分布表示,如潜在语义分析模型(Latent Semantic Analysis, LSA)、潜在狄利克雷分配模型(Latent Dirichlet Allocation,LDA)等。

分布式表示(distributed representation)
分布式表示(distributed representation),描述的是把文本分散嵌入到另一个空间,一般从是从高维空间嵌入到低维空间。
“嵌入”是几个意思?感觉跟塞入、挤入差不多呀。
还真是这样。如词的独热表示(one-hot representation),首先是高维的,且在高维向量中只有一个维度描述了词的语义。多高?词典有多大就有多少维,怎么也得万把维度吧。
如何在低维空间表达一个词呢?目前流行的是通过矩阵降维或神经网络降维将语义分散存储到向量的各个维度中,这两类方法得到的向量空间是低维的一般都可以称作分布式表示,又称为词嵌入(word embedding)或词向量)。
看吧,这就把词的表示从高维(5000-20000)嵌入到低维(50-300)。what?300维也叫低维?!是的,你没学过相对论? ^_^
这里的分布式(distributed)是“分散”、“分配”的意思,与中文“分布式计算”一词语义对应,与之相对的是局部表示(local representation)。

词嵌入vs词向量
还是叫词嵌入好点。词向量容易绕人。从广义上讲,传统的词袋子模型也是用向量描述文本,也应当被称作词的向量表示,但是这种向量是高维稀疏的。在目前的NLP语境中,“词向量”特指由神经网络模型得到的低维实数向量表示。



举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-27 11:00