随着互联网、电子商务的迅速发展,线上餐饮业产生了大量的评论信息,产品的在线评论属于口碑(WOM,Word-of-Mouth)的范畴,对口碑的研究是管理学中非常热门的课题方向,因为很多经典的实证研究都证明——用户在购买产品时大多会参考口碑信息,其购买行为以及后续对产品的体验和评价都会直接或者间接地受到口碑的影响。因此,对于电商平台来说,重视口碑数据的分析,并且对口碑内容进行管理,是非常重要的互联网运营工作。 如何利用文本挖掘技术从海量的评论中获取有用的信息也成为众多学者研究的热点。 今天分享给大家的这篇论文范例,通过自动从海量用户评论中抽取有效关键词, 帮助用户和商家快速有效地发现有价值的信息, 从而更好地为用户购买行为提供决策支持, 为商家改善服务质量提供信息反馈。 之前Gooseeker已经发布了几篇电商评论采集和分析的原创文章: 3.分析电商评论发现消费者话题-LDA主题分析篇(Jupyter Notebook) 研究所需的美团评论数据,可以使用GooSeeker美团数据快捷采集获取,添加网址或者关键词,启动采集即可: 1. 美团美食_列表快捷采集 2. 美团美食_评论快捷采集 1,论文范例简介 标题:面向用户评论的关键词抽取研究——以美团为例 作者: 张震1 曾金2 1. 华中师范大学信息管理学院 2. 武汉大学信息管理学院 关键词:产品推荐;用户评论;关键词抽取; 基金资助: 国家社会科学基金重点项目“基于全生命周期的政府开放数据整合利用机制与模式研究”(项目编号:17ATQ006); 中央高校基本科研业务费专项资金重大培育项目“大数据环境下的政府信息服务研究”(项目编号:CCNU16Z02002)的研究成果之一; 摘要: 【目的】通过自动从海量用户评论中抽取有效关键词,帮助用户和商家快速有效地发现有价值的信息,从而更好地为用户购买行为提供决策支持,为商家改善服务质量提供信息反馈。 【方法】界定面向用户评论的关键词抽取的问题定义,从商家和用户两个角度提出面向用户评论的关键词抽取的评价准则;提出一种基于语言模型的用户评论关键词抽取方法(LMKE),采集美团网用户评论构建实验数据集,并与TF-IDF和TextRank两种关键词抽取方法进行对比。 【结果】LMKE方法在P@5、P@10、P@20、nDCG@5、nDCG@10和nDCG@20的最高得分分别为0.7665、0.6701、0.6200、0.8187、0.7326和0.6743。 【局限】实验仅以美团网武汉地区自助餐厅的所有用户评论为例,具有一定的局限性。 【结论】相较于TF-IDF和TextRank,LMKE方法的效果更优,且在LMKE方法中基于区分度的策略能获得最优评价指标。 2,相关知识 2.1,什么是TextRank 下面这段对TextRank的解释引用自知乎文章:通俗易懂理解——TF-IDF与TextRank TextRank由Mihalcea与Tarau于EMNLP'04 提出来,其思想非常简单:通过词之间的相邻关系构建网络,然后用PageRank迭代计算每个节点的rank值,排序rank值即可得到关键词。PageRank本来是用来解决网页排名的问题,网页之间的链接关系即为图的边,迭代计算公式如下: 其中,PR(Vi)表示结点Vi的rank值,In(Vi)表示结点Vi的前驱结点集合,Out(Vj)表示结点Vj的后继结点集合,d为damping factor用于做平滑。 网页之间的链接关系可以用图表示,那么怎么把一个句子(可以看作词的序列)构建成图呢?TextRank将某一个词与其前面的N个词、以及后面的N个词均具有图相邻关系(类似于N-gram语法模型)。具体实现:设置一个长度为N的滑动窗口,所有在这个窗口之内的词都视作词结点的相邻结点;则TextRank构建的词图为无向图。下图给出了由一个文档构建的词图(去掉了停用词并按词性做了筛选): 上图来源:https://zhuanlan.zhihu.com/p/41091116 考虑到不同词对可能有不同的共现(co-occurrence),TextRank将共现作为无向图边的权值。那么,TextRank的迭代计算公式如下: 3,本范例的研究工作及创新点 本文抽取美团网站大量实时用户评论信息, 主要探索面向用户评论的关键词抽取这一问题, 具体研究工作及创新点如下: (1) 界定面向用户评论的关键词抽取的问题定义; (2) 从商家和用户两个角度提出面向用户评论的关键词抽取的评价准则; (3) 提出一种基于语言模型的用户评论关键词抽取方法(LMKE); (4) 以美团网用户评论为例, 构建面向用户评论的关键词抽取实验数据集; (5) 以 P@K 和 nDCG@K 为评价指标, 分析比较TF-IDF[23]、TextRank[24]和 LMKE 三种关键词抽取方法的实验效果 4,本范例研究结论 本文探索了面向用户评论的关键词抽取这一问题, 即“从海量用户评论文本中, 自动发现对用户和商家有价值的信息, 并使用关键词进行概括”。从商家和用户两个角度, 明确了用户评论关键词抽取的目标是抽取用户评论中的有效关键词, 即与“辅助用户决策”或者“改善商家服务”相关的词项; 提出一种基于语言模型的用户评论关键词抽取方法, 在美团网 159 位商家的用户评论数据上进行实验, 结果表明基于语言模型的用户评论关键词抽取方法的有效性。本文的不足之处在于, 实验仅以美团网武汉地区自助餐厅的所有用户评论为例, 具有一定的局限性, 在其他类型的网络平台(如购物网站、旅游服务网站)中是否能得到一致性的实验结果有待进一步探讨。另外, 仅考虑了关键词是否与“辅助用户决策”和“为商家提供反馈”相关, 忽略了用户评论对关键词的情感极性, 进一步细化考虑关键词的情感极性是未来的研究方向。 |