在上一篇《分析电商评论发现消费者话题-数据采集篇》中,我们和大家分享了怎样使用gooseeker网络爬虫的快捷采集,收集电商产品的评论信息(实际抓取了京东,天猫,苏宁这3家的自营iphone12的用户评论),为进一步的数据挖掘分析实践做准备。 本篇《分析电商评论发现消费者话题-分词和情感分析篇》,使用gooseeker文本分词和情感分析软件对已经采集到的iphone12手机评论进行分词,词频统计,情感分析,生成社交网络图。 1,电商产品在线评论挖掘的意义 电商的在线评论中蕴含着大量的和用户以及产品相关的有用信息,这些信息对在线平台的经营管理具有巨大的商业价值。 产品的在线评论属于口碑(WOM,Word-of-Mouth)的范畴,对口碑的研究是管理学中非常热门的课题方向,因为很多经典的实证研究都证明——用户在购买产品时大多会参考口碑信息,其购买行为以及后续对产品的体验和评价都会直接或者间接地受到口碑的影响。因此,对于电商平台来说,重视口碑数据的分析,并且对口碑内容进行管理,是非常重要的互联网运营工作。 通过在线评论的挖掘,能够对产品选购,平台运营的优化提供实际的数据支撑。 1,产品评估和选品 通过在线评论,平台运营者可以把握产品的质量情况,了解用户对产品的喜好及购买欲望,从而更好地与竞品进行对比分析、规划产品的未来发展战略。在线评论经常是一段文字,而不是一个单独的打分分值,因此可以基于情感分析技术挖掘用户在每一个产品维度上的情感态度,对产品进行全方位、系统的精益化评估! 2,产品优化和货架优化 通过在线评论,平台运营者应当通过文本挖掘(Text Mining)解析并统计有关产品属性的信息,并从中找到那些重要的属性予以关注。对于那些重要的属性,结合通过情感分析技术获得的用户主观评价水平,在产品后续的优化改进环节中加以考虑。 2,本次分析实践的步骤和流程 1,以iphone12为例,使用GooSeeker网络爬虫软件采集京东,天猫,苏宁易购上的用户评论 2,采集结果导入GooSeeker文本分词和情感分析平台,做分词,词频统计和情感分析 3,在Jupyter Notebook中基于分词结果和情感分析结果创建可视化图表 4,在Jupyter Notebook中基于分词结果做LDA主题分析 实践的过程会记录在这几篇分享中: 2.《分析电商评论发现消费者话题-分词和情感分析篇》 3.《分析电商评论发现消费者话题-图表展示篇(Jupyter)》 4.《分析电商评论发现消费者话题-LDA主题分析篇(Jupyter)》 3,对电商评论数据进行文本分词和情感分析 3.1 数据预处理 在上一篇中,我们使用gooseeker快捷采集对天猫,京东,苏宁3个平台的自营iphone12商品评论进行了采集, 导出后有3个文件,同时每个文件有多个字段。 我们把所有的电商评论合并成1个excel,同时只保留部分需要的字段。 另外根据分词软件的要求,序号和正文这个字段是必需的,我们添加序号字段,把评论内容字段改名成“正文”,如下图: 3.2 分词和词频统计 在gooseeker文本分词和情感分析软件中创建新任务 如果只是需要分词和词频数据,可以直接点击【分词选词】->【分词效果】,查看分词结果,下载分词词频表和分词效果表。 3.3 选词,生成词云图和社交网络图 如果需要生成词云图和社交网络图,需要先进行选词操作。 在【分词选词】->【筛选词语】页面上,词语会按词频从大到小排序,勾选会用到的词语,具体选哪些词语要根据研究主题来定,每一页选完点击【确定】提交就会切换到下一页。 选词完成后或者在选词过程中,可以在【分词选词】->【选词结果】页面查看选词结果和词云图。 在【分词选词】->【匹配结果】页面可以开启共词匹配和查看社交网络图 3.4 结果下载 词云图和社交网络图可以直接在查看图片的页面点击下载 其它的excel表格数据,可以在【分词选词】->【匹配结果】页面下载 3.5 情感分析 在【情感分析】页面点击“启动情感分析”,过一会提示完成,刷新页面后可以看到情感分析的结果 4,下一步 从gooseeker文本分词和情感分析导出的excel结果文件,使用Jupyter Notebook生成可视化图表,过程见下一篇:《分析电商评论发现消费者话题-图表展示篇(Jupyter Notebook)》 |