最近在做一些内容分析和数据分析方面的案例研究。恰逢6.18, 各大电商平台都在做促销, 于是准备收集一些电商产品的评论信息,做一些数据挖掘分析的实践。 1,电商产品在线评论挖掘的意义 电商的在线评论中蕴含着大量的和用户以及产品相关的有用信息,这些信息对在线平台的经营管理具有巨大的商业价值。 产品的在线评论属于口碑(WOM,Word-of-Mouth)的范畴,对口碑的研究是管理学中非常热门的课题方向,因为很多经典的实证研究都证明——用户在购买产品时大多会参考口碑信息,其购买行为以及后续对产品的体验和评价都会直接或者间接地受到口碑的影响。因此,对于电商平台来说,重视口碑数据的分析,并且对口碑内容进行管理,是非常重要的互联网运营工作。 通过在线评论的挖掘,能够对产品选购,平台运营的优化提供实际的数据支撑。 1、产品评估 通过在线评论,平台运营者可以把握产品的质量情况,了解用户对产品的喜好及购买欲望,从而更好地与竞品进行对比分析、规划产品的未来发展战略。在线评论经常是一段文字,而不是一个单独的打分分值,因此可以基于情感分析技术挖掘用户在每一个产品维度上的情感态度,对产品进行全方位、系统的精益化评估! 2、产品优化 通过在线评论,平台运营者应当通过文本挖掘(Text Mining)解析并统计有关产品属性的信息,并从中找到那些重要的属性予以关注。对于那些重要的属性,结合通过情感分析技术获得的用户主观评价水平,在产品后续的优化改进环节中加以考虑。重要的属性应当具备至少如下一种特征:。 2,本次分析实践的步骤和流程 1. 以iphone12为例,使用GooSeeker网络爬虫软件采集京东,天猫,苏宁易购上的用户评论 2. 采集结果导入GooSeeker文本分词和情感分析平台,做分词,词频统计和情感分析 3. 在Jupyter Notebook中基于分词结果和情感分析结果创建可视化图表 4. 在Jupyter Notebook中基于分词结果做LDA主题分析 实践的过程会记录在这几篇分享中: 1.《分析电商评论发现消费者话题-数据采集篇》 2.《分析电商评论发现消费者话题-分词和情感分析篇》 3.《分析电商评论发现消费者话题-图表展示篇》 4.《分析电商评论发现消费者话题-LDA主题分析篇》 3,使用GooSeeker快捷采集收集电商评论数据 电商评论数据的采集,直接使用GooSeeker快捷采集工具,所谓快捷采集,意思是不用定义网络爬虫规则,也不用编写Python脚本,也不用管怎样存入数据表,而是直接输入网址后开启网络爬虫, 爬取完成后导出excel数据表即可 3.1 京东商品评论采集 在GooSeeker网络爬虫软件的浏览器中打开京东商品评论快捷采集的添加任务页面 ,把iphone12的京东商品网址(比如: https://item.jd.com/100009077475.html )添加进去, 点击“获取数据“。 3.2 天猫商品评论采集 打开天猫商品评论快捷采集的添加任务页面 ,把iphone12的天猫商品网址(比如: https://detail.tmall.com/item.htm?spm=a220m.1000858.1000725.4.21ba4cf21GWeQZ&id=629312145676&skuId=4644530238548&areaId=440100&user_id=1917047079&cat_id=2&is_b=1&rn=849fa299ec35d8d0bda53c4f6c28a41f ) 添加进去, 点击“获取数据“ 3.3 苏宁易购商品评论采集 打开苏宁易购商品评论快捷采集的添加任务页面(https://www.gooseeker.com/res/rule_65.html) 把iphone12的苏宁商品网址(比如: https://product.suning.com/0000000000/12122935222.html?safp=d488778a.40134.Jyd6.6&safc=prd.0.0&safpn=10009) 添加进去, 点击“获取数据“ 4,采集的过程和数据下载 下图是gooseeker采集软件工作的窗口。点击“获取数据”后,就能看到新打开两个网络爬虫窗口,并在网络爬虫窗口中自动加载产品页面。 还可以看到打开了一个快捷采集管理页面,等爬虫页面采集完成了,管理页面上就会显示“已采集”,这时候就可以打包导出excel格式的数据。 5,下一步 把采集结果导入文本分词和情感分析平台,做分词,词频统计和情感分析,过程见下一篇:《分析电商评论发现消费者话题-分词和情感分析篇》 |