之前分享过几个案例,针对电商用户评论数据,采用GooSeeker网络爬虫软件和GooSeeker文本分词和情感分析软件进行电商评论数据的数据采集、数据预处理、情感倾向性分类、关键词抽取、情报可视化分析: 3. 分析电商评论发现消费者话题-LDA主题分析篇(Jupyter Notebook) 4. 分析电商评论发现消费者话题-生成走势图(Jupyter Notebook) 电商商品评论数据的收集,可以使用集搜客电商评论快捷采集,比如:天猫商品评论采集,京东商品评论,淘宝商品评论....... 输入网址或关键词,启动采集就可以了: 今天我们就介绍怎样使用快捷采集来进行天猫商品评论采集。 1,安装网络爬虫软件 最新版网络爬虫软件有个专用的名字:GooSeeker数据管家(增强版爬虫软件)。数据管家实际是一个特殊的浏览器,具有爬虫功能和数据分析功能的浏览器。 安装完毕,数据管家会自启动。 关闭数据管家后,要再次启动,可双击桌面上的数据管家图标。 2,登录爬虫客户端和GooSeeker官网 GooSeeker数据管家一运行起来就会加载GooSeeker官网,如果没有自动加载,打开集搜客官网https://www.gooseeker.com 如果第一次使用爬虫软件,会提示输入账号和密码,一定要输入正确,才能登录爬虫客户端,才能启用爬虫功能和数据分析功能,否则只能当成一个普通的浏览器使用。 爬虫客户端登录成功以后,如果正在访问集搜客官网,那么会自动同步登录集搜客官网。 最后检查是否已经连上服务器(绿勾连接,红勾未连接)。 详细过程不重述了,可以查阅《如何使用快捷采集-以微博签到数据采集为例》的第2步。 3,登陆天猫网站 根据使用经验,采集天猫之前,需要先登录天猫网站,才能更多的浏览完整内容。 在数据管家新开一个页签,在新页签打开天猫网站 https://www.tmall.com,并登陆一个天猫账号,一般直接用手机验证码就可以。 4,进入快捷采集 点击数据管家左侧边栏的“快”按钮,进入快捷采集。 5,选择合适的快捷工具 根据要采集的网页,选择 类别 - 网站 - 网页。 对于天猫商品评论来说,就是点击:电商 - 天猫 - 天猫商品评论采集 如下图所示,可以打开示例页面看看,确保后面操作时添加的链接和示例页面类似。或者浏览网页下方的示例数据,进一步了解选定的快捷工具是否满足要求。 6,操作步骤 6.1 获得网址 在天猫的搜索页面上,输入要搜索的关键词,点击搜索,如果要采集少量商品,直接把商品网址复制出来就可以了。如果要获得某个关键词搜索结果的大量网址,可以使用快捷采集天猫商品搜索列表采集 比如搜索“米其林轮胎”,复制出来的某条商品网址就是:https://detail.tmall.com/item.htm?spm=a220m.1000858.1000725.2.5fab7bceh2LwhV&id=570035476922&skuId=3671909152586&areaId=440100&user_id=2302551350&cat_id=54022044&is_b=1&rn=7b6f7f9401d1d13d9e4e1fc8552c9ef1 6.2 粘贴网址,启动采集 把上一步得到的网址用Ctrl+v粘贴到快捷工具的网址输入栏,启动采集。 6.3 采集中的爬虫窗口 点击获取数据之后, 数据管家自动弹出两个采集窗口(窗口右下方有绿色的状态球),一个窗口加载网页,采集数据,一个窗口打包上传数据。两个采集窗口工作时,都不能关闭。 6.4 打包下载数据 数据管家在弹出采集窗口的同时,还弹出了一个快捷采集数据管理窗口。 采集完成后,采集状态会从橙色的“采集中”,变成绿色的”已采集”。然后打包下载数据,下载下来的数据一般保存在电脑的下载文件夹。 如果,采集不成功,采集状态会变成红色的“已停止”,这时,要检查 1. 添加的链接是否和样本页面类似; 2. 需要提前登陆的网站,是否已经登陆; 再重新采集一遍,注意观察采集窗口,网页是否正常加载,如果网页正常加载,但仍然采集失败,请在论坛或者QQ群联系集搜客官方,我们会及时测试维护这些工具。 7, 采集到的数据 天猫商品评论采集的样例数据: |