怎样用爬虫爬取亚马逊商品评论?

2019-1-11 17:29| 发布者: ym| 查看: 11374| 评论: 0

摘要: 说到商品评论,大家会想到淘宝评论、京东评论,这些我们都很熟悉了,很清楚从页面上哪个位置可以浏览到,而亚马孙商品的评论入口就隐藏得比较深,很多人不知道怎么访问,下面就给大家介绍一下怎么访问到亚马逊评论以 ...

说到商品评论,大家会想到淘宝评论、京东评论,这些我们都很熟悉了,很清楚从页面上哪个位置可以浏览到,而亚马孙商品的评论入口就隐藏得比较深,很多人不知道怎么访问,下面就给大家介绍一下怎么访问到亚马逊评论以及用GooSeeker爬虫进行快捷采集。

找出现成的评论网址

首先给大家讲一下亚马逊上商品评论的入口位置。如果这个商品有评论,那么点进商品详情页面,在网页右边上部分,就能看到星级评分以及评论数量,下图红框中的评论数量这里就能点进到评论页面,亚马逊各个国家网站的评论入口都是这样的,就不一个个说了。

如果这个商品没有评论,那么页面上就看不到评论数量,也就没有评论页面了


构造评论网址

除了从页面上逐层点击进入到评论页面外,还可以直接构造出评论页面的网址,无论商品有无评论,都能用这个方法访问到评论页面。商品评论的网址构造结构如下:

https://www.amazon.cn/+商品名称+/product-reviews/+商品id

举例:

商品详情页网址:https://www.amazon.cn/dp/B074NW83TD/ref=sr_1_17?s=wireless&ie=UTF8&qid=1547192633&sr=1-17&keywords=iphone

  1. 从上面的商品详情网址中提取出商品id“B074NW83TD”,它介于dp/和/ref=之间,可以用Excel、MySQL等工具进行批量提取;
  2. 对商品标题“【国行正品全新】Apple 苹果 iPhone 6S Plus 手机 (全网通32G, 玫瑰金)”进行处理,如果标题里有小括号、中括号,要把括号中的文字以及括号一起过滤,再把标题中的空格符替换为“-”,得到商品标题“Apple-苹果-iPhone-6S-Plus-手机”;
  3. 把上面两步得到的商品id、商品标题套到上面的结构中,得到评论网址如下:
    https://www.amazon.cn/Apple-苹果-iPhone-6S-Plus-手机/product-reviews/B074NW83TD


采集评论

上面说完评论网址的位置以及构造方法,下面说怎么采集评论。

GooSeeker爬虫的快捷采集应用上面有热门网站的爬虫程序,我们选择要采集的网站和页面程序,然后把要采的网址添加进去,再启动GooSeeker爬虫采集,就能很轻松地拿到数据。

针对亚马逊评论采集,用亚马逊中国站为例,批量采集会用到两个页面程序,如下:

  • 程序1:亚马逊中国商品搜索列表(点击访问);
  • 用途:采集关键字搜索结果的列表数据,包含商品名称(标题)、价格、评论数量、商品链接(详情网址)等字段;
  • 程序2:亚马逊中国商品评论(点击访问);
  • 用途:采集商品的评论数据,包含评论内容、评论者、评论日期、评分等字段;

从商品搜索列表的采集结果中,提取出构造评论的标题和商品id,再依照前面的方法构造出评论网址,再添加到商品评论的页面,就能批量采集评论了。

如果只采集一个商品的评论,可以进入到商品详情页面,把评论数量的链接拷贝添加到“亚马逊中国商品评论”程序中,就能采集该商品的评论

最后,在数据管理中导出采集结果(Excel格式)。



鲜花

握手

雷人

路过

鸡蛋

相关阅读

最新评论

GMT+8, 2024-3-29 06:28