批量爬取淘宝商品sku、价格、评价数据

2018-6-19 10:01| 发布者: xandy| 查看: 23514| 评论: 0|原作者: 集搜客GooSeeker

摘要: 推荐一个很简单的数据爬取应用,可以快捷采集到很多热门网站的数据,比如微博、知乎、淘宝、安居客、微信等等都可以爬取到,一键式操作,不用写代码也不用学软件操作。下面介绍用它爬取淘宝商品信息的操作步骤。一、 ...

推荐一个很简单的数据爬取应用,可以快捷采集到很多热门网站的数据,比如微博、知乎、淘宝、安居客、微信等等都可以爬取到,一键式操作,不用写代码也不用学软件操作。下面介绍用它爬取淘宝商品信息的操作步骤。

一、下载安装gooseeker爬虫

爬数据要用配套的gooseeker爬虫软件,所以第一步是要访问官网https://www.gooseeker.com/pro/product.html

下载软件,然后双击安装,后面的步骤都要在软件里操作。

二、访问数据DIY找到入口

打开gooseeker软件,访问https://www.gooseeker.com/res/datadiy.html,进入到数据DIY里,在顶部的目录上点击"电商>淘宝>淘宝商品搜索列表",这样就选定了入口;

目录的第三级是页面,它代表了支持爬取的网页结构,在中部有示例页面的网址,点开可以看到是关于"小米手机"商品的搜索列表页面,满足这个列表结构的淘宝商品网页,都可以用上面的入口来爬数据。

比如要爬取关于"苹果手机"商品的列表信息,可以在示例网页上方的搜索输入框中输入关键词"苹果手机"后点击搜索,就能搜索得到关于"苹果手机"商品的列表页网址,要采集什么商品,都可以通过输入关键词搜索的方式得到相关商品的列表页网址。

要注意的是:淘宝限制了最多显示100页,如果商品列表超过了100页,可以通过点击目录下的分类进行细分,把网址下的页码数控制在100页以内,再把各级分类的网址拷贝整理出来。

三、添加网址爬数据

通过以上的方式获得网址,只有一条商品网址的话,可以直接粘贴到输入框里,然后选择要爬取的页数,最后点击获取数据;

有多条网址的话,先选择爬取页数,再点击"输入多条网址"按钮,把多条网址拷贝粘贴进去,最后确定;

添加网址成功后,会提示启动两个爬虫窗口,点启动,就会看到有两个爬虫窗口和一个管理窗口打开;

爬虫窗口就是一个浏览器窗口,它会自动访问要采集的网址,然后把数据存下来。


四、下载数据

爬虫窗口没有再访问网页,说明爬取完成了,到管理窗口把数据打包和下载下来。

然后在软件右上角的下载历史按钮里,可以查到存储路径,根据路径找到数据包,查看数据表。

五、进一步爬取淘宝商品详情页数据和淘宝商品评论信息

前面下载的数据表里的商品详情链接就是详情页面的网址,这时,可以切换到"淘宝商品详情采集",把表里的商品详情链接批量拷贝添加进详情页采集的入口,再启动采集。所以如果要批量采集详情页的信息,一般都需要结合列表页采集,通过列表页的采集大量获取详情页的链接,再把采集下来的详情页网址批量添加进采集入口进行采集,就不需要我们一条一条去收集详情页的网址了。

采集到的淘宝商品详情信息如下图所示,通过"淘宝商品详情采集"可以爬取到商品具体的月交易量、库存量以及店铺等详细信息

同样的,因为商品评论也在详情页里,如果我们要采集淘宝商品的评论信息,可以切换到"淘宝商品评论采集",因为一条商品详情页网址里会有很多页评论,所以需要先选择爬取页数,再从表里拷贝要采集的商品网址添加进去,启动采集。

采集到的淘宝商品评论信息如下图所示,要注意的是,淘宝商品的评论也是有限制的,最多只能显示100页,如果要爬多点评论数据,可以分评论等级采,也隔一段时间爬一次。


鲜花

握手

雷人

路过
1

鸡蛋

刚表态过的朋友 (1 人)

相关阅读

最新评论

GMT+8, 2024-11-25 06:04