最近在搜集豆瓣影评数据,《美人鱼》就已经有40多万的评论,其他高分电影就更不用说了。对于不懂爬虫软件,也不会写代码的人来说,收集数据真的是很痛苦,但是有了gooseeker爬虫这款软件,不用懂任何技术也可以把网络数据抓一遍,如果你也是不懂技术的小白,可以看看下面的使用经验 要用gooseeker的快捷采集应用——数据DIY,上面有微博、知乎、淘宝、安居客、微信这些热门网站的爬虫,可以直接用,不用写代码也不用学软件操作,不过必须跟gooseeker爬虫一起用才能爬数据,所以,要先安装一个gooseeker爬虫。 一、下载安装gooseeker爬虫 访问官网https://www.gooseeker.com/pro/product.html 下载安装爬虫,后面的操作必须要在软件里做,打开软件看到的界面跟浏览器差不多,可以把它当做浏览器来用,但实际上是个爬虫,第一屏看到的就是官网了。 二、访问数据DIY 在官网的产品菜单下面打开数据DIY,可以看到前面有三级目录,要根据自己的情况选择类别、网站和页面,我选的是热门网站->豆瓣->豆瓣_电影短评,然后在底部会看到示例数据,可以看看字段这些有没有满足需要。 目录第3级的页面实际上就是抓取某一类网页的爬虫,比如豆瓣_电影短评这个页面是用来爬短评的,不能爬影评,这两个是不一样的,要不然就会抓不到数据,怎么看可不可以抓到你想要的页面?选了页面后,在输入框下面有示例网址,点开看看就知道了,跟这个页面结构一样的就通用。 三、爬数据 把要爬数据的网址粘贴到输入框里,再选择页码,最后点获取数据,如果你有多个网址要爬,可以点输入多条网址。我这里就是把《美人鱼》的短评网址添加进去,如果你也想要用这个爬虫,可以到豆瓣电影的详情页找短评网址。 然后会提示启动两个爬虫窗口,点启动,就看到有两个爬虫窗口和一个管理窗口打开,爬虫窗口也是一个浏览器,会自动把一个个网页打开,浏览完网页就会把数据存下来了,真的很简单。 四、下载数据 爬完数据后,到管理窗口把数据打包和下载下来。 打开数据表,可以看到数据很完整,也没有漏的。 总体上来说,数据DIY真的很小白很好用,虽然最后下载数据要扣积分,折算过来就是200条数据要一块钱,但对比其他爬虫软件,费用很实在,另外,购买299旗舰版,不仅可以下载无限量数据,还送全额积分,非常划算。 |