爬虫能做什么？

2017-5-19 16:13| 发布者: ym| 查看: 24441| 评论: 0

摘要: 很多人问过爬虫能做什么，还有不少人对爬虫的作用有误解，关于爬虫，我们不做深入的技术探讨，而是给大家科普一下在实际应用中关于爬虫的基本知识。一、爬虫是什么爬虫，全称网络爬虫，又称网页蜘蛛，即web spi ...

很多人问过爬虫能做什么，还有不少人对爬虫的作用有误解，关于爬虫，我们不做深入的技术探讨，而是给大家科普一下在实际应用中关于爬虫的基本知识。

一、爬虫是什么

爬虫，全称网络爬虫，又称网页蜘蛛，即web spider，是一种按照一定规则，能自动且快速获取数据的脚本程序/工具软件，这里的数据是指互联网上公开的并且可以访问到的网页信息，不是网站后台信息（没权限访问），更不是用户注册信息（非公开），所以，那些想着通过爬虫来收集手机号码、邮箱这类敏感信息的人，劝你还是醒醒吧，毕竟各个网站都有一套网络信息安全机制，如果你很牛逼地攻破了，那么就是黑客行为了，而且，私下买卖个人信息是违法的，此外，个人信息保护法正在制定中，不久的未来，网站和企业都有责任来保护个人信息。

搜索引擎就是爬虫应用在生活中的经典例子，比如百度搜索，它的背后就有一套大型且复杂的爬虫系统在运作，通过爬虫把其他网站上的网页信息爬取下来，然后存入自己的数据库，再提供给我们检索查询。

二、爬虫的使用方式

你可以使用现成的爬虫软件，这类软件已经集成了很多常用功能，也能解决复杂的网页结构类型，可以满足大部分的数据采集需求，并且有可视化的操作界面，是新手入门的最佳选择。例如集搜客爬虫，它支持国内外多种网页类型的信息采集，性能稳定，采集高效，能够节省大量编程调试的时间，关键是简单易用，小白都可以轻松掌握。

你也可以自学Python（主流的爬虫程序语言），然后编写爬虫脚本。Python有自己的类库，可以直接引用，只是每次编写爬虫脚本，会遇到不少问题，需要大量的调试，所以要做好心理准备，有编程基础的筒子可以学习一下，毕竟能增强不少技术实力呢。

三、爬虫怎么工作

把互联网比作一张蜘蛛网的话，那爬虫就是在上面爬来爬去的蜘蛛，通过网页链接来寻找网页，然后把页面上的信息抓取下来。

爬虫是从网站某个页面（通常是首页，也可以是指定的网页地址）开始，爬取网页上的信息，并找到网页中的其他链接，然后通过这些链接访问到下一个网页，这样一直循环下去，直到把这个网站上能访问到的页面都抓取完为止，爬取的网页数量和链接深度是可以自己控制的。

爬虫可以把一个网页完整地抓下来，包括HTML编码，类似手工把页面另存为本地HTML文件，但这样会有很多无效信息，后期还要做大量的数据清洗工作，除非是必要，否则一般不会整页采集；另一种方式就是把网页上的文本、图片、表格、链接等信息按照结构化的格式抓取下来，这样在一开始就能拿到比较干净的数据，这个采集范围也是可以自己控制的。

四、爬下来的数据有什么用

大数据技术现在被用于各行各业，回归、SVM、神经网络、文本分析......各种牛逼的模拟和预测，但是如果没有数据，一切都是空谈！很多人通过爬虫来收集网页信息，问题是爬下来的数据有什么用，这个就得看个人本事了，同样的数据，不同的人会有不同的处理方式，也就能得出不同的结果，下面给大家罗列一些典型的应用场景：

1. 电商网站的商品数据

曾经爬过某个产业的商品信息，包括品牌、价格、销量、规格型号等。然后分析这个产业中的畅销品牌、畅销品类、价格走势、行业前景等。信息量还是挺大的。推荐现成的爬虫工具—数据DIY。