本文是一个学习和实践笔记,主要目的是:
本文采用Excel的散点图对二手房数据做一次数据分析练习,让大家了解散点图的适用场景,以及发现一些数据的特征。 1,收集链家二手房数据 利用gooseeker的在线快捷爬数据的工具——数据DIY,抓取链家上武汉的二手房列表数据,一共爬到300条数据,把它作为样本,简单分析一下房产价格的影响因素。如果想亲手实践一下,点击进入链家二手房在售房源列表爬虫工具 2,数据处理 对房屋信息一列用Excel的分列功能,清洗出户型、面积、朝向、装修、电梯情况这4类信息。 对位置信息这列用分列功能,把建筑年代单独作为一列,再用mid函数提取出年代数值,最后用减法算出楼龄。 最后要把文本格式的数据转为数值格式,后面画图需要用到 3,如何用Excel画散点图 Excel是自带散点图功能的,所以用Excel制作散点图十分的简单,只需要准备好数据,选择数据后插入自带的散点图就可以生成。不过散点图对数据源是有要求的,都是以两列数据为一组,一列数据为横坐标,另一列数据为纵坐标,以此为基础来制作散点图。用Excel生成散点图时,默认是以第一列数据为横坐标,第二列数据为纵坐标,我们在制作散点图时注意一下就好了。 用C列的价格和D列的面积来制作散点图,从而分析房价与面积之间的关系。选中C列和D列,然后点击工具栏的插入,选中查看所有图表,再选择XY散点图,点击确定即可,操作步骤可对照参考下图。 生成的散点图效果如下: 以上介绍的是用一组数据制作散点图的教程,Excel散点图与其它图表类型稍有不同,一组数据直接选中插入后既可生成散点图,但如果同时选择多组数据,并不能生成多组数据的散点图,那如果是两组或两组以上的数据该怎么制作散点图呢?我们再添加一组数据试试,就把房价和楼层作为另一组数据添加到散点图中,具体操作如下: 在绘图区域中右键鼠标选择:选择数据,并在弹出的对话框中选择:添加, 在系列名称中输入价格与楼龄,用于分布不同组的数据,然后分别将价格数据C列数据添加到X轴系列值,将楼龄数据E列数据添加了Y轴系列值,并单击确定即可。 因为楼龄的单位与面积单位相差太大,用一个Y坐标显示,散点的Y轴区域就显得太窄不好分析,所以这里把楼龄设置为次坐标轴,坐标生成在散点图的右侧,两个系列数据的散点图表效果如下图,不同城市的数据以不同的颜色标出,可以根据以上方法添加多组数据。 如果想要制作出的散点看起来更美观,可以通过绘图区域右上角的三个编辑按钮来编辑图表元素及样式,具体的操作这里就不赘述了,大家可以根据自己的实际情况去设置。 4,数据分析 从散点图上主要是通过散点的分布情况来分析数据之间的线性关系和异常值存在情况。 一、从散点图上看出价格与面积的关系,可以明显的观察出价格与面积是呈现正线性相关,房源的面积越大,价格越高。 二、看价格与楼龄的关系,从整体的散点分布来看,当楼龄越小时,整体的房源价格有增大的趋势;从具体的点来看,相同价格下的楼龄散点是垂直分布,相同楼龄下的价格是水平分布,说明楼龄对房价的影响是弱负相关的关系,楼龄越小,房价不一定越高,还与房子位置、是否有电梯、朝向、装修等因素有关。 三、从图上的散点也可以明显的看出在X为1000和1200之间,两组数据分别存在一个异常值点,脱离了散点群,但实际上房产作为大宗商品,其价格是由市场供求关系决定的,波动范围很大,不能说是错误值。 上面是分别对价格与面积的关系、价格与楼龄的关系做分析,如果想要看到面积、楼龄两者的关系或者是结合两者来分析价格变化,可以用气泡图来分析,后面我会在文章《爬取链家数据,用气泡图分析武汉市二手房价格》里做介绍。 5,关于散点图 散点图又称散点分布图,在坐标系中以横坐标表示自变量x,以纵坐标表示因变量y,而变量组(x,y)则用坐标系中的点表示,不同的变量组在坐标系中形成不同的散点,这些坐标系中的散点形成的二维图就是散点图,它是利用散点的分布形态来反映变量统计关系的一种图形。 6,散点图有什么作用 1、散点图是描述变量关系的一种直观方法,可以从散点图中直观的看出两个变量之间是否存在线性相关关系、是正线分布还是负线性分布。 a) 如果变量Y随着X的增大而有明显的增大趋势,则称两个变量强正线性相关。 b) 如果变量Y随着X的增大而有明显的减小趋势,则称两个变量强负线性相关。 c) 如果变量Y随着X的增大而有一定的增大趋势,则称两个变量弱正线性相关。 d) 如果变量Y随着X的增大而有一定的减小趋势,则称两个变量弱负线性相关。 e) 如果变量Y随着X的变化而有明显的非线性趋势,则称两个变量非线性相关(曲线相关)。 f) 如果变量Y随着X的变化杂乱无章地变化,则称两个变量不相关。 2、可以用来绘制各种函数趋势线,从简单的三角函数、指数函数、对数函数到更复杂的混合型函数,都可以利用它快速准确地绘制出曲线,所以在教学、科学计算中会经常用到。如在Excel散点图中要得到各数据点趋势线的公式、表示趋势线可靠程度的R平方值,只需右键,添加趋势线,然双击选择趋势线,将“显示公式”和“显示R平方值”勾选上,就可得到趋势线的公式,得到趋势线公式是如此的简单。 3、可以通过散点图来检查数据是否存在异常值。通过散点图也可以检查出数据的异常,当某数据过于大或者过于小的时候,变量组形成的散点会远离散点群,处于散点图的某个角落,一眼便能看出。 散点图还可以制作误差线,扩展成四象限图等等。总之,散点图的作用远不止以上几点,在这就不一一介绍了。 |