GooSeeker城市要素库上线后,就有很多人下载了里面的数据集资源,还有人把分析过程发表到我们平台论坛上,其中不乏值得学习的,这里就挑了一篇写得不错的分享给大家。 本文主要是介绍了怎么用最基本的图表,以Excel的图表可视化为例,来观察数据特征,发现值得深入研究的切入点。 1、数据来源 大家也都知道,从互联网上使用网络爬虫把公司招聘信息采集下来,经过数据清洗和整理,形成数据字段比较规范的数据集,就可以用作统计运算,我没有自己写爬虫,而是从城市要素库上面下载来的,数据集是2017年深圳11月招聘,下载位置是 http://www.gooseeker.com/land/city.html 2、分析目的 研究发布过招聘需求的公司分布情况,解答以下问题: 1、哪些公司会频繁发布招聘信息 2、这些公司具有怎样的特征 3、数据处理 下载的样本数据似乎经过简单的清洗,我是直接拿来做分析了,后面分析的时候,发现有空值的情况,我这里的处理是把空值的数据记录删掉后再做分析,具体可以看下面的分析过程。 4、分析过程 4.1、数据透视处理 打开Excel,一眼看到数据结构比较简单,总共10列,先对各个列做一维的数据透视,这里可以很清楚地看到,工作经验都是空值,所以,后面计算就不对它分析;工作性质只有全职一个维度,也不做分析,然后看到公司规模、公司行业有空值的单元格,下面会分析一下怎么处理 公司规模、公司行业这两列有缺失数据的记录加起来总共是825条,而总数据量是32988,缺失数据的占比很小,所以可以忽略缺失数据的影响,把缺失数据的记录直接删掉,下面是删除缺失数据之后的数据透视: 其中,对公司性质、公司规模、最低学历要求进行二维探索,看看两种属性组合在一起的分布情况。 4.2、数据可视化 从上面的透视表,其实已经能看出公司分布的一些特征了,只是全部都是文字和数字,看久了会有点晕,所以,为了更加直观地表达出来,下面做成数据透视图来看 注:样本数据是数据风向标下载的,不清楚是来自哪个招聘网站,不同招聘网站的目标用户群是有不同特征的,所以,数据来源网站是会对分析结果产生影响,但这里就不做考虑了。 招聘公司的性质分布 发布过招聘信息的公司超过大半是私营企业,占比75%,其次是股份制企业,占比16%,少数是国企、外资、上市公司等 招聘公司的规模 公司规模里发布招聘信息最多的是1-49人,其次是100-499人的规模,总体上看,100人以下规模的公司招聘需求与100人以上规模的需求是旗鼓相当的,可以从侧面推测出,相比中等规模以上(100人以上)的公司,小规模公司(100人以下)的人员流动是比较频繁的。 不同公司性质的规模大小 由上图可以看出,私营企业中1-49人规模的数量最多,股份制企业最多的是100-499人,上市公司基本都是大型公司,以1000人以上的规模为主,500人以下规模的公司大多是私营企业和股份制企业。 招聘公司的行业分布 发布招聘信息排在前5名的行业是
这些都是服务型行业,属于第3产业,这个与深圳自身的产业规划比较吻合。 职业需求的情况 招聘的职业排在第一位的是美容美发/保健,与行业分布的结果比较一致,是美容类行业发布了大量的招聘信息。 另外,职业类型的分布是集中在7个类型里,这7类是偏向于服务型工作的,下面会对学历要求做一个分析,验证是否以低学历为主。 招聘公司对学历的要求 上面看到大部分公司对学历的要求是不限,其次是中专学历,总体是以低学历为主,本科以上学历的要求非常少,与前面行业分布、职业分布的情况比较吻合 不同公司性质对学历的要求 很明显地看到,不同公司的招聘大多都是不限学历,结合招聘的行业和职业来看,大多数招聘是偏向低学历的服务型工作 5、总结 这批招聘公司的数据偏向于中小型规模(500人以下)的公司,这类公司发布的招聘职位主要是低学历要求的服务型工作,在这里做一个推测吧,这类服务型工作的流动性和替代性都比较大,所以,这些公司会一直有这些工作的招聘需求~ |