为了能直观地对城市、行业之间进行比较,我们设计了招聘指数作为衡量大小的标准。招聘指数就像股票指数那样,就是一个计算后的数值,在这里就是用来说明一个城市、一个行业的招聘需求大小。
然而必须面对一个问题:这些数据是从招聘网站的公开的公司招聘信息中采集出来的,比如,58同城、智联招聘、51job、拉勾网等,每个网站有自己的特点,就会分别有不同的行业聚集,很显然,58同城上的招聘与拉勾网上的招聘公司所处的行业就是泾渭分明的。那么,是否存在一个指数计算方法,能够滤除掉行业偏向?
我们采用的这个算法从一定程度上能够滤除这种偏向,在这里把这个算法列出来,希望多跟大家交流,如果有其他意见或者想法的,都可以给我们留言。
1、数据来源
招聘分析系统里的数据来源于互联网上各大招聘平台,收集和整理了全国各个城市发布了招聘需求的公司信息和招聘信息。
2、数据清洗
公司和招聘信息经过清洗整理后存入城市要素库系统,这是一个数据立方体引擎,具体介绍参看《城市要素库时空分析系统开发设计要点》,在这个系统中,按照城市和行业两个维度交叉查询得到查询结果数据,对数据做清洗处理,包括去重、过滤等等,这里就不细说了,下面我们将以{城市-行业}代表交叉查询得到的数据。
3、招聘指数计算
以{城市-行业}交叉查询得到的招聘信息,依次算出各个城市下各个行业的招聘信息总数,再以全国-行业为单位,算出全国各个行业的招聘信息总数量,然后就算出各个城市-行业的招聘指数,计算如下:
城市某行业的招聘总数 = 使用{城市-行业}交叉查询得到的招聘信息条数
全国某行业的招聘总数 = 所有“城市某行业的招聘总数”之和
城市某行业的招聘指数 =(城市某行业的招聘总数 / 全国某行业的招聘总数)*100000
补充一点,这里乘以100000,是为了把小数转换为整数,可以一眼看出大小。
4、做个排行榜
基于上一章定义的计算方法,为每个城市的每个行业计算招聘指数,用这个指数做个排行榜,就能看出在某个行业上各城市的招聘需求差异,可以把平均薪酬也列上,对照一下观察,期望有所发现。也可以选择城市级别,只看一线城市或二线、三线以下城市的排行榜,比较同级别城市的行业招聘需求大小。
5、展望
综合所有的网络招聘平台的行业分类,得到40多个行业,一个个行业拿出来看排行榜,其实难于解答文章开篇提出的问题,我们想得到城市的人才结构、产业群的概貌和演变,需要一种更加综合的观察。后续的篇章我们将陆续提出一下数据分析和可视化的方案,也希望各位读者能提出一些好建议。
6、城市要素库介绍和数据下载方法
城市要素库是一个数据共享平台,上面汇聚了房地产、招聘、生活娱乐、政府开放数据、城市部件、环境、气象等多个领域的数据集,这些数据持续更新,最难能可贵的是整理后的数据,可以直接用来做量化运算,这不仅仅是一个简单的数据下载平台,更重要的是一个数据探索平台,可以利用数据立方体的多维度搜索技术,发现数据特征,找到研究方向。