叮咚!这里是唯城君的数学小课堂!
首先感谢“唯粉”们的热情应援!从11月6日发布上线以来,“唯一的城”与您见面已经快一个月啦!这段时间,“唯一的城”陆续发布了四张子榜单,开始了唯城君与“唯粉”们美妙的缘分。让我们珍惜这份缘!
借唯城君“满月”的契机,我们收集了这段时间以来大家的评价,希望能够在提供更优质内容的同时,拉近唯城君和您的关系,增加您对唯城君的了解。
接下来我们将就大家关心的问题作出回应,希望能解答您的疑惑。由于大家的问题都和研究方法相关,所以唯城君为大家精心准备一场数学“开小灶”。
下面正式进入我们的数学小课堂!
1
为何“我”的城市“榜上无名”?
从第一篇子榜单《34城空间体验榜》发布以来,唯城君便收到很多关于榜单没有自己所在城市的提问。
更有内蒙古某单位工作人员亲自致电,询问榜单为何没有呼和浩特市。
首先,真诚感谢各位网友对榜单的关注!
然后重申一下榜单的定位:唯城君希望用严谨、专业的研究方法+温情活泼的内容输出,打造具有人文关怀属性的城市评价榜单。
接下来,请同学们认真听课!首先我们引进中学数学的概念——“统计”与“样本”。
统计,就是通过对某一现象有关的数据进行收集、整理、计算、分析等来了解具体问题,例如将全年级同学的成绩收集起来,通过排序、计算平均成绩等方式了解整个年级的学习情况,这就是一种统计。
通俗来讲,要了解所有城市的具体表现,最好的办法是穷尽所有城市的数据,这种方法在数学上叫做“全样本统计”。
但是,全国300多个地级以上城市,要穷尽起来好难啊~~~这些数据做到什么时候才能下班啊摔~~~(开玩笑我爱工作,老板看到请加鸡腿!)
全样本统计大多数情况下不太现实。关键的问题是,在数据收集和处理上需要耗费很多时间,所以我们选取其中一部分城市作为观察对象,被选取的对象在数学上叫做“样本”。这种方法叫做“抽样”。
又又又因为多数人更关注“厉害的”城市,所以我们的抽样更多偏向人们印象中的“好城市”。
我们划定了两条线,城区人口300万以上的城市、以及GDP超过1万亿元的城市。除此之外,还有城市(区域)研究中心预测2022年GDP超过万亿的城市和城区人口300万以上的城市。由于港澳台地区目前数据获取有较大缺漏,故而未纳入观测范围。这就是同学们看到的34座城市。
由于工作量受限,我们并没有完全纳入其他有潜力的省会、自治区首府城市,如南宁、呼和浩特等。但是,向大家偷偷透露一下,明年我们的样本将扩大至全国所有省会城市和自治区首府。
继续关注“唯一的城”,说不定明年就能在榜单上看见你的城市哟!
2
为什么会有“0”分出现呢?
同学们,划重点!这个“0”不是表示差到极点。
大家看黑板!榜单上的“0”是指标评价值,只具有统计学上的意义,榜单得分为“0”不代表实际表现为“0”,“0”是数据经过无量纲化处理后的结果。
所以,我们接着引进一个统计学的概念——“量纲”。
啊,这文绉绉的字眼咋理解?同学们不要着急,这个概念很好理解,就是同学们小学数学开始学的“单位”,比如医院数量的单位是“家”,绿地面积的单位是“平方米”,还有些只有数值而没有单位,如果我们要对比城市的数据,就可能出现两个问题:
第一,单位不同的数值不能够计算,比如400家医院和2000平方米绿地,两个数值并不能直接运算。有同学会问,不是400+2000吗?这位同学,可能你要留个级。同学们记住,这是扣分项,圈起来,要考的!
第二,即使把单位去掉,有的数值大,有的数值小,运算后体现不了不同数值的重要性,比如比较城市的医院和绿地,由于医院的数值很小,得出的结果肯定是绿地数值偏高的城市占便宜。所以我们需要对数值做处理。
这里,我们开始进入这节课的最重要知识点——“归一”。这就是把不同类型的数值,最高值和最低值全部统一。就是这么简单粗暴!统计学都是这么处理的!
在唯城君的处理中,最高值被确定为100,最低值为0。
所以大家不要“玻璃心”,“0”只是显示你在34座城市中恰好是最低值而已。即使是最低值,我们回顾上一个抽样的知识点,因为样本城市都是国内“一等一”的好城市,可能在全国所有城市的比对中,你的城市还是排名靠前的!
下面具体介绍下,“归一化”的处理方法:先计算出每项指标的最大值和最小值,然后用(指标实际值-最小值)/(最大值-最小值),计算出无量纲化后的指标评价值,取值范围为[0,1]。公式如下图:
二级指标是无量纲化后的三级指标数据加权得到,一级指标得分由二级指标加权得到。如果有3个三级指标,只要其中1个指标无量纲化后不为0,加权后的结果就大于零;如果刚好所有指标都是0 或者二级指标只对应1个三级指标的话,那么最后的还是0。
对四个子榜单进行整理后我们发现,泉州、北京、乌鲁木齐等城市都在不同的指标上拿到了0分,这是为什么呢?
1、《34城公共空间体验榜》中,泉州市在“绿色空间体验”项得分为0。
从《2019年中国城市统计年鉴》上我们得到泉州市公园绿地的数据。截止2018年底,泉州市公园绿地是2050公顷(20500000平方米),2019年泉州市常住人口数量为874万人,我们算出人均公园绿地面积为2.35平方米/人,无量纲化处理后,指标评价值为“0”,表示泉州市在“绿色空间体验”指标上位列34名(即34城中的最小值)。(《2020年中国城市统计年鉴》未发布,所以我们采用目前能获得的《2019年中国城市统计年鉴》数据)二级指标“绿色空间体验”下只有1个三级指标——“人均公园绿地面积”,所以泉州市在“绿色空间体验”上得分为“0”。
2、《34城市民准入榜》中,北京在“落户自由”项得分为0。
通过收集各城市落户政策,依据城市(区域)研究中心设计的“落户政策评价体系”进行评分,北京在“落户自由度”上得分为12.5,无量纲化处理后,指标评价值为“0”,表示北京在“落户自由度”指标上位列34名。二级指标“落户自由”下只有“落户自由度”这1个三级指标,所以最后北京在这项得分为0。
3、《34城市民待遇榜》中,乌鲁木齐市在“政府服务榜”上得分为0。
根据清华大学数字治理研究中心《2020数字政府发展指数报告》,我们得到了34座城市“数字政府发展指数得分”,乌鲁木齐市实际得分为37.8,经过无量纲化处理,指标评价值为“0”,代表乌鲁木齐市在“政府服务”这项指标上位列34名。由于二级指标“政府服务”下仅有1个三级指标——“数字政府发展指数得分”,所以乌鲁木齐市在该项指标上得分为0。
相信大家掌握了这个考点,就会举一反三啦:有些城市某些指标得分较低也是和“0”分原理一样,是相对得分值。例如天津的医疗,由于千人床位、千人护士等千人指标拉低了天津医疗整体得分,所以排名相对也靠后一些。
3
每个城市的“成绩”是怎样算出来的?
这里首先解释一个数学概念——“加权”,简单来讲就是将不同维度的分值按照一定的比重折算之后,再进行加法运算得出的结果。
例如:小明同学(小明:没错我又出现啦!)的成绩是:语文90分,数学80分,直接相加的总分为170分;但如果进行加权运算,你设定语文比重为60%,数学为40%,那么加权运算的法则是:
90x60%+80+40%
=54+32
=86
最后,我们说小明同学的加权分值是86 。
理想之城榜采取的就是这种运算方式。理想之城的分为三层,三级指标数据有40多项(同学们可以想象为40多道大题),每个子榜单对应1项一级指标,下面包括10项左右的二级指标(可以想象为10道大题组成一个学科),总共四张子榜单。计算原因如下:
先各自加权运算二级指标的数值,得出一级指标即子榜单的数值;一级指标的数据再加权,得到总榜单的最终数值。
依据《理想之城》指标模型,我们从各城市统计局及第三方机构寻找相关数据,在对数据进行清洗、核实后,对三级指标进行无量纲化,得到“指标评价值”。二级指标由各“指标评价值”加权后得到,一级指标由二级指标加权得到。由此得到各城市最后得分。
讲到这里,可能又有同学问:怎么确定各个不同指标的比重?
这是好问题!奖励小红花一朵,课代表记下来!
现在进入这堂课的最后一个知识点:赋权方法,也就是赋予权重的方法。理想之城用了两种方法:
第一种是主观赋权法。简而言之就是综合大多数人的意见,重要性更高的指标,比重更高,这也是统计学家常用的统计方法。
第二种是熵值法。这种统计学方法认为,一组数据越离散,熵值越小,对结果的影响程度越大,权重越大。
我的天,好多同学是不是看起来都觉得脑袋很混乱?这个概念其实也很好解释,就是大家的分数“区分度”够不够明显,比如一道题5分,大部分人的成绩要么是5分,要么是4分,那么我们就说在这道题上,大家的成绩分布比较集中,因此“熵值”比较高;要是结果是,5分、4分、3分、2分、1分的人都有,而且人数看不出规律,成绩分布较为分散,那么这个“熵值”就比较低。
熵值法的原理是,大家都会做的题目,权重低;有的人会,有的人不会的,权重就高。这种方法能够考察城市对“重点”的掌握。
不同城市,最终呈现的分值就是这么来的。
最后,经过一个月加班!加点!的筹备,《理想之城》总榜单即将发布!
哪些城市是大众心中的“理想之城”?答案即将揭晓。我们在“唯一的城”与您不见不散!