1. 涨姿势首页
  2. 世界观

「数据会说谎」的真实例子有哪些?

作者 / 曾加

今天早上,我无意间看到一则微博,是在讲「上海出生率下降」的:

123

看了这则微博,我的第一反应就是:数据不真实。

「出生率下降」这个事实,我们都是知道的,你说出生人数降低一半甚至 70%,也许都有一定的可信度,但,1990 年的时候其实上海已经是在「计划生育」了,你要说 2020 年的出生人数是 1990 年的 6%,一代人就可以让出生率降一个数量级,打死我我都不会相信的。

为了说明这个数据的荒谬性,我脑海里浮现出一组我所熟知的数据:

2006 年,上海参加中考的人数大约是 12 万人。

由于上海的在初中升高中(以及三校)的升学率很接近 100%,而这其中,绝大部分人都会参加中考,所以可以近似认为 1990.9~1991.8,出生的人数也应该在这个数量级,12 万再多一点,顶多 15 万吧。

一年有 365 天,所以在 1990 年附近,平均每天出生 300 多个人,所以 1990 年 1 月 1 日出生 2784 人,这个数是绝对有问题的。

可是,这条微博的作者傅蔚冈也算是有头有脸的人物,浙大毕业,上海金融与法律研究院 工作,不像是会信口胡说的人。而他所使用的数据源,「上海发布」公众号,也算政务号了,数据也不应该造假,那究竟是怎么一回事呢?

我看了下公众号的数据,数据看起来好像是真的:

那么,换个其他日期试试?

的确,如果把日期换成了一个非特殊日期(比如 1 月 1 日、10 月 1 日),出生的人数会有所减少,但基本上也有 1000 多,那么如果把 1990 年出生的人数全部加起来,估计也至少有 50 万以上了。

但这和上海 2006 年参加中考的人数完全对不上。肯定是哪里有问题了。

于是我又看了一遍公众号的页面,终于注意到几个小字:

「本市户籍人员」。

本市户籍人员,并不一定需要参加中考,也并不一定要在本市出生,这其中有很大一部分,都是出生在其他城市,在本科或者研究生毕业以后,积分到位,拿到上海户籍的。当然,还有一部分是父母拿到了上海户籍,然后帮助孩子在大学毕业前就拿到户籍的(这也是 2000 年 1 月 1 日出生率偏高 的原因)。因此,在年龄还小的时候,他们是不会出现在这个统计里的。但如果你在 2050 年再去统计 2020 年 1 月 1 日出生的「本市户籍人口」,肯定也不会是 156,说不定有 1560。

因此,对比 2020、2010、2000、1990 年的出生人数,并不能得出「出生率断崖下降」的结论,反而能得出:出生地不在上海的「新上海人」占比非常高。

这就是「数据口径偏差导致的结论偏差」。

来源:知乎

如若转载,请注明出处:https://www.zhangzs.com/384720.html

发表评论

电子邮件地址不会被公开。 必填项已用*标注

QR code
QR code