造假大师易富贤的浆糊统计学:“计划死亡”终于在他笔下变成现实
过去的几个星期,我跑到reddit的威斯康星大学小组去揭露易富贤造假,不出所料地,我收获了一大堆“shit”、“garbage”,还有不止一个人说我是“50-cent dogs”或“五毛”。(写到这里,先莞尔一下下 ^_^)。 不过,在成堆充满敌意的评论中,我也有了一个重大发现。 一位网名叫“Gibborim”、专业为“电子与计算机”(Electrical and Computer Engineering)的网民向我指出,易富贤所说的“每出生一万人,就有x人在y岁之前死亡”并非我理解的“0-y岁死亡率”,而且还非常仔细地给我解释了易富贤可能是怎么算出他那个证据的。当然,最后他还想让我相信易富贤的这种“专业”方法。 虽然他言辞激烈(如我一般^_^),但我在用自己那个小学算术不及格的愚钝大脑思考了几天后,终于认识到他的第一个说法是正确的: 我确实误解了易富贤的说法 。易富贤所说的“每出生一万人,就有x人在y岁之前死亡”,指的是这一万人在年满y岁之前的总死亡人数,也就是把他们在y+1年内的死亡人数相加的总数。 但这是否意味着易富贤和Gibborim的计算方法就是正确的呢?下面我就来作一个非专业的分析。如果有不正确的地方,欢迎各位指出来。 一、易富贤是怎样算出“每出生一万人,就有x人在y岁之前死亡”的 关于易富贤的算法,Gibborim作了非常详尽的分析,甚至还把他的计算结果做成一个图表,懂英文的网友可以参考他在 我帖子后面的回复 。 只是,对我这个小学算术不及格的脑瓜子来说,他这套算法太复杂,不过我还是理解了他和易富贤计算这个数据的大致思路。为了便于说明,我在这里把他们用来计算的那个表格的部分截图再贴出来(需要查看整个表格原文的请戳这里: http://www.stats.gov.cn/tjsj/ndsj/renkoupucha/2000pucha/html/t0604.htm ): 简单地说,要计算易富贤的那个“每出生一万人,就有x人在y岁之前死亡”,就需要知道这些人每年的死亡人数或死亡率。例如,如果要计算2000年出生的人总共有多少在10岁之前死亡,除了表格中已经提供的他们在0岁的死亡人数之外,我们还需要知道他们在1岁、2岁、3岁……直至10岁的每年死亡人数(一共11个数据),然后将这些人数相加,除以他们出生时的人数,再乘以万