北河以北

相关不等于因果

文/宋春林

最近在科学网上看了一则新闻:《复旦调查:80后婚恋家庭观趋向传统》,新闻内容本身没什么新鲜的,但是这则新闻里有一句话说:

调查还显示,80后共产党员的收入水平明显高于非党员,高收入群体中的党员比例高达67.7%

于是就有人误以为,入党能发财。甚至新京报这样的官方微博都以「80后党员收入明显高于非党员」作为标题来转发这则新闻。注意这几句话里面的几个关键词:党员,收入,明显高。非常夺人眼球,不明所以的人看了这个第一感觉就是:入党可以使收入更高。

但这只是错觉。

因为这篇新闻里还说了:

这次调查的80后接受过高等教育的比例超过66%

仔细一想,一般什么样的年轻人才能入党?大部分年轻人还不是上了大学之后才入的党。也就是说,党员群体中的大多数都是受过高等教育的。这就不难解释为什么在调查结果中显示党员收入明显高于非党员了,因为他们受过高等教育。新闻里还说了收入随教育水平提高而提高,我没有原始调查数据,但是可以这样假设:高收入群体多集中在受过高等教育的人里,他们中有相当大的一部分人是党员,因此就会在调查中出现党员收入高于非党员的结果了。

统计学里面有两个概念很容易混淆:相关和因果。最常见的谬误就是认为相关代表因果。比如有三个变量A、B、C,已知A→B并且A→C,那么通过调查就很可能会发现B和C之间有明显的相关性,但这并不能推出B和C之间的因果性(不能推出B→C或C→B)。举个极端的例子,有调查发现某城市火锅店生意越好,游泳溺水死亡人数也越少,显然不能因此就得出结论吃火锅可以减少溺水死亡风险,因为背后真正的原因是冬天吃火锅的人数增加而游泳人数减少了,这两个事件都是冬天气温降低导致的。更极端的例子是有调查发现中国的房价近年来持续升高,而与此同时中国智能手机用户也在增加,你难道能说用智能手机导致房价上涨?两个变量之间从相关到因果还有很长的路要走,必须通过严格的实验或论证,排除干扰因素才能证明因果关系。

上面「党员收入高」的例子就是一个相关关系而不是因果关系:即受过高等教育→是党员,受过高等教育→收入高,但是党员和收入高之间没有因果关系。 有时候,新闻想利用统计数据误导民众真是太简单了。

发表于
分类 歪理邪说  标签 时评  统计学