统计案例统计数据会说谎?

在报道社会经济趋势、商业状况、民意调查时用到大量数据,此时统计方法和术语就不可或缺。统计学知识能够揭露真香,也可以漫天过海

案例:某人说99%的患者被排查,涉及1059万人。用数字增加说服力,体现自己劳苦功高。这些数据都是统计下的结果,但是统计的真实性有待考察。

案例:薪酬调查报告。每年一些机构都会发布调研报告,包含城市平均薪酬、行业薪酬等。各大网友吐槽“又拖后腿了”、“被马云baba平均了”。下图一定程度上能说明行业薪资差异,但是并没有说明工作年限、职位、城市等因素,所以数据的水分很大。

那么统计数据说谎有哪些方式呢?本文从5个方面来讲述。

1、样本偏差

案例:某高校调查2020届毕业生平均年薪25W。

这些数据是如何得到的?样本多大?调查样本具有代表性吗?愿意参与调查可能只是问卷调查设计的20%。部分人虚荣心作祟,虚报薪水状况,导致所调查年薪偏高。

导致偏差的显性和隐性原因都有可能摧毁一个样本的可靠性。但是偏差总会存在,只能做到尽量减少偏差。比如上街做随机调查,就会因遗漏了宅男宅女而产生偏差;如果你挨家挨户做上门调查,就会遗漏大多数白天上班的人;如果你转而改为晚上做调查,还是会遗漏晚上在电影院和夜总会的人。

2、平均数

网友常调侃:“我和马云的平均年收入几个亿”,本质上也是平均数的应用。在没有重要数据的情况下,千万不要轻易相信一个平均数、一张图表或一条趋势线。也许你认为61华氏度(约16.11摄氏度)的年均气温非常舒适宜人,你选择了内陆荒漠或南方沿海的圣·尼古拉斯岛。但是你忽略了温差,因此你不是会被暴晒,就是会受冻。

圣·尼古拉斯岛的温差是47~87华氏度(约8~31摄氏度),而荒漠的温差是15~104华氏度(约–9~40摄氏度)。

3、没有透露的小数据

案例:某公司开发一款牙膏,宣称治疗龋齿效果明显,可以使蛀牙减少23%。

而事实上公司采用了12人的实验样本,如此小的实验样本误差肯定偏大,不能反馈真实情况。那么统计学揭露了事情真相,该牙膏的广告宣传有问题。

4、无事瞎忙

案例:眼花缭乱的智力检验。

很多人盲目崇拜着各种各样的智力测验,为了找出测验结果,做了很多测试题。假如检测结果小明智商为98,小华智商为102,智力测验的平均水平指数为100。那往往得出,小华比较聪明,她的智商高于平均水平,小明就不及平均水平。

所有类似结论是不靠谱的!首先要明确的是,无论智力测验都包含什么内容,它和我们所说的“智力”相去甚远。这种智力测验通常都忽略了诸如领导力和创造力等重要因素。它也从不考虑运动、艺术及其他天赋,更不必说勤奋上进和情感平衡等重要的个人素质。

学校里进行的测试通常都是快捷而省事的,测试结果主要取决于阅读能力,而阅读能力较弱的人就没有机会来证明自己聪明与否。

这些无事瞎忙的数据只会干扰自己的判断。

5、惊人的图形

5.1刻度扭曲

下方左右图的原始数据一样,但是右图的增长趋势喜人,事实上在作图时扭曲了Y轴刻度。

1938年,华盛顿的宣传广告有一张争议的图表——《政府支出剧增!》。它们表示的是政府支出从19500000美元增至20200000美元。从底部急剧攀升至顶部的曲线本应描述的是不到4%的增长,但此刻却看着比400%还多!

5.2一维图形

新闻资讯从文字时代走向图文、短视频时代,数据报告中充斥着各种扁平化图标。用卡通小人代表100万人,用一个硬币代表10亿美元,或用一头牛来代表牛肉供应量,这些都是形象图。这是一种非常实用的工具,但是它也能变成一种圆滑狡诈的欺骗手段。

案例:美国和罗坦迪亚(Rotundia)木匠的平均周工资。

左边柱形图展示两国差距,但是觉得不够影响,加入了一维图形。初看之下,美国木匠的工资明显高出罗坦迪亚木匠,已经到4倍的程度。原因在于第二个钱袋高度是第一个的2倍,连宽度也是2倍。这样一来,在第二个钱袋所占的面积就不是第一个的2倍,而是4倍。数据虽然是2∶1,但是视觉效果起了决定性的作用,误导读者以为是4∶1。

统计数据说谎的形式很多,如何应对日新月异的作弊手段。一方面需要具有一定的统计学基础,另一方面也需要养成独立思考的能力,看到数据多思考背后的来源、业务逻辑、统计口径,这样才能不被欺骗。