4月5日下午,上道书院导师、创管学院教授陈祎为书院同学们带来了一场题为“日常生活中的十大数据思维错误”的精彩分享。这是学校封闭管理以来的第一场线上导师沙龙,数百名同学在线参与,反响热烈。
沙龙伊始,陈祎教授用英国著名小说家H.G.Wells的“Statistical thinking will one day be as necessary for efficient citizenship as the ability to read and write!”开场,指出大数据时代下的数据思维不仅要能够对现实问题进行数据分析,还要去判断其他人基于数据分析得到的结论是否正确。在这个信息爆炸的时代,如果缺乏甄别信息的能力,只能被动接受信息推送,就容易在信息茧房里越陷越深。不仅如此,人们在日常生活中也容易对数据产生错误的理解。接着,陈祎教授为同学们列举了分布在不同环节中的十种常见的数据思维错误。
在数据搜集环节,最重要的是样本。理想的样本要能充分且客观地反映总体的情况。在选取样本时,应选取事前样本而非事后样本,因为事件会造成样本选择性。例如,我们经常听到“别人家的孩子”或者“同行越来越优秀”的说法,这是因为他们都是被传播者选择后才向你讲述,无法代表总体的平均水平。因此,我们要理性地分析与判断,无需为此太过焦虑。还有两种典型错误则是样本的代表性有偏差或样本量不足。
在数据整理环节,错误四为当把连续变量转换为离散变量时,会忽视离散变量背后的隐含信息。例如:将高校分为一本和非一本,在一本线附近的学生,分数虽然相近,但结果不同。有时候,世界真的是非黑即白。第五种错误是混淆“数量”和“概率”。据统计,高速公路的事故总数仅占总交通事故数的1.45%,因此,高速公路开车其实更安全。但1.45%无法表示在高速公路开车发生事故的概率。
在数据分析环节,错误六是没有考虑其他因素的变化,换言之,容易混淆“相关性”和“因果性”。在看待经济发展与癌症的关系时,从图表上看两者呈正相关,有部分因果关联,比如,经济快速发展,人们缺乏锻炼和饮食结构深加工会影响致癌率,但检测技术的提升和医疗水平地进步让人们活得更久也会对患癌人数的统计产生影响。错误七则是过度解读估计量。任何估计量都是信息高度压缩的结果,并且有置信区间。
在数据解读环节,错误八为线性“外推”。人类总是偏好线性,而不喜欢非线性。但现实中很多事物随时间都是非线性变化(如:气候)。错误九是通过图表误导他人的思维。y坐标刻度选取的不同,使相同数据有不同的呈现形式,进而改变人们的第一印象。最后一个错误则是缺乏正确的比较标准。很多人们常说的概念,高、矮、胖、瘦、富、穷……,这些看似是绝对值,实则是相对值。有时修改一下参照物,脑子里的概念就会来个大反转!
最后,同学们纷纷通过在线聊天框或语音对话向陈祎教授提问。陈祎教授也逐一回答了同学们的疑问,与同学们互动沟通。上道书院第一场线上导师沙龙活动圆满结束。