展开全部

主编推荐语

本书是为普通人打造的一本“数据思维急救手册”。

内容简介

作者艾伦·唐尼现任奥林学院荣誉教授、PyMC实验室首席数据科学家,他非常擅长用通俗的语言解析深奥的统计学原理。

本书以“反直觉的数据”为切入点,通过数十个真实有趣的案例,带领读者逐步认清统计悖论。比如:“吸烟孕妇生出的低体重儿更健康”,这其实是混淆了“相关性”与“因果性”的典型谬误;“疫苗接种者死亡率更高”也只是统计假象,实则是统计者的年龄结构差异导致的。这些案例将颠覆我们的认知,从而引发读者对数据解读的深入思考。

更重要的是,作者没有在书中空谈理论,而是将统计学方法转化为可复用的决策工具。例如:基本比率法则能帮我们避免医学检测导致的过度恐慌或轻视;因果图模型可区分直接影响与间接干扰,避开“相关性等于因果性”的陷阱;长尾分布思维则提醒决策者需要为极端事件预留出容错空间;等等。这些工具能渗透到生活中的各种日常场景,使抽象的方法具有可实践性。

此外,书中对数据伦理的探讨也提醒我们,数据不是冰冷数字,数据记录着社会进步的轨迹,并承载着重要的社会价值。本书像一把解码数据的“钥匙”,能重塑我们看待世界的方式,让我们在数据泛滥的时代,避开统计陷阱,保持清醒思考,做出理性决策。

目录

  • 版权信息
  • 中文版序
  • 引言 用证据和理性指引我们的决策
  • 关于编写本书的基本原则
  • 第1章 人人都不正常吗? ——高斯曲线与中心极限定理
  • 高斯曲线与高斯分布
  • 图1—1 美国军人的身高分布
  • 图1—2 高斯曲线
  • 图1—3 身高分布与高斯曲线的对比
  • 中心极限定理
  • 图1—4 身高分布与模拟结果的对比
  • 各种分布与偏差
  • 图1—5 用累积分布函数表示身高分布
  • 图1—6 身高分布和高斯模型的累积分布函数对比
  • 偏差到底有多大?
  • 图1—7 男性腘窝至脚底高度分布和高斯模型对比
  • 图1—8 女性前臂长度分布和高斯模型对比
  • “平均人”神话
  • 表1—1 测量值的相关数据
  • 大五人格测试
  • 图1—9 被调查者每种特征的总分分布情况
  • 表1—2 五种特征的均值和标准偏差
  • 表1—3 五种特征对应的人数和百分比
  • 我们都是怪异的!
  • 图1—10 基于大五人格特征数据集的怪异得分分布
  • 图1—11 基于ANSUR数据集的怪异得分分布
  • 图1—12 加入比值的ANSUR数据集里男性参与者的怪异得分分布
  • 但有些人更正常
  • 第2章 犯过罪的人一定会再犯? ——检验悖论与友谊悖论
  • 检验悖论与过度抽样
  • 图2—1 班级规模分布
  • 图2—2 班级规模分布
  • 无偏数据与有偏数据
  • 图2—3 班级规模分布
  • 尖锋厚尾
  • 图2—4 列车间隔时间分布
  • 图2—5 列车间隔时间分布
  • 友谊悖论
  • 图2—6 好友数量的分布
  • 图2—7 好友数量的分布
  • 寻找超级传播者
  • 比我快的和比我慢的
  • 图2—8 选手的速度分布
  • 被高估的刑期
  • 图2—9 联邦囚犯刑期分布
  • 图2—10 三种方式下的联邦囚犯刑期分布
  • 重复犯罪率到底有多高?
  • 图2—11 入狱分布(抽样基于事件)
  • 图2—12 入狱分布(抽样基于事件和基于个人)
  • 无处不在且隐蔽的检验悖论
  • 第3章 如果每位女性都少生一个孩子? ——普雷斯顿悖论
  • 原生家庭规模
  • 图3—1 家庭规模分布
  • 大萧条和婴儿潮
  • 图3—2 美国家庭规模分布
  • 不断下降的生育率
  • 图3—3 平均家庭规模(1976—2018年)
  • 图3—4 拥有0个、1个、2个孩子的家庭百分比
  • 图3—5 拥有3个或以上孩子的家庭百分比
  • 图3—6 平均家庭规模的两个指标
  • 普雷斯顿悖论
  • 图3—7 家庭规模分布
  • 如果每位女性比其母亲少生一个孩子
  • 图3—8 1979年的家庭规模实际分布和对应的模拟结果
  • 图3—9 10代人的平均家庭规模
  • 新的生育模式
  • 图3—10 家庭规模分布(2018年实际和自1990年后模拟数据)
  • 第4章 顶级牛人有什么特别之处? ——对数正态分布与SPC框架
  • 成年人的体重不符合高斯分布
  • 图4—1 体重分布(BRFSS数据)
  • 图4—2 体重对数的分布以及把它们拟合得最好的高斯模型
  • 新生儿出生体重符合高斯分布
  • 图4—3 新生儿体重分布(NSFG数据)
  • 模拟增加体重后
  • 图4—4 模拟体重的分布和高斯模型对比
  • 图4—5 体重分布和模拟数据对比
  • 速度的对数正态分布
  • 图4—6 参赛速度在对数尺度上的分布以及根据数据拟合的高斯模型曲线
  • 图4—7 跑步速度的分布和模拟结果对比
  • 国际象棋的积分分布
  • 图4—8 国际象棋积分分布
  • 图4—9 调整后的国际象棋积分分布
  • 顶尖人物的异常值
  • 图4—10 高斯模型和对数正态模型的积分分布
  • 用SPC框架找工作
  • 第5章 如何活到300岁? ——预期新比旧优与预期旧比新优
  • 新灯泡还是旧灯泡的寿命长?
  • 图5—1 灯泡寿命分布
  • 图5—2 灯泡的平均剩余寿命
  • 第39、40、41周孕妇的分娩时间
  • 图5—3 妊娠期分布
  • 图5—4 平均待产时间
  • 肿瘤病人的存活时间
  • 图5—5 胶质细胞瘤病人的存活曲线和累积分布函数
  • 图5—6 胶质细胞瘤患者的平均剩余存活时间
  • 图5—7 平均预后生存期限与高斯模型的对比
  • 图5—8 平均剩余存活时间与对数正态模型的对比
  • 出生时的预期寿命
  • 图5—9 历史上的瑞典人口死亡率
  • 图5—10 剩余寿命和年龄的关系
  • 不同区域的儿童死亡率
  • 图5—11 不同区域的儿童死亡率
  • 图5—12 平均剩余寿命和年龄的关系
  • 让死亡率骤降且长寿的秘密
  • 图5—13 瑞典每个年龄段的死亡率
  • 图5—14 瑞典成年人的死亡率
  • 图5—15 持续进步中的瑞典成年人死亡率
  • 图5—16 不同进步状况下的存活曲线
  • 图5—17 进步4倍下的存活曲线
  • 图5—18 不同进步状况下的平均剩余寿命
  • 图5—19 进步4倍和4.9倍下的存活曲线
  • 第6章 你应该点菜单上那道最让人没食欲的菜? ——伯克森悖论与伯克森偏倚
  • 数学能力和语言能力
  • 图6—1 SAT分数(NLSY97数据)
  • 精英大学与二流大学里的相关性
  • 图6—2 SAT分数(精英大学学生)
  • 图6—3 相关性和入学要求的关系
  • 图6—4 SAT分数(二流大学学生)
  • 胆囊炎和糖尿病之间的相关性
  • 表6—1 四格表
  • 新冠病毒感染和伯克森悖论
  • 抑郁症和伯克森悖论
  • 位置不好的餐馆更值得去!
  • 第7章 吸烟对胎儿更有利? ——出生体重悖论,多胞胎悖论与肥胖悖论
  • 母亲吸烟与婴儿死亡率之间的关系
  • 图7—1 出生体重分布
  • 图7—2 婴儿死亡率及其出生体重之间的关系(1991年NCHS数据)
  • 高海拔地区的母亲与矮个子母亲
  • 低出生体重悖论的终结
  • 图7—3 死亡率和出生体重的关系(2018年NCHS数据)
  • 多胞胎悖论与早产
  • 肥胖悖论也是不存在的
  • 伯克森烤面包机与因果图
  • 图7—4 低出生体重悖论因果图
  • 图7—5 解释肥胖悖论的因果图
  • 第8章 黑天鹅事件的发生有规律性吗? ——尾端分布与对数-t模型
  • 灾害损失的尾端分布
  • 图8—1 灾害带来的损失等级图
  • 图8—2 灾害损失的尾端分布(对数尺度)
  • 图8—3 灾害损失的尾端分布(对数—对数尺度)
  • 图8—4 灾害损失的尾端分布和对数t模型
  • 地震震级的尾端分布
  • 图8—5 地震震级的尾端分布和对数正态模型
  • 图8—6 地震震级的尾端分布和对数t模型
  • 图8—7 2015年1月至2022年5月实际超过每个震级的地震数量
  • 太阳耀斑通量的尾端分布
  • 图8—8 太阳耀斑通量的尾端分布和对数正态模型
  • 图8—9 太阳耀斑通量的尾端分布和对数t模型
  • 月球上的陨石坑
  • 图8—10 月球陨石坑直径的尾端分布和对数t模型
  • 小行星直径的尾端分布
  • 图8—11 小行星直径的尾端分布和对数t模型
  • 图8—12 月球陨石坑直径的尾端分布和模拟结果
  • 股市崩盘的规模分布
  • 图8—13 股市单日跌幅的尾端分布和对数t模型
  • 黑天鹅与灰天鹅
  • 在长尾的世界里醒来
  • 第9章 到底要不要接种疫苗? ——基率谬误与假阴性率
  • 医学检测的准确性
  • 表9—1 检测呈阳性的概率及人数
  • 表9—2 实际感染概率和其互补概率
  • 如果提高灵敏度与特异度
  • 表9—3 检测呈阳性和真阳性的概率
  • 表9—4 当灵敏度为95%时,检测呈阳性和真阳性的概率
  • 表9—5 当特异度为99.9%时,检测呈阳性和真阳性的概率
  • 表9—6 当基础感染率为1‰时,检测呈阳性和真阳性的概率
  • 患病率和假阳性率
  • 表9—7 当特异度为95%,灵敏度为99%时,真阳性的概率
  • 酒驾和毒驾的筛查
  • 表9—8 当灵敏度为99%时,真阳性的概率
  • 表9—9 当基础率为50%时,真阳性的概率
  • 别怀疑疫苗的有效性
  • 表9—10 80岁及以上人群接种疫苗后的死亡率
  • 表9—11 每个年龄段的死亡人数和接种疫苗死亡人数的百分比
  • 表9—12 每个年龄段的死亡率和疫苗有效性
  • 表9—13 每个年龄段的接种疫苗人数和百分比
  • 表9—14 疫苗在不同年龄段内所挽救的生命数量
  • 预测犯罪风险
  • 表9—15 当基础率为45%时,罪犯再次被指控犯罪的概率
  • 表9—16 当基础率为45%时,罪犯没有被指控再次犯罪的概率
  • 比较组
  • 表9—17 男性被告高风险评分人数及其再次犯罪的比例
  • 表9—18 女性被告高风险评分人数及其再次犯罪的比例
  • 算法比人类更容易纠错
  • 公平很难实现
  • 第10章 不敢独自走夜路的人,更害怕离婚? ——辛普森悖论与数据开放
  • 乐观的老年人和悲观的年轻人
  • 图10—1 历年调查结果为“乐于助人”的百分比
  • 图10—2 出生年份对应结果为“乐于助人”的百分比
  • 图10—3 历年调查结果为“乐于助人”的百分比
  • 图10—4 历年调查结果为“乐于助人”的百分比
  • 图10—5 出生年份分布
  • 实际收入下降,总体收入却上升?
  • 表10—1 实际收入中位数变化情况
  • 图10—6 不同教育程度群体的平均实际收入
  • 图10—7 不同教育水平群体的百分比
  • 企鹅
  • 图10—8 三种企鹅的测量结果
  • 要不要开刀取肾结石
  • 图10—9 男性和女性对“是否害怕独自走夜路”的反应
  • 图10—10 A和B两种治疗方法的治愈率
  • 接种疫苗和老年人的死亡率
  • 图10—11 各种原因造成的死亡率(10~59岁)
  • 图10—12 各种原因造成的死亡率(从2021年1月开始)
  • 图10—13 各种原因造成的死亡率(60~69岁)
  • 图10—14 各种原因造成的死亡率(70~79岁)
  • 图10—15 各种原因造成的死亡率(80岁及以上)
  • 图10—16 2021年8月初已接种疫苗组和未接种疫苗组的年龄分布
  • 是的,疫苗挽救了很多人的生命
  • 图10—17 全因死亡率(50~59岁)
  • 图10—18 全因死亡率(40~49岁)
  • 图10—19 全因死亡率(18~39岁)
  • 开放数据,公开讨论
  • 第11章 你相信世界上存在蜥蜴人吗? ——“年龄—时代—世代分析”及奥弗顿之窗
  • 种族歧视和蜥蜴人
  • 图11—1 种族主义观点的调查结果vs年龄
  • 图11—2 跨种族通婚问题:种族主义观点的调查结果vs年龄
  • 年龄效应、时代效应和世代效应
  • 图11—3 性别歧视的调查结果vs年龄
  • 图11—4 男性更适合从政:性别歧视的调查结果vs年龄
  • 图11—5 性别歧视的调查结果vs调查年份
  • 我们越来越不“恐同”
  • 图11—6 “恐同”的调查结果vs年龄
  • 图11—7 同性性关系:“恐同”的调查结果vs年龄
  • 图11—8 同性性关系:“恐同”的调查结果vs调查年份
  • 变化缘于思想的改变
  • 世代效应还是时代效应?
  • 图11—9 同性性关系:“恐同”的调查结果vs调查年份
  • 固执己见的群体和奥弗顿之窗
  • 图11—10 选择固执己见答案的人的百分比(所有问题)
  • 第12章 老年人的观念更保守? ——奥弗顿之窗转移和追逐奥弗顿之窗
  • 年老的保守派,年轻的自由派?
  • 图12—1 不同年龄的政治派别
  • 图12—2 认为是保守派的百分比(按出生年代分组)
  • “保守派”是什么意思?
  • 图12—3 选择保守答案的百分比
  • 图12—4 保守反馈和年龄的关系(按政治派别分组)
  • 图12—5 保守反馈和年龄的关系(按出生年代分组)
  • 奥弗顿之窗移向自由主义
  • “中间”并非一成不变
  • 图12—6 保守答案和调查年份的关系
  • 图12—7 保守反馈和调查年份的关系(按出生分组,每10年为一组)
  • 图12—8 保守答案和调查年份的关系(对比有违事实的模型)
  • 图12—9 政治派别和调查年份的关系
  • 我们是否变得更加两极分化?
  • 图12—10 保守答案和调查年份的关系(按政治派别分组)
  • 追逐奥弗顿之窗
  • 图12—11 保守答案和调查年份的关系(按政治派别分组)
  • 附录 区分自由派和保守派的问题
  • 结语 问题、数据和方法
  • 致谢
  • 译后记
  • 参考文献
展开全部

评分及书评

4.0
4个评分
  • 用户头像
    给这本书评了
    3.0
    让数据回归真相,让思考回归理性

    本书以 “反直觉” 为钥匙,撬开了统计学厚重的大门。作者唐尼深知抽象理论远不如一个令人瞠目的悖论更能引发思考。于是,书中充满了看似荒谬却又真实存在的统计谜题:“吸烟孕妇生出的低体重儿更健康”;“疫苗接种者死亡率更高”;“你应该点菜单上那道最让人没食欲的菜”。这些挑战常识的命题,瞬间抓住了读者的注意力。作者正是通过这些鲜活案例,带领我们步入统计学的殿堂,逐一揭示背后的原理 —— 混淆相关性与因果性、忽视样本结构偏差(如辛普森悖论)、陷入伯克森偏倚等等。这种写法,让学习过程如同解谜,也让我们在颠覆认知的震撼中,牢固地掌握了关键概念。若仅限于揭示陷阱,本书或许只是一本有趣的批判集。但作者的卓越之处在于,他将批判性思维转化为了一系列可复用的、积极的决策工具。他不仅仅告诉我们 “平均数会骗人”(“平均人” 神话),更教我们用分层分析和理解分布(如对数正态分布)来洞察真实差异。他剖析 “基本比率谬误”,是为了让我们在接到一份医学 “假阳性” 报告时,能结合患病率做出冷静判断,避免无谓恐慌。他引入 “因果图模型”,是为了在纷繁的相关性中,帮忙梳理出真正的因果链条,避开最常见的决策陷阱。从评估职场风险到理解社会现象,这些工具让统计学从书本公式,变成了渗透于日常决策的实用智慧。本书除了技术层面的阐述之外,还饱含深刻的社会关怀与伦理思考。作者提醒我们,数据并非冰冷中立的抽象物,它记录着社会进步的轨迹,也时常承载着历史的不公。书中探讨的算法偏见案例振聋发聩:例如,某些用于预测犯罪风险的算法,因训练数据本身包含历史性执法偏差,导致对特定族裔群体产生系统性不公平的结果。这种对 “数据正义” 的追问,直指技术中立性的假象。同时,书中对 “奥弗顿之窗” 和世代效应的分析,也帮助我们超越 “老年人更保守” 这类简单标签,去理解社会观念复杂、动态的变迁过程。这使得本书不仅关乎如何分析数据,更关乎如何理解数据所映射的那个复杂世界与人本身。

      转发
      1
      用户头像
      给这本书评了
      5.0

      大部分是取样的问题

        转发
        评论

      出版方

      中信出版集团

      中信出版社,成立于1988年,隶属于中国中信集团公司,是全国中央级出版社。2008年改制为中信出版股份有限公司。 中信出版集团满怀激情,关注思想、关注理念、关注人物、关注资讯、关注时尚,为读者提供最前沿的思想与最优秀的学习实践,通过有价值的、有享受的阅读,倡导与展示新的文化主流,启动一个“大众阅读时代”。