4.0 用户推荐指数
互联网
类型
可以朗读
语音朗读
136千字
字数
2025-11-01
发行日期
展开全部
主编推荐语
本书是为普通人打造的一本“数据思维急救手册”。
内容简介
作者艾伦·唐尼现任奥林学院荣誉教授、PyMC实验室首席数据科学家,他非常擅长用通俗的语言解析深奥的统计学原理。
本书以“反直觉的数据”为切入点,通过数十个真实有趣的案例,带领读者逐步认清统计悖论。比如:“吸烟孕妇生出的低体重儿更健康”,这其实是混淆了“相关性”与“因果性”的典型谬误;“疫苗接种者死亡率更高”也只是统计假象,实则是统计者的年龄结构差异导致的。这些案例将颠覆我们的认知,从而引发读者对数据解读的深入思考。
更重要的是,作者没有在书中空谈理论,而是将统计学方法转化为可复用的决策工具。例如:基本比率法则能帮我们避免医学检测导致的过度恐慌或轻视;因果图模型可区分直接影响与间接干扰,避开“相关性等于因果性”的陷阱;长尾分布思维则提醒决策者需要为极端事件预留出容错空间;等等。这些工具能渗透到生活中的各种日常场景,使抽象的方法具有可实践性。
此外,书中对数据伦理的探讨也提醒我们,数据不是冰冷数字,数据记录着社会进步的轨迹,并承载着重要的社会价值。本书像一把解码数据的“钥匙”,能重塑我们看待世界的方式,让我们在数据泛滥的时代,避开统计陷阱,保持清醒思考,做出理性决策。
目录
- 版权信息
- 中文版序
- 引言 用证据和理性指引我们的决策
- 关于编写本书的基本原则
- 第1章 人人都不正常吗? ——高斯曲线与中心极限定理
- 高斯曲线与高斯分布
- 图1—1 美国军人的身高分布
- 图1—2 高斯曲线
- 图1—3 身高分布与高斯曲线的对比
- 中心极限定理
- 图1—4 身高分布与模拟结果的对比
- 各种分布与偏差
- 图1—5 用累积分布函数表示身高分布
- 图1—6 身高分布和高斯模型的累积分布函数对比
- 偏差到底有多大?
- 图1—7 男性腘窝至脚底高度分布和高斯模型对比
- 图1—8 女性前臂长度分布和高斯模型对比
- “平均人”神话
- 表1—1 测量值的相关数据
- 大五人格测试
- 图1—9 被调查者每种特征的总分分布情况
- 表1—2 五种特征的均值和标准偏差
- 表1—3 五种特征对应的人数和百分比
- 我们都是怪异的!
- 图1—10 基于大五人格特征数据集的怪异得分分布
- 图1—11 基于ANSUR数据集的怪异得分分布
- 图1—12 加入比值的ANSUR数据集里男性参与者的怪异得分分布
- 但有些人更正常
- 第2章 犯过罪的人一定会再犯? ——检验悖论与友谊悖论
- 检验悖论与过度抽样
- 图2—1 班级规模分布
- 图2—2 班级规模分布
- 无偏数据与有偏数据
- 图2—3 班级规模分布
- 尖锋厚尾
- 图2—4 列车间隔时间分布
- 图2—5 列车间隔时间分布
- 友谊悖论
- 图2—6 好友数量的分布
- 图2—7 好友数量的分布
- 寻找超级传播者
- 比我快的和比我慢的
- 图2—8 选手的速度分布
- 被高估的刑期
- 图2—9 联邦囚犯刑期分布
- 图2—10 三种方式下的联邦囚犯刑期分布
- 重复犯罪率到底有多高?
- 图2—11 入狱分布(抽样基于事件)
- 图2—12 入狱分布(抽样基于事件和基于个人)
- 无处不在且隐蔽的检验悖论
- 第3章 如果每位女性都少生一个孩子? ——普雷斯顿悖论
- 原生家庭规模
- 图3—1 家庭规模分布
- 大萧条和婴儿潮
- 图3—2 美国家庭规模分布
- 不断下降的生育率
- 图3—3 平均家庭规模(1976—2018年)
- 图3—4 拥有0个、1个、2个孩子的家庭百分比
- 图3—5 拥有3个或以上孩子的家庭百分比
- 图3—6 平均家庭规模的两个指标
- 普雷斯顿悖论
- 图3—7 家庭规模分布
- 如果每位女性比其母亲少生一个孩子
- 图3—8 1979年的家庭规模实际分布和对应的模拟结果
- 图3—9 10代人的平均家庭规模
- 新的生育模式
- 图3—10 家庭规模分布(2018年实际和自1990年后模拟数据)
- 第4章 顶级牛人有什么特别之处? ——对数正态分布与SPC框架
- 成年人的体重不符合高斯分布
- 图4—1 体重分布(BRFSS数据)
- 图4—2 体重对数的分布以及把它们拟合得最好的高斯模型
- 新生儿出生体重符合高斯分布
- 图4—3 新生儿体重分布(NSFG数据)
- 模拟增加体重后
- 图4—4 模拟体重的分布和高斯模型对比
- 图4—5 体重分布和模拟数据对比
- 速度的对数正态分布
- 图4—6 参赛速度在对数尺度上的分布以及根据数据拟合的高斯模型曲线
- 图4—7 跑步速度的分布和模拟结果对比
- 国际象棋的积分分布
- 图4—8 国际象棋积分分布
- 图4—9 调整后的国际象棋积分分布
- 顶尖人物的异常值
- 图4—10 高斯模型和对数正态模型的积分分布
- 用SPC框架找工作
- 第5章 如何活到300岁? ——预期新比旧优与预期旧比新优
- 新灯泡还是旧灯泡的寿命长?
- 图5—1 灯泡寿命分布
- 图5—2 灯泡的平均剩余寿命
- 第39、40、41周孕妇的分娩时间
- 图5—3 妊娠期分布
- 图5—4 平均待产时间
- 肿瘤病人的存活时间
- 图5—5 胶质细胞瘤病人的存活曲线和累积分布函数
- 图5—6 胶质细胞瘤患者的平均剩余存活时间
- 图5—7 平均预后生存期限与高斯模型的对比
- 图5—8 平均剩余存活时间与对数正态模型的对比
- 出生时的预期寿命
- 图5—9 历史上的瑞典人口死亡率
- 图5—10 剩余寿命和年龄的关系
- 不同区域的儿童死亡率
- 图5—11 不同区域的儿童死亡率
- 图5—12 平均剩余寿命和年龄的关系
- 让死亡率骤降且长寿的秘密
- 图5—13 瑞典每个年龄段的死亡率
- 图5—14 瑞典成年人的死亡率
- 图5—15 持续进步中的瑞典成年人死亡率
- 图5—16 不同进步状况下的存活曲线
- 图5—17 进步4倍下的存活曲线
- 图5—18 不同进步状况下的平均剩余寿命
- 图5—19 进步4倍和4.9倍下的存活曲线
- 第6章 你应该点菜单上那道最让人没食欲的菜? ——伯克森悖论与伯克森偏倚
- 数学能力和语言能力
- 图6—1 SAT分数(NLSY97数据)
- 精英大学与二流大学里的相关性
- 图6—2 SAT分数(精英大学学生)
- 图6—3 相关性和入学要求的关系
- 图6—4 SAT分数(二流大学学生)
- 胆囊炎和糖尿病之间的相关性
- 表6—1 四格表
- 新冠病毒感染和伯克森悖论
- 抑郁症和伯克森悖论
- 位置不好的餐馆更值得去!
- 第7章 吸烟对胎儿更有利? ——出生体重悖论,多胞胎悖论与肥胖悖论
- 母亲吸烟与婴儿死亡率之间的关系
- 图7—1 出生体重分布
- 图7—2 婴儿死亡率及其出生体重之间的关系(1991年NCHS数据)
- 高海拔地区的母亲与矮个子母亲
- 低出生体重悖论的终结
- 图7—3 死亡率和出生体重的关系(2018年NCHS数据)
- 多胞胎悖论与早产
- 肥胖悖论也是不存在的
- 伯克森烤面包机与因果图
- 图7—4 低出生体重悖论因果图
- 图7—5 解释肥胖悖论的因果图
- 第8章 黑天鹅事件的发生有规律性吗? ——尾端分布与对数-t模型
- 灾害损失的尾端分布
- 图8—1 灾害带来的损失等级图
- 图8—2 灾害损失的尾端分布(对数尺度)
- 图8—3 灾害损失的尾端分布(对数—对数尺度)
- 图8—4 灾害损失的尾端分布和对数t模型
- 地震震级的尾端分布
- 图8—5 地震震级的尾端分布和对数正态模型
- 图8—6 地震震级的尾端分布和对数t模型
- 图8—7 2015年1月至2022年5月实际超过每个震级的地震数量
- 太阳耀斑通量的尾端分布
- 图8—8 太阳耀斑通量的尾端分布和对数正态模型
- 图8—9 太阳耀斑通量的尾端分布和对数t模型
- 月球上的陨石坑
- 图8—10 月球陨石坑直径的尾端分布和对数t模型
- 小行星直径的尾端分布
- 图8—11 小行星直径的尾端分布和对数t模型
- 图8—12 月球陨石坑直径的尾端分布和模拟结果
- 股市崩盘的规模分布
- 图8—13 股市单日跌幅的尾端分布和对数t模型
- 黑天鹅与灰天鹅
- 在长尾的世界里醒来
- 第9章 到底要不要接种疫苗? ——基率谬误与假阴性率
- 医学检测的准确性
- 表9—1 检测呈阳性的概率及人数
- 表9—2 实际感染概率和其互补概率
- 如果提高灵敏度与特异度
- 表9—3 检测呈阳性和真阳性的概率
- 表9—4 当灵敏度为95%时,检测呈阳性和真阳性的概率
- 表9—5 当特异度为99.9%时,检测呈阳性和真阳性的概率
- 表9—6 当基础感染率为1‰时,检测呈阳性和真阳性的概率
- 患病率和假阳性率
- 表9—7 当特异度为95%,灵敏度为99%时,真阳性的概率
- 酒驾和毒驾的筛查
- 表9—8 当灵敏度为99%时,真阳性的概率
- 表9—9 当基础率为50%时,真阳性的概率
- 别怀疑疫苗的有效性
- 表9—10 80岁及以上人群接种疫苗后的死亡率
- 表9—11 每个年龄段的死亡人数和接种疫苗死亡人数的百分比
- 表9—12 每个年龄段的死亡率和疫苗有效性
- 表9—13 每个年龄段的接种疫苗人数和百分比
- 表9—14 疫苗在不同年龄段内所挽救的生命数量
- 预测犯罪风险
- 表9—15 当基础率为45%时,罪犯再次被指控犯罪的概率
- 表9—16 当基础率为45%时,罪犯没有被指控再次犯罪的概率
- 比较组
- 表9—17 男性被告高风险评分人数及其再次犯罪的比例
- 表9—18 女性被告高风险评分人数及其再次犯罪的比例
- 算法比人类更容易纠错
- 公平很难实现
- 第10章 不敢独自走夜路的人,更害怕离婚? ——辛普森悖论与数据开放
- 乐观的老年人和悲观的年轻人
- 图10—1 历年调查结果为“乐于助人”的百分比
- 图10—2 出生年份对应结果为“乐于助人”的百分比
- 图10—3 历年调查结果为“乐于助人”的百分比
- 图10—4 历年调查结果为“乐于助人”的百分比
- 图10—5 出生年份分布
- 实际收入下降,总体收入却上升?
- 表10—1 实际收入中位数变化情况
- 图10—6 不同教育程度群体的平均实际收入
- 图10—7 不同教育水平群体的百分比
- 企鹅
- 图10—8 三种企鹅的测量结果
- 要不要开刀取肾结石
- 图10—9 男性和女性对“是否害怕独自走夜路”的反应
- 图10—10 A和B两种治疗方法的治愈率
- 接种疫苗和老年人的死亡率
- 图10—11 各种原因造成的死亡率(10~59岁)
- 图10—12 各种原因造成的死亡率(从2021年1月开始)
- 图10—13 各种原因造成的死亡率(60~69岁)
- 图10—14 各种原因造成的死亡率(70~79岁)
- 图10—15 各种原因造成的死亡率(80岁及以上)
- 图10—16 2021年8月初已接种疫苗组和未接种疫苗组的年龄分布
- 是的,疫苗挽救了很多人的生命
- 图10—17 全因死亡率(50~59岁)
- 图10—18 全因死亡率(40~49岁)
- 图10—19 全因死亡率(18~39岁)
- 开放数据,公开讨论
- 第11章 你相信世界上存在蜥蜴人吗? ——“年龄—时代—世代分析”及奥弗顿之窗
- 种族歧视和蜥蜴人
- 图11—1 种族主义观点的调查结果vs年龄
- 图11—2 跨种族通婚问题:种族主义观点的调查结果vs年龄
- 年龄效应、时代效应和世代效应
- 图11—3 性别歧视的调查结果vs年龄
- 图11—4 男性更适合从政:性别歧视的调查结果vs年龄
- 图11—5 性别歧视的调查结果vs调查年份
- 我们越来越不“恐同”
- 图11—6 “恐同”的调查结果vs年龄
- 图11—7 同性性关系:“恐同”的调查结果vs年龄
- 图11—8 同性性关系:“恐同”的调查结果vs调查年份
- 变化缘于思想的改变
- 世代效应还是时代效应?
- 图11—9 同性性关系:“恐同”的调查结果vs调查年份
- 固执己见的群体和奥弗顿之窗
- 图11—10 选择固执己见答案的人的百分比(所有问题)
- 第12章 老年人的观念更保守? ——奥弗顿之窗转移和追逐奥弗顿之窗
- 年老的保守派,年轻的自由派?
- 图12—1 不同年龄的政治派别
- 图12—2 认为是保守派的百分比(按出生年代分组)
- “保守派”是什么意思?
- 图12—3 选择保守答案的百分比
- 图12—4 保守反馈和年龄的关系(按政治派别分组)
- 图12—5 保守反馈和年龄的关系(按出生年代分组)
- 奥弗顿之窗移向自由主义
- “中间”并非一成不变
- 图12—6 保守答案和调查年份的关系
- 图12—7 保守反馈和调查年份的关系(按出生分组,每10年为一组)
- 图12—8 保守答案和调查年份的关系(对比有违事实的模型)
- 图12—9 政治派别和调查年份的关系
- 我们是否变得更加两极分化?
- 图12—10 保守答案和调查年份的关系(按政治派别分组)
- 追逐奥弗顿之窗
- 图12—11 保守答案和调查年份的关系(按政治派别分组)
- 附录 区分自由派和保守派的问题
- 结语 问题、数据和方法
- 致谢
- 译后记
- 参考文献
展开全部
出版方
中信出版集团
中信出版社,成立于1988年,隶属于中国中信集团公司,是全国中央级出版社。2008年改制为中信出版股份有限公司。 中信出版集团满怀激情,关注思想、关注理念、关注人物、关注资讯、关注时尚,为读者提供最前沿的思想与最优秀的学习实践,通过有价值的、有享受的阅读,倡导与展示新的文化主流,启动一个“大众阅读时代”。
