- 给这本书评了4.0這本書也許能推開概率和統計學的興趣之門
概率思維幾乎是不確定世界最重要的思維能力之一。一方面,只用懂加減乘除,再掌握三五個公式就夠用了;另一方面,懂概率和擁有概率思維,又完全是兩回事。有些自稱數學很好的人,對概率的無知令人意外。我們生活在大資料時代,高性能電腦和全球網路的強大組合正在得到人們的讚美甚至推崇。專家不斷告訴我們,他們發現了一種新的能力,可以對海量資料進行篩查並發現真相,這將為政府、商業、金融、醫療、法律以及我們的日常生活帶來一場革命。我們可以做出更明智的決策,因為強大的電腦可以對資料進行分析,發現重要的結論。也許事實的確如此,也許未必。有時,這些無所不在的資料和偉大光明正確的電腦會得出一些非常怪異的結論。例如,有人一本正經地宣稱:淩亂的房間會強化人們的種族主義傾向。還未出生的小雞胚胎會對電腦的隨機事件生成器產生影響。當政府負債相對國內生產總值的比率超過 90% 時,國家幾乎一定會陷入衰退。在過去 20 年美國犯罪率下降的原因中,合法墮胎的比例高達 50%。如果每天飲用兩杯咖啡,患上胰腺癌的風險將極度放大。最成功的公司傾向於變得不那麼成功,最不成功的公司傾向于變得更加成功,因此用不了多久,所有公司都會淪為普通的公司。出現在《體育畫報》和《麥登橄欖球》封面上的運動員會受到詛咒,他們可能會陷入平庸,或者受到傷病困擾。生活在輸電線附近的兒童具有更大的患癌風險。人類有能力將死亡推遲到重大儀式過後。亞裔美國人更容易在每月四號突發心臟病。如果一個人的姓名首字母縮寫擁有積極的含義(比如 ACE),那麼他可以多活三到五年。平均來說,教名(第一個名字)以字母 D 開頭的棒球運動員的壽命比教名以字母 E 到 Z 開頭的運動員短兩年。臨終病人可以被幾千英里以外傳送過來的積極心理能量治癒。當 NFC 冠軍球隊贏得超級碗(美國超級碗總決賽在國家聯合會(NFC)和美國聯合會(AFL)分別比賽產生的冠軍之間舉行 —— 譯者注)時,股市幾乎一定會上漲。如果你購買股息率最高、每股價格第二低的道鐘斯股票,你就可以跑贏大盤。這些說法顯然是錯誤的。不過,許多與此類似的說法每天都會出現在報紙和雜誌上。在如今的資訊時代,我們用沒完沒了而又毫無意義的資料指導我們的思想和行動。不難看出為什麼我們會反復得出錯誤的推論,制定糟糕的決策。即使能夠得到比較充足的資訊,我們也不會永遠注意到資料的偏差性和無關性,或者科學研究的缺陷和誤導性。我們傾向於相信電腦從不犯錯,認為不管我們把什麼樣的垃圾扔進去,電腦都會吐出絕對真理。這種想法不僅存在於外行人的日常生活中,也存在於專業人員嚴肅認真的研究工作中。在流行刊物、電視、互聯網、競選活動、學術期刊、商業會議、法庭,政府聽證會,此類現象屢見不鮮。幾十年前,資料非常稀少、電腦還沒有出現時,研究人員需要努力收集優質資料並進行審慎的思考,然後花費幾個小時甚至幾天的時間從事艱苦的計算工作。現在,面對豐富的資料,研究人員通常不會花費太多的時間對優質資料和垃圾進行區分,或者對合理分析和垃圾科學進行區分。更糟糕的是,我們常常不假思索地認為,我們對大量資料的處理永遠不會出錯。我們匆匆忙忙地根據這些機器發出的夢囈制定決策 —— 比如在衰退過程中增加稅收,將我們一生的積蓄交給一些說得天花亂墜的財務分析師,根據最新的管理理念制定商業決策,用醫療騙術危害我們的健康 —— 更糟糕的是,我們還會放棄心愛的咖啡。羅奈爾得・科斯(Ronald Coase)曾經嘲諷道:“如果你對資料拷打足夠長的時間,它一定會招供。”《簡單統計學》一書考察了幾十個扭曲的結論。只需片刻的思考,你就會發現這些結論的問題。有時,無恥之徒故意用這些說法來誤導我們。有時,天真快樂的研究人員並沒有意識到他們所製造的惡作劇。我寫這本書的目的是説明我們遠離錯誤 —— 包括外部錯誤和自己造成的錯誤。你將學到一些簡單的指導準則,用於識別其他人或者你自己說出的不靠譜的觀點。其他人用資料欺騙我們,我們也經常用資料欺騙自己。我沒找到一本完整而系統的入門書,但這書也許能推開概率和統計學的興趣之門。
转发转发同时评论快速转发评论34分享「微信」扫码分享给这本书评了4.0数据世界的防骗手册《简单统计学》,真不知道为啥要叫这个名字,看起来好像是统计学的小白入门书,其实这是一本大数据时代,识别数据骗局的防骗宝典。
这里面用各种各样的案例和数据给我们展示了数据统计里的陷阱,包括我们都一直推崇的《魔鬼经济学》和《基业长青》,作者也用缜密的推理过程证明了畅销书里的数据是多么的立不住脚跟。
里面还有各种各样的图表扭曲,很多时候,我们在很多报告里看过各种报表,但是细心的话会发现,很多时候报表为了呈现出我们想要的感觉,会在比例尺坐标轴上动很多手脚,用同样的一组数据,完全可以做出两种不同的心里感受。
不得不佩服作者,他上到世界级的经济学家的研究成果,下到一本小书里的例子,都能找到很多让人恍然大悟的陷阱,看完之后,我很大的感触就是,很多时候,我们在乎的是计算结果的准确性,而往往会忽略掉计算过程的迷惑性。未来在看到很多数据报告的时候,这书里面的案例就会经常提醒我 “别忙着相信,看看有没有啥陷阱”。
特别是我们生活在这个数据过剩的时代,可能我们看到的数据,只是人家故意让我们看到的,而很多不能拿上台面的不支持结论的数据,都悄悄的在幕后潜伏着。
细思极恐。8转发同时评论快速转发225分享「微信」扫码分享给这本书评了4.0非常棒的一门统计学著作统计学是一门人人都需要懂一点的学科知识。不同寻常的理论需要更加坚实的证据来证实。本书通过描述一些统计学的偏差和误用,希望读者能破除对数据的迷信,学会基本的统计学常识,从而具备起码的辨别力。诚如书中所言,人们既可以被缺乏理论的数据欺骗,也可以被缺乏数据的理论欺骗。我们既需要理论,也需要数据。仅仅通过搜刮数据寻找模式是不够的。模式需要得到理论的解释,这种理论应该言之有理,而且需要得到新数据的检验。另一方面,在经过可靠数据的检验之前,理论仅仅是一种猜测。可是太多的人相信甚至笃信一些未经科学的验证的理论了,很多时候是人们有了先入为主的理论偏见,然后再从现实社会中寻求支持其理论的数据,现实数据何其庞杂,任何理论都可以从这庞杂的数据中找到偶然随机支持其理论的数据。就像是有人觉得这世界上有鬼神,他就会寻找有鬼神的证据,这世界上所谓的灵异事件还少吗,他总是可以找到支持自己想法的事件。我们其实没必要事事都追寻完美的解决方案,因为在不确定的世界里,最优决策可遇不可求,最不坏的决策才是现实的追求,善用统计学即可达成最不坏的决策。
转发转发同时评论快速转发评论12分享「微信」扫码分享给这本书评了5.0本书全名《简单统计学:如何轻松识破一本正经的胡说八道 》,讲的是如何用统计学来破除日常生活中的谣言和误区。相关、趋势和其他模式本身无法证明任何事情。如果没有合理的解释,任何模式都仅仅是一种模式而已。每一种合理的理论都应该接受新数据的检验。对待数据要仔细很多研究的数据由于马虎或者其他原因是有错误的,最终导致了错误的结果。本书对《魔鬼经济学》中堕胎影响犯罪率,进行了否定,并且找出了原始数据的错误此错误列维特本人也已承认。看图标时的注意事项注意横轴和苏州的的单位,还有是否是从零点画的图,这些都是很重要的细节。需要思考的计算一个很常见的逻辑错误是混淆两种条件性陈述。这里涉及到了贝叶斯公式,检查出阳性的得病概率并不是实际得病的概率。相关与因果关系在统计学中,相关性并不是因果关系的代名词。不管两种事物的关系多么紧密,在做出判断之前,我们都需要一种合理的解释。瑞典的女性死亡率高于哥斯达黎加 —— 因为瑞典的老年女性比较多。伯克利研究生计划录取的女性申请者比较少 —— 因为女性申请了难度比较大的计划。一种手术比另一种手术更加成功 —— 因为它被用于更加轻松的案例。患有胰腺癌的病人比其他病人饮用更多的咖啡 —— 因为其他许多病人存在溃疡,戒掉了咖啡。热手效应只是正常的概率分布。回归均值,表现特比好和特别坏,最后都会向平均值回归。但,别想着一个概率事件连续发生很多次就能提高与他相反事件的概率。缺乏理论的数据仅仅是数据而已如果我们足够努力,即使面对随机生成的数据,我们也可以找到某种模式。不管这种模式多么明显,我们都需要一种合理的理论来解释这种模式。否则,我们找到的仅仅是巧合而已。如果某种理论不合理,应当保持怀疑的态度。如果某种统计结论看上去令人难以置信,不要相信它。如果你对其中的数据和检验进行检查,你通常可以发现一个严重的问题,将结论推翻。缺乏数据的理论仅仅是理论而已人们既可以被缺乏理论的数据欺骗,也可以被缺乏数据的理论欺骗。我们既需要理论,也需要数据。仅仅通过搜刮数据寻找模式是不够的。模式需要得到理论的解释,这种理论应该言之有理,而且需要得到新数据的检验。另一方面,在经过可靠数据的检验之前,理论仅仅是一种猜测。用统计学的思维破除迷信方法一,理论验证,即思想实验,如果真有超能力等神秘事件,那么现在的世界不会是这样。方法二,实验验证,让那些人重复一遍看结果。至少目前还没有能重复的神秘事件。
转发转发同时评论快速转发评论7分享「微信」扫码分享给这本书评了4.0在数字丛林里做个清醒的猿猴 (《简单统计学》读书笔记)注:以下内容为 Deepseek 生成文字,让其先熟悉了一下我之前的笔记的风格,然后直接生成。确实,它比我写的好,而且感觉语言风格还挺像。所以,问题就在于,现在写读书笔记到底是干什么用?如果要是想厘清自己,那还是自己写。如果要是纯为了完成任务,甚至是给别人看,那还是给 AI 更靠点谱。统计学:一场 “由果寻因” 的魔术表演。《简单统计学》这本书,读起来像是一本侦探小说,只不过侦探是数据,凶手是人类的偏见。作者用一句玩笑话总结统计学的本质:“统计学就像比基尼,露出来的部分引人注目,遮住的部分才是关键。” 这话虽俏皮,却戳中了统计学最吊诡的一面 —— 它既能揭示真相,也能编织谎言。书里反复强调一个观点:统计学本身是中立的,但用它的人往往自带 “立场滤镜”。就像菜刀能切菜也能伤人,统计学能解释世界,也能被用来 “定制结论”。比如某保健品广告宣称 “90% 的用户反馈有效”,却绝口不提样本中 80% 是销售代理;再比如某研究用线性回归证明 “每天一杯红酒延寿十年”,却故意忽略被试群体的健康习惯差异。这些案例让我想起老家邻居张大妈的名言:“数据啊,和腌酸菜一样 —— 你想让它啥味儿,它就能是啥味儿。” 作者把统计学滥用归纳为三类 “魔术手法”,堪称 “骗子速成指南”: 数据筛选:专挑顺眼的数字跳舞。书里提到一个经典案例:二战时期,美军统计战机弹孔分布,发现机翼弹孔最多,于是计划加固机翼。但统计学家沃德力排众议,指出 **“看不见的弹孔才致命”—— 那些发动机中弹的飞机根本没机会返航。这就是著名的 “幸存者偏差”。现实中,这种筛选无处不在。比如某互联网大厂宣称 “员工平均年薪 50 万”,实际上高管年薪稀释了上万外包员工的低薪;再比如朋友圈刷屏的 “哈佛研究显示早起的人更成功”,却不说该研究样本全是华尔街精英。作者毒舌吐槽:“用平均值讲故事的人,不是蠢就是坏,毕竟我和马云的财富一平均,我也能进福布斯榜单。” 方法把戏:换件马甲就是新结论。同一组数据,换个统计方法就能得出相反结论。书里举了个荒诞例子:某减肥药试验中,若用 T 检验显示 “效果显著”,改用贝叶斯分析却变成 “证据不足”。更绝的是,研究者还可以通过调整置信区间(比如从 95% 改成 90%),让原本不显著的结果瞬间 “达标”。 这让我想起小区超市的促销套路:原价 20 元的牙膏,先涨到 40 元再打五折,海报赫然写着 “直降 50%!”—— 统计学和营销学,原来师出同门。 因果倒置:把路灯当月亮。书里最颠覆认知的观点是:“相关性不等于因果性,但人类大脑总忍不住脑补剧情”。比如统计发现 “冰淇淋销量越高,溺水人数越多”,真相不过是夏天到了;再比如 “诺贝尔奖得主人均巧克力消耗量高”,实则是富裕国家更爱买巧克力和搞科研。作者调侃道:“要是统计北京地铁客流量和 A 股涨跌,没准能得出‘挤地铁能致富’的结论,建议券商分析师明天就写研报。” 书中最辛辣的章节,当属揭秘学术圈和商业界的 “统计学流水线”。先射箭再画靶:某药企要求分析师 “证明新药降压效果显著”,于是团队试了十种统计模型,终于找到一种 P 值 < 0.05 的方法,其他九种则锁进档案柜;数据美容院:剔除 “异常值” 就像 PS 修图,把身高数据里的姚明删掉,人均身高立刻 “亲民” 不少。因果彩虹屁:某教育机构用聚类分析得出 “报班三年以上孩子情商更高”,却绝口不提这些家庭本就重视教育投资。 作者引用了统计学家 C.R.Rao 的金句:“数据就像垃圾,在产生之前就要想好怎么用它。” 反观现实,太多人是在垃圾堆里淘宝,还非说挖到了金矿。 书的最后一章像本防骗手册,给出三条生存法则。第一,警惕 “单一数字霸权”:看到 “研究表明” 时,先问三个问题:样本多大?对照组在哪?谁资助的研究? 第二,拥抱不确定性:作者建议用置信区间代替 P 值,因为 “P 值 < 0.05 和 0.051 的区别,就像考 59 分和 60 分 —— 前者叫学渣,后者突然就懂人生真谛了?第三,用常识对抗算法:书里有个灵魂拷问 ——“如果统计显示跳楼能治疗抑郁症,你跳吗?” 合上书时,我想起罗振宇某次演讲中的比喻:“这个时代,数据是新的石油,但别忘记石油也能烧死人。”《简单统计学》给我的启示是:统计学不是水晶球,而是照妖镜 —— 照见世界的复杂,也照出解读者的局限。 用书中的话收尾再合适不过:“真正的数据素养,不是学会怎么计算,而是学会什么时候不该计算。” 毕竟,生活不是数学题,而统计学的最高境界,或许是知道何时该放下公式,去菜市场听听大妈怎么用经验主义砍价 —— 那才是人间真实的 “大数据”。
转发转发同时评论快速转发评论3分享「微信」扫码分享给这本书评了5.0数据不会说谎,但是可以人为的用统计学方法去操控结果“当人们犯了错,常说被数据欺骗了。数据不会说谎,是你会错了意,被统计学欺骗了,形成了错误的认知。在不确定的世界里,最优决策可遇不可求,最不坏的决策才是现实的追求,善用统计学即可达成最不坏的决策。本书就是关于统计学的防骗指南。著名经济学家罗纳德・科斯曾说:“如果你对数据拷打足够长的时间,它一定会招供。” 有些人是误用了统计学,得出了错误的结论;有些人 —— 甚至是久负盛名的学者,则是故意用错了统计学,得出了自己想要的结论。无论是何种情况,你都需要擦亮眼睛,不要上当!”
转发转发同时评论快速转发12分享「微信」扫码分享给这本书评了5.0数据泛滥时代的一个救生圈这本书对于当今在数据泛滥时代浮沉的芸芸大众而言,应该算得上一个防止被淹死的救生圈了。书里用大量案例说明一个又一个统计学应用上的错误、花招、骗术。书里说的很多内容对我而言并不陌生,在别的地方、别的书里也见到过、学习过。但这本书用整本书的篇幅来告诉我在生活中,我们会遇到的各种由数据导向的错误结论 —— 不管是无心之失,还是有意为之;并且系统性的分门别类的讲述了这些错误结论的统计特征,非常有助于普通人更好地规避这些陷阱。别以为知道这些道理就能得到正确的思维方式。实际上,尽管我或多或少已经知道很多书里讲述的知识,但书里的案例仍然提示我曾经中招。读了这本书,能很轻易发现一个道理:很多时候,正确的统计学方法和人的思维是不太一样的,我们更容易相信故事叙事,而不擅长理性分析;我们还很容易把相关性和因果性弄混淆;我们很迷信数据,相信理论。所以作者在著作中反复提醒我们关于这些方面可能存在的问题和猫腻。道高一尺魔高一丈。即便读了这本书,我们仍然还是难以保证自己不会上当。毕竟,茫茫多需要依靠发表论文生活和功成名就的人是汪洋大海,而这本书能给我们的,也就只是一个救生圈。不过话说回来,哪怕只是这一个救生圈,也能让我们少吃很多亏呢。个人 4.5 星推荐。
转发转发同时评论快速转发评论1分享「微信」扫码分享给这本书评了5.0读后感2017 年在哈佛大学新生开学典礼上,校长福斯特对新生的致辞中说道:“高等教育最重要目标 —— 确保毕业生能够辨别有人在胡说八道”。当今世界数据异常丰富,要确保毕业生能够辨别有人在胡说八道是一件即重要又艰巨的任务,因为有些人有意或无意的利用数据一本正经的胡说八道,我们必须调整对数据的认知,建立正确的统计思维。一是,注意为了得到具有统计显著性的结果,而对统计数据的微调、篡改和删减。二是,正确认识随机性。我们不断低估随机性在生活中所占比重,没能认识到随机性会生成看上去有意义但实际上毫无意义的模式。人们的认知错误之一就是相信小数定律,我们很容易被那些对无法解释的事情做出解释的说法所引诱。人们的认知错误之二就是德克萨斯神枪手谬误,数据聚集现象无处不在,甚至存在于随机数据之中,如果需要寻找数据聚集模式的原因,当心 “德克萨斯神枪手谬误”(先开枪,后画靶心),这种谬误形式也称为费曼陷阱。德克萨斯神枪手谬误是一种典型的过拟合现象,即先观察数据,然后根据数据提出某种理论,之后再用这种数据验证。三是,正确审视图表。图表的存在非常重要,它可以帮助我们理解数据,进行推理,发现倾向、模式、趋势和关系。有用的图像可以准确而一致地展示数据,帮助我们理解数据。相反,图表垃圾会分散我们的注意力,使我们感到困惑和烦躁。四是,理论与数据并重。一种极端是缺乏理论的数据 —— 那就是在没有基本理论或明确目的的情况下搜刮数据,而不是发现有意义的统计关系。另一个极端是缺乏数据的理论 —— 将半真半假的理论作为事实提出,但却从不用数据对其进行检验。如果一种理论没有得到可靠数据的检验,那么它仅仅是一种猜测。当争议出现时,第一种良方是利用常识,进一步利用科学,不要轻易认为自己是错误的,因为数据并不比思想更加重要。常识是一种稀缺品,尤其是在缺乏 “独立之精神,自由之思想” 时。科学的精神就是质疑、独立、唯一;科学的方法是实证化、定量化、逻辑化。第二种良方是利用新数据,对于过拟合的模型,启用新数据是非常有效的破解手段。第三个良方是比较。比较是实证研究的生命线。不过,请当心肤浅的比较,包括对于大数和小数百分比变化的比较,对于除了随时间增长以外没有其他共同点的事物的比较,以及对于无关数据的比较。这本书阅读时比较轻松,介绍了许多统计学原则,并告诉我们在面对数据时的正确思考方法和处理良方。
转发转发同时评论快速转发评论1分享「微信」扫码分享 - 加载中...