第四部:黑啤酒、豌豆與假設檢定的誕生
當我們面對混亂的真實世界,我們該如何分辨眼前的結果是「真理」,還是單純的「運氣好」?
1. 達爾文表弟的煩惱:迴歸均值
進入 19 世紀下半葉,第二次工業革命如火如荼地展開,現代生物學與農業也面臨了前所未有的挑戰。人們不再只是想知道「國家平均壽命是多少」,而是想解答更具體的問題:「這種肥料真的有效嗎?」「高個子的父母一定會生出高個子的孩子嗎?」
英國博學家法蘭西斯·高爾頓 (Francis Galton)(他也是演化論之父達爾文的表弟)對遺傳學充滿狂熱。他測量了成千上萬顆甜豌豆的尺寸,以及無數對人類父子的身高。
他發現了一個奇怪的現象:特別高的父親,生出的兒子雖然也偏高,但通常會比父親矮一點;特別矮的父親,生出的兒子通常會比父親高一點。大自然似乎有一種無形的力量,不斷把極端拉回平庸。高爾頓將這個現象命名為「迴歸均值 (Regression to the mean)」。
為了量化這種關係,他發明了「相關係數」的雛形。統計學開始從單一變數的機率,進階到研究「變數與變數之間的關係」。
2. 健力士啤酒廠的神祕化學家
高爾頓雖然看見了趨勢,但真正的統計學革命,卻發生在一家釀酒廠裡。
20 世紀初,愛爾蘭都柏林的健力士 (Guinness) 啤酒廠為了維持黑啤酒的頂級品質,聘請了一批牛津與劍橋畢業的化學家來監控大麥與酵母的品質。其中一位名叫威廉·西利·戈塞 (William Sealy Gosset)。
戈塞面臨了一個現實的問題。過去數學家們(如伯努利)引以為傲的「大數法則」與「常態分佈」,都需要成千上萬的龐大數據才能發揮作用。但在啤酒廠裡,檢驗每一批大麥都需要成本,戈塞每次能抽樣的樣本數往往只有個位數(例如 5 或 10 個)。在這麼小的樣本下,常態分佈會嚴重失真。
如果抽樣結果顯示這批麥芽品質不佳,到底是真的不佳,還是剛好抽到幾顆爛麥芽(運氣不好)?
為了解決小樣本的檢定問題,戈塞利用下班時間苦心鑽研,終於推導出了專門處理小樣本的機率分佈。但因為健力士啤酒廠禁止員工發表可能洩漏商業機密的論文,戈塞只好使用筆名 「Student(學生)」 發表了這項研究。
這就是現代統計學課本裡一定會教的 「Student’s t-檢定 (Student’s t-test)」。戈塞為人類提供了一套在「資訊不足」的情況下,依然能做出科學決策的強大工具。
3. 羅納德·費雪與終極的「測謊機」
將高爾頓的相關性與戈塞的 t-檢定融會貫通,並建立起現代統計學帝國的,是英國天才數學家羅納德·費雪 (Ronald Fisher)。
1919 年,費雪來到洛桑農業試驗站工作。他面對的是堆積如山、長達幾十年的農作物產量與肥料數據。在農田裡,影響產量的因素太多了:昨天下雨、今天的陽光、這塊地原本的土壤肥力。如果你用了 A 肥料,產量比 B 肥料高了 10%,你怎麼證明這是 A 肥料的功勞,而不是這塊地本來就比較肥沃?
為了解決這個問題,費雪發明了「實驗設計 (Experimental Design)」與「變異數分析 (ANOVA)」。他提出了一種徹底顛覆邏輯的思維方式:假設檢定 (Hypothesis Testing)。
費雪說:我們不要去證明「A 肥料有效」。相反地,我們先假設一個「虛無假設 (Null Hypothesis)」——假設 A 肥料根本沒用,產量的差異純粹是機率(運氣)造成的。
接著,我們計算在這個假設下,出現目前產量差異的「機率」有多大。如果這個機率小於 5%(這也就是著名的 $p < 0.05$),我們就有理由說:「單憑運氣發生這種事的機率實在太低了,所以我拒絕相信這是運氣,A 肥料一定真的有效!」
4. 科學界的黃金標準
費雪的 $p$ 值與假設檢定,徹底改變了人類做科學研究的方式。
從此以後,無論是測試新的癌症藥物、評估新的教學方法,還是分析心理學實驗,科學家們不再各說各話。機率與統計學成為了全人類共通的「測謊機」。任何宣稱有效的理論,都必須在統計學的法庭上,證明自己不是單純的運氣。
從古羅馬丟擲羊距骨的占卜,到費雪農田裡的 $p$ 值,機率終於從「計算可能性」的賭徒工具,進化成了「從數據中挖掘絕對真理」的科學利器。
下一集,我們將看見這座宏偉的統計學大廈,曾經面臨過一次邏輯崩塌的危機。20 世紀中葉的數學家們,必須重新定義什麼是「長度與體積」,才能為隨機性打下最堅實的地基——「測度論」。