第四部：黑啤酒、豌豆與假設檢定的誕生

發布於 2026/04/04

作者

8 分鐘閱讀

第四部：黑啤酒、豌豆與假設檢定的誕生

當我們面對混亂的真實世界，我們該如何分辨眼前的結果是「真理」，還是單純的「運氣好」？

進入 19 世紀下半葉，第二次工業革命如火如荼地展開，現代生物學與農業也面臨了前所未有的挑戰。人們不再只是想知道「國家平均壽命是多少」，而是想解答更具體的問題：「這種肥料真的有效嗎？」「高個子的父母一定會生出高個子的孩子嗎？」

英國博學家法蘭西斯·高爾頓 (Francis Galton)（他也是演化論之父達爾文的表弟）對遺傳學充滿狂熱。他測量了成千上萬顆甜豌豆的尺寸，以及無數對人類父子的身高。

他發現了一個奇怪的現象：特別高的父親，生出的兒子雖然也偏高，但通常會比父親矮一點；特別矮的父親，生出的兒子通常會比父親高一點。大自然似乎有一種無形的力量，不斷把極端拉回平庸。高爾頓將這個現象命名為「迴歸均值 (Regression to the mean)」。

為了量化這種關係，他發明了「相關係數」的雛形。統計學開始從單一變數的機率，進階到研究「變數與變數之間的關係」。

高爾頓雖然看見了趨勢，但真正的統計學革命，卻發生在一家釀酒廠裡。

20 世紀初，愛爾蘭都柏林的健力士 (Guinness) 啤酒廠為了維持黑啤酒的頂級品質，聘請了一批牛津與劍橋畢業的化學家來監控大麥與酵母的品質。其中一位名叫威廉·西利·戈塞 (William Sealy Gosset)。

戈塞面臨了一個現實的問題。過去數學家們（如伯努利）引以為傲的「大數法則」與「常態分佈」，都需要成千上萬的龐大數據才能發揮作用。但在啤酒廠裡，檢驗每一批大麥都需要成本，戈塞每次能抽樣的樣本數往往只有個位數（例如 5 或 10 個）。在這麼小的樣本下，常態分佈會嚴重失真。

如果抽樣結果顯示這批麥芽品質不佳，到底是真的不佳，還是剛好抽到幾顆爛麥芽（運氣不好）？

為了解決小樣本的檢定問題，戈塞利用下班時間苦心鑽研，終於推導出了專門處理小樣本的機率分佈。但因為健力士啤酒廠禁止員工發表可能洩漏商業機密的論文，戈塞只好使用筆名 「Student（學生）」 發表了這項研究。

這就是現代統計學課本裡一定會教的 「Student’s t-檢定 (Student’s t-test)」。戈塞為人類提供了一套在「資訊不足」的情況下，依然能做出科學決策的強大工具。

將高爾頓的相關性與戈塞的 t-檢定融會貫通，並建立起現代統計學帝國的，是英國天才數學家羅納德·費雪 (Ronald Fisher)。

1919 年，費雪來到洛桑農業試驗站工作。他面對的是堆積如山、長達幾十年的農作物產量與肥料數據。在農田裡，影響產量的因素太多了：昨天下雨、今天的陽光、這塊地原本的土壤肥力。如果你用了 A 肥料，產量比 B 肥料高了 10%，你怎麼證明這是 A 肥料的功勞，而不是這塊地本來就比較肥沃？

為了解決這個問題，費雪發明了「實驗設計 (Experimental Design)」與「變異數分析 (ANOVA)」。他提出了一種徹底顛覆邏輯的思維方式：假設檢定 (Hypothesis Testing)。

費雪說：我們不要去證明「A 肥料有效」。相反地，我們先假設一個「虛無假設 (Null Hypothesis)」——假設 A 肥料根本沒用，產量的差異純粹是機率（運氣）造成的。

接著，我們計算在這個假設下，出現目前產量差異的「機率」有多大。如果這個機率小於 5%（這也就是著名的 $p < 0.05$），我們就有理由說：「單憑運氣發生這種事的機率實在太低了，所以我拒絕相信這是運氣，A 肥料一定真的有效！」

費雪的 $p$ 值與假設檢定，徹底改變了人類做科學研究的方式。

從此以後，無論是測試新的癌症藥物、評估新的教學方法，還是分析心理學實驗，科學家們不再各說各話。機率與統計學成為了全人類共通的「測謊機」。任何宣稱有效的理論，都必須在統計學的法庭上，證明自己不是單純的運氣。

從古羅馬丟擲羊距骨的占卜，到費雪農田裡的 $p$ 值，機率終於從「計算可能性」的賭徒工具，進化成了「從數據中挖掘絕對真理」的科學利器。

下一集，我們將看見這座宏偉的統計學大廈，曾經面臨過一次邏輯崩塌的危機。20 世紀中葉的數學家們，必須重新定義什麼是「長度與體積」，才能為隨機性打下最堅實的地基——「測度論」。

本文章以 CC BY 4.0 授權

熱門標籤