文章

第八部:資訊時代與人工智慧的機率心智

第八部:資訊時代與人工智慧的機率心智

當機率論走過了賭場、農田與華爾街,最終,它成為了賦予機器「智慧」的靈魂。

1. 什麼是資訊?夏農的資訊熵

故事進入 20 世紀中葉,人類正準備迎接數位時代。電報、電話與早期的電腦開始出現。工程師們面臨一個本質的問題:我們該如何衡量「資訊」的多寡?

一篇 1000 字的廢話,和一句 10 字的國家機密,哪一個包含的資訊量更大?

為了解決這個問題,被譽為「資訊理論之父」的天才工程師克勞德·夏農 (Claude Shannon),在 1948 年發表了劃時代的論文。他巧妙地借用了熱力學中代表混亂程度的「熵 (Entropy)」概念,並將其與機率論結合,提出了「資訊熵 (Information Entropy)」

夏農提出了一個極度深刻的觀點:資訊的本質,就是「不確定性的消除」。

如果我告訴你「明天太陽會從東邊升起」,這句話發生的機率是 100%,它完全沒有消除任何不確定性,所以它的資訊量是 0。 但如果我告訴你「明天的樂透頭獎號碼是…」,這個事件發生的機率極低,充滿了極大的不確定性。當這個不確定性被揭曉時,它所帶來的「資訊量」就是極大的。

透過機率分佈,夏農將抽象的「資訊」轉化為可以被精確計算的 bits(位元)。沒有這項機率與通訊的結合,就沒有今天的互聯網、手機通訊與影片壓縮。

2. 貝氏定理的逆襲

在資訊時代全面爆發的同時,統計學界也發生了一場靜悄悄的革命。

在我們之前的第四部中,費雪等人確立了基於頻率的「假設檢定(頻率學派)」。頻率學派認為,機率是事物客觀存在的屬性(例如硬幣出現正面的機率就是客觀的 50%)。

但有一種古老且被冷落的理論,被稱為「貝氏推論 (Bayesian Inference)」。它是 18 世紀由一位名叫托馬斯·貝氏 (Thomas Bayes) 的牧師提出的。

貝氏學派認為:機率不是客觀的頻率,而是我們「主觀信念的強度」。

貝氏定理的公式非常簡單: \(P(A|B) = \frac{P(B|A) P(A)}{P(B)}\)

它的哲學意義是:我們對這個世界一開始會有一個主觀的猜測(先驗機率 $P(A)$)。當我們觀察到新的數據或證據 $B$ 時,我們就可以利用這個公式,去「更新」我們的猜測,得到一個更準確的認知(後驗機率 $P(AB)$)。

在過去,因為貝氏計算涉及大量的積分與主觀假設,它一直被主流統計學派邊緣化。

3. 機器的學習與人工智慧的靈魂

到了 21 世紀,隨著電腦算力呈指數級暴增,貝氏推論迎來了史詩級的逆襲。為什麼?因為貝氏定理的「不斷接收新數據,更新舊認知」的過程,這不就是我們所謂的「學習」嗎!

現代的人工智慧 (AI)機器學習 (Machine Learning),其核心運作邏輯幾乎都建立在機率論與統計學的基礎上。

當你在教神經網路辨識一隻貓時,AI 其實並不是像人類一樣「看懂」了貓。它是透過成千上萬張圖片的訓練,在龐大的參數空間中,利用統計模型與貝氏推論,找出一組「當輸入這些像素時,最有可能(機率最高)是一隻貓」的參數。

從垃圾郵件過濾(單純貝式分類器)、語音辨識(隱馬可夫模型),到今天強大的大型語言模型(LLM),它們本質上都是在做一件事:計算在給定前文的條件下,下一個字詞出現的「最大機率」。

4. 結語:與不確定性共舞

我們的史詩來到了終點。

回顧這段長達數百年的歷史: 16 世紀的卡爾達諾在酒館裡,第一次意識到骰子背後隱藏著可以計算的樣本空間; 17 世紀的帕斯卡與哈雷,用期望值為死亡定價,創立了保險業; 18 世紀的伯努利與高斯,用大數法則與鐘形曲線,在社會的混亂中找到了統計的秩序; 20 世紀的柯爾莫哥洛夫與馮·諾伊曼,用測度論與賽局理論,將隨機性變成了最嚴謹的數學與經濟博弈; 直到今天,夏農與貝氏讓機率成為了資訊的載體與人工智慧的心智。

人類之所以偉大,不在於我們能全知全能地預見未來;而在於當我們面對宇宙的未知與混亂時,我們發明了「機率與統計」。

透過這門科學,我們學會了如何在不確定的世界中,做出最理性的抉擇。

(《隨機的秩序》全系列完)

本文章以 CC BY 4.0 授權