第五部：暗夜裡的微光——深度學習的三劍客

發布於 2026/04/13

作者

7 分鐘閱讀

真正的科學革命，往往是由那些在最黑暗的時代裡，依然不願向主流妥協的「瘋子」所點燃的。

1990 年代，人工智慧正處於第二次寒冬的冰河期。當時主導機器學習領域的，是一種基於嚴謹統計學與數學理論的演算法，稱為「支持向量機 (Support Vector Machine, SVM)」。

SVM 的數學推導優美無瑕，效果也很好。在這種氣氛下，曾經在 1960 年代被明斯基無情擊潰的「類神經網路 (Neural Networks)」，被主流學界視為一場笑話。

當時的學者認為，神經網路就像個黑盒子，沒有人知道裡面那成千上萬個權重是怎麼運作的。更糟糕的是，當你把網路加深到三、四層時，它就完全學不到任何東西了。

如果你在當時的學術研討會上發表神經網路的論文，通常會被拒絕；如果你堅持研究這個領域，你可能連大學的終身教職都拿不到。

但在這片死寂之中，有三位學者選擇了堅持。他們被後人尊稱為「深度學習的三劍客」：傑弗瑞·辛頓 (Geoffrey Hinton)、楊立昆 (Yann LeCun) 與約書亞·班吉歐 (Yoshua Bengio)。

傑弗瑞·辛頓 (Geoffrey Hinton) 出生於英國的學霸家族（他的一位曾曾祖父是著名的布爾代數發明者喬治·布爾）。辛頓是一位心理學家兼計算機科學家，他始終堅信，要讓機器擁有智慧，唯一的道路就是模仿人類大腦。

1986 年，辛頓與同事發表了一篇突破性的論文，重新將一個被埋沒的數學演算法帶回了舞台——「反向傳播演算法 (Backpropagation)」。

回想一下羅森布拉特的單層感知器，它之所以失敗，是因為當網路出錯時，它不知道該怎麼調整深層的權重。

辛頓的反向傳播解決了這個問題。它就像是老師在改考卷：當最後一層的神經元給出錯誤答案時，這個「誤差」會像微積分中的連鎖律一樣，一層一層地往回傳遞。每一個神經元都會根據自己對這個錯誤的「責任大小」，微調自己的權重。

經過成千上萬次的「犯錯 $\rightarrow$ 誤差回傳 $\rightarrow$ 微調」，這個深不見底的黑盒子，竟然真的學會了正確的特徵！

辛頓的學生、法國天才楊立昆 (Yann LeCun) 將這個概念發揚光大。

他受到了生物學家對貓咪視覺皮層研究的啟發，發明了一種專門用來處理影像的神經網路——「卷積神經網路 (Convolutional Neural Network, CNN)」。

1989 年，楊立昆在貝爾實驗室開發出了名為 LeNet-5 的系統。他將美國郵政署收集的手寫數字信封餵給機器，透過 CNN 與反向傳播演算法，這台機器成功學會了辨識手寫的郵遞區號！這項技術後來被全美國的銀行用來自動讀取支票上的數字。

那是神經網路在黑暗時代中，極少數成功的商業應用。

然而，命運又開了一個玩笑。

儘管有 LeNet 的局部成功，但在進入 2000 年代後，神經網路再次遭遇了瓶頸。當科學家試圖把網路變得更深（深度學習）以處理更複雜的彩色圖片時，發現「誤差」在回傳的過程中，會變得越來越小，直到消失不見——這被稱為「梯度消失問題」。

神經網路又被卡住了。主流學界徹底失去了耐心，經費再次中斷。辛頓、楊立昆與堅持機器翻譯神經模型的班吉歐 (Yoshua Bengio) 只能依靠加拿大政府的一筆小型邊緣研究基金（CIFAR），在嚴寒中抱團取暖，維持著神經網路最後的香火。

他們堅信，神經網路的數學沒有錯，缺的只是兩樣東西：「足夠多的數據」 與 「足夠強的算力」。

時間來到了 2012 年。一場震撼全球科技界的完美風暴，即將在多倫多大學的一個實驗室裡被引爆。

下一集：當辛頓的學生把神經網路搬上了專門處理遊戲圖形的顯示卡 (GPU)，並餵給它一千萬張照片後，一聲巨響，深度學習的大爆炸發生了。

本文章以 CC BY 4.0 授權

熱門標籤