第五部:暗夜裡的微光——深度學習的三劍客
真正的科學革命,往往是由那些在最黑暗的時代裡,依然不願向主流妥協的「瘋子」所點燃的。
1. 被邊緣化的學術毒藥
1990 年代,人工智慧正處於第二次寒冬的冰河期。當時主導機器學習領域的,是一種基於嚴謹統計學與數學理論的演算法,稱為「支持向量機 (Support Vector Machine, SVM)」。
SVM 的數學推導優美無瑕,效果也很好。在這種氣氛下,曾經在 1960 年代被明斯基無情擊潰的「類神經網路 (Neural Networks)」,被主流學界視為一場笑話。
當時的學者認為,神經網路就像個黑盒子,沒有人知道裡面那成千上萬個權重是怎麼運作的。更糟糕的是,當你把網路加深到三、四層時,它就完全學不到任何東西了。
如果你在當時的學術研討會上發表神經網路的論文,通常會被拒絕;如果你堅持研究這個領域,你可能連大學的終身教職都拿不到。
但在這片死寂之中,有三位學者選擇了堅持。他們被後人尊稱為「深度學習的三劍客」:傑弗瑞·辛頓 (Geoffrey Hinton)、楊立昆 (Yann LeCun) 與 約書亞·班吉歐 (Yoshua Bengio)。
2. 辛頓與反向傳播的救贖
傑弗瑞·辛頓 (Geoffrey Hinton) 出生於英國的學霸家族(他的一位曾曾祖父是著名的布爾代數發明者喬治·布爾)。辛頓是一位心理學家兼計算機科學家,他始終堅信,要讓機器擁有智慧,唯一的道路就是模仿人類大腦。
1986 年,辛頓與同事發表了一篇突破性的論文,重新將一個被埋沒的數學演算法帶回了舞台——「反向傳播演算法 (Backpropagation)」。
回想一下羅森布拉特的單層感知器,它之所以失敗,是因為當網路出錯時,它不知道該怎麼調整深層的權重。
辛頓的反向傳播解決了這個問題。它就像是老師在改考卷:當最後一層的神經元給出錯誤答案時,這個「誤差」會像微積分中的連鎖律一樣,一層一層地往回傳遞。每一個神經元都會根據自己對這個錯誤的「責任大小」,微調自己的權重。
經過成千上萬次的「犯錯 $\rightarrow$ 誤差回傳 $\rightarrow$ 微調」,這個深不見底的黑盒子,竟然真的學會了正確的特徵!
3. 楊立昆與看懂郵遞區號的機器
辛頓的學生、法國天才楊立昆 (Yann LeCun) 將這個概念發揚光大。
他受到了生物學家對貓咪視覺皮層研究的啟發,發明了一種專門用來處理影像的神經網路——「卷積神經網路 (Convolutional Neural Network, CNN)」。
1989 年,楊立昆在貝爾實驗室開發出了名為 LeNet-5 的系統。他將美國郵政署收集的手寫數字信封餵給機器,透過 CNN 與反向傳播演算法,這台機器成功學會了辨識手寫的郵遞區號!這項技術後來被全美國的銀行用來自動讀取支票上的數字。
那是神經網路在黑暗時代中,極少數成功的商業應用。
4. 黎明前的最後一次黑暗
然而,命運又開了一個玩笑。
儘管有 LeNet 的局部成功,但在進入 2000 年代後,神經網路再次遭遇了瓶頸。當科學家試圖把網路變得更深(深度學習)以處理更複雜的彩色圖片時,發現「誤差」在回傳的過程中,會變得越來越小,直到消失不見——這被稱為「梯度消失問題」。
神經網路又被卡住了。主流學界徹底失去了耐心,經費再次中斷。辛頓、楊立昆與堅持機器翻譯神經模型的班吉歐 (Yoshua Bengio) 只能依靠加拿大政府的一筆小型邊緣研究基金(CIFAR),在嚴寒中抱團取暖,維持著神經網路最後的香火。
他們堅信,神經網路的數學沒有錯,缺的只是兩樣東西:「足夠多的數據」 與 「足夠強的算力」。
時間來到了 2012 年。一場震撼全球科技界的完美風暴,即將在多倫多大學的一個實驗室裡被引爆。
下一集:當辛頓的學生把神經網路搬上了專門處理遊戲圖形的顯示卡 (GPU),並餵給它一千萬張照片後,一聲巨響,深度學習的大爆炸發生了。