第七部:棋盤上的神之一手
西洋棋考驗的是邏輯,但圍棋考驗的是直覺與大局觀。許多人曾經堅信,冰冷的機器永遠無法理解什麼是「直覺」。
1. 最後的智力堡壘:圍棋
1997 年,IBM 的超級電腦「深藍 (Deep Blue)」擊敗了人類西洋棋世界冠軍卡斯帕洛夫。當時的 AI 主要依靠強大的硬體算力與「暴力搜尋 (Brute-force Search)」——它能在幾秒內窮舉出未來幾十步的所有可能走法。
但在古老的東方遊戲圍棋面前,暴力搜尋徹底失效了。
圍棋的棋盤有 19x19 個交叉點,其合法局面的數量大約是 $10^{170}$,這個數字甚至超過了可觀測宇宙中所有原子的總和!你不可能窮舉出所有的走法。人類棋手在下圍棋時,靠的往往是無法言喻的「盤感(直覺)」與「厚薄(大局觀)」。
即使在深度學習爆發的 2012 年,人工智慧專家們普遍認為,電腦要在圍棋上擊敗人類職業棋手,至少還需要十年甚至二十年的時間。
直到一位熱愛打電動的天才神童,帶著他的公司 DeepMind 登場。
2. 德米斯·哈薩比斯與強化學習
德米斯·哈薩比斯 (Demis Hassabis) 是一位傳奇人物。他 13 歲就是西洋棋大師,17 歲參與設計了經典電玩《主題樂園》,後來又拿下了倫敦大學學院 (UCL) 的認知神經科學博士學位。
他創立了 AI 公司 DeepMind,目標不是為了解決單一問題,而是要「解開智慧的奧秘」。
哈薩比斯認為,動物在自然界中學習生存,不是靠別人拿著幾百萬張照片教牠們,而是透過「嘗試、犯錯、獲得獎勵」的過程。DeepMind 將深度學習與這種生物行為學結合,發展出了強大的「深度強化學習 (Deep Reinforcement Learning)」。
為了驗證這個理論,他們打造了一個圍棋 AI——AlphaGo。
AlphaGo 不像傳統程式那樣寫滿規則。DeepMind 團隊設計了兩個神經網路: 一個叫「策略網路 (Policy Network)」,負責模仿人類的直覺,預測下一步該走哪裡; 另一個叫「價值網路 (Value Network)」,負責評估當前局面的勝率(大局觀)。
一開始,AlphaGo 學習了數萬盤人類高手的棋譜。接著,DeepMind 讓它開始「自我對弈」——它在伺服器裡自己跟自己下了幾千萬盤棋,不斷在犯錯中調整權重,演化出超越人類認知的下法。
3. 首爾的世紀大戰
2016 年 3 月,首爾四季酒店。AlphaGo 迎戰過去十年的圍棋世界統治者、獲得 18 座世界冠軍的韓國九段棋手李世石。
比賽開始前,多數職業棋手與公眾都認為李世石會以 5:0 輕鬆獲勝。
然而,第一局,AlphaGo 穩紮穩打地贏了。整個世界陷入了震驚。
真正載入史冊的是第二局的「第 37 手」。
在棋局中盤,AlphaGo 的機器手臂在棋盤的五線落下一子(黑 37)。在人類幾千年的圍棋定石中,從來沒有人會在這個階段下在那裡,轉播室裡的職業解說員甚至以為機器發生了 Bug(故障)。
李世石看到這一步時,震驚得離開了座位,洗了把臉才回來。
事後分析顯示,這看似荒謬的第 37 手,在幾十手之後,竟然成為了牽制整個中原戰局的絕殺之子。AlphaGo 展現出了一種完全跳脫人類幾千年經驗框架的、原創性的「非人直覺」。
最終,AlphaGo 以 4:1 的比分擊敗了李世石。李世石在第四局神仙般的「第 78 手(神之一手)」成為了人類最後的驕傲與抵抗。
4. 重新定義創造力
AlphaGo 的勝利,遠比當年深藍擊敗西洋棋冠軍來得震撼。因為它證明了,深度神經網路不僅能做苦力的影像辨識,它還能透過不斷的自我學習,展現出高度的戰略眼光與創造力。
DeepMind 後來推出了升級版的 AlphaGo Zero,它完全不學習人類的棋譜,只知道規則,從零開始自己跟自己下棋。結果只花了三天,它就以 100:0 的戰績碾壓了當初擊敗李世石的 AlphaGo 舊版本。
人類幾千年累積的圍棋知識,在機器面前被瞬間解構與超越。
神經網路已經征服了視覺與棋盤邏輯。但人類還剩下最後一道防線,那也是構成人類文明與思想的最核心元素:語言。
下一集(最終回):當 Google 的研究員發明了「注意力機制」,一間名為 OpenAI 的神祕組織,決定用全世界網際網路的文本餵養一個名為 GPT 的語言模型。這將引發一場顛覆全人類社會的生成式 AI 革命。