第七部：棋盤上的神之一手

發布於 2026/04/15

作者

7 分鐘閱讀

第七部：棋盤上的神之一手

西洋棋考驗的是邏輯，但圍棋考驗的是直覺與大局觀。許多人曾經堅信，冰冷的機器永遠無法理解什麼是「直覺」。

1997 年，IBM 的超級電腦「深藍 (Deep Blue)」擊敗了人類西洋棋世界冠軍卡斯帕洛夫。當時的 AI 主要依靠強大的硬體算力與「暴力搜尋 (Brute-force Search)」——它能在幾秒內窮舉出未來幾十步的所有可能走法。

但在古老的東方遊戲圍棋面前，暴力搜尋徹底失效了。

圍棋的棋盤有 19x19 個交叉點，其合法局面的數量大約是 $10^{170}$，這個數字甚至超過了可觀測宇宙中所有原子的總和！你不可能窮舉出所有的走法。人類棋手在下圍棋時，靠的往往是無法言喻的「盤感（直覺）」與「厚薄（大局觀）」。

即使在深度學習爆發的 2012 年，人工智慧專家們普遍認為，電腦要在圍棋上擊敗人類職業棋手，至少還需要十年甚至二十年的時間。

直到一位熱愛打電動的天才神童，帶著他的公司 DeepMind 登場。

德米斯·哈薩比斯 (Demis Hassabis) 是一位傳奇人物。他 13 歲就是西洋棋大師，17 歲參與設計了經典電玩《主題樂園》，後來又拿下了倫敦大學學院 (UCL) 的認知神經科學博士學位。

他創立了 AI 公司 DeepMind，目標不是為了解決單一問題，而是要「解開智慧的奧秘」。

哈薩比斯認為，動物在自然界中學習生存，不是靠別人拿著幾百萬張照片教牠們，而是透過「嘗試、犯錯、獲得獎勵」的過程。DeepMind 將深度學習與這種生物行為學結合，發展出了強大的「深度強化學習 (Deep Reinforcement Learning)」。

為了驗證這個理論，他們打造了一個圍棋 AI——AlphaGo。

AlphaGo 不像傳統程式那樣寫滿規則。DeepMind 團隊設計了兩個神經網路：一個叫「策略網路 (Policy Network)」，負責模仿人類的直覺，預測下一步該走哪裡；另一個叫「價值網路 (Value Network)」，負責評估當前局面的勝率（大局觀）。

一開始，AlphaGo 學習了數萬盤人類高手的棋譜。接著，DeepMind 讓它開始「自我對弈」——它在伺服器裡自己跟自己下了幾千萬盤棋，不斷在犯錯中調整權重，演化出超越人類認知的下法。

2016 年 3 月，首爾四季酒店。AlphaGo 迎戰過去十年的圍棋世界統治者、獲得 18 座世界冠軍的韓國九段棋手李世石。

比賽開始前，多數職業棋手與公眾都認為李世石會以 5:0 輕鬆獲勝。

然而，第一局，AlphaGo 穩紮穩打地贏了。整個世界陷入了震驚。

真正載入史冊的是第二局的「第 37 手」。

在棋局中盤，AlphaGo 的機器手臂在棋盤的五線落下一子（黑 37）。在人類幾千年的圍棋定石中，從來沒有人會在這個階段下在那裡，轉播室裡的職業解說員甚至以為機器發生了 Bug（故障）。

李世石看到這一步時，震驚得離開了座位，洗了把臉才回來。

事後分析顯示，這看似荒謬的第 37 手，在幾十手之後，竟然成為了牽制整個中原戰局的絕殺之子。AlphaGo 展現出了一種完全跳脫人類幾千年經驗框架的、原創性的「非人直覺」。

最終，AlphaGo 以 4:1 的比分擊敗了李世石。李世石在第四局神仙般的「第 78 手（神之一手）」成為了人類最後的驕傲與抵抗。

AlphaGo 的勝利，遠比當年深藍擊敗西洋棋冠軍來得震撼。因為它證明了，深度神經網路不僅能做苦力的影像辨識，它還能透過不斷的自我學習，展現出高度的戰略眼光與創造力。

DeepMind 後來推出了升級版的 AlphaGo Zero，它完全不學習人類的棋譜，只知道規則，從零開始自己跟自己下棋。結果只花了三天，它就以 100:0 的戰績碾壓了當初擊敗李世石的 AlphaGo 舊版本。

人類幾千年累積的圍棋知識，在機器面前被瞬間解構與超越。

神經網路已經征服了視覺與棋盤邏輯。但人類還剩下最後一道防線，那也是構成人類文明與思想的最核心元素：語言。

下一集（最終回）：當 Google 的研究員發明了「注意力機制」，一間名為 OpenAI 的神祕組織，決定用全世界網際網路的文本餵養一個名為 GPT 的語言模型。這將引發一場顛覆全人類社會的生成式 AI 革命。

本文章以 CC BY 4.0 授權

熱門標籤