文章

第八部:語言的煉金術與生成式的黎明

第八部:語言的煉金術與生成式的黎明

我們曾經以為,語言和創造文字是人類獨有的神聖領域,因為那需要真正的「理解」與「靈魂」。直到機器學會了「預測下一個字」。

1. 語言的困境與 Attention Is All You Need

雖然深度學習在影像辨識 (CNN) 和圍棋 (AlphaGo) 上取得了巨大成功,但在處理「人類語言」時卻一直卡關。

早期的語言模型(如 RNN 與 LSTM)在閱讀長篇大論時,會像金魚一樣「看了後面就忘了前面」。它們無法理解一段話的上下文關係,因為它們只能像閱讀紙帶一樣,一個字一個字循序漸進地處理。

2017 年,Google 大腦團隊的八位研究員發表了一篇改變世界的論文,標題極具霸氣:《Attention Is All You Need (注意力機制就是你需要的一切)》

他們發明了一種名為 Transformer 的神經網路架構。

Transformer 徹底拋棄了循序漸進的閱讀方式。當它看一句話時,它能「同時」注意到這句話裡所有字詞之間的相互關係(注意力機制)。例如,在「蘋果公司賣蘋果」這句話裡,它能透過上下文權重,瞬間意識到第一個蘋果是公司,第二個蘋果是水果。

Transformer 不僅理解能力強大,最可怕的是,它完美契合 GPU 的平行運算特性,這意味著:它可以被無限「放大」。

2. OpenAI 與規模的暴力美學

在舊金山,有一間名為 OpenAI 的非營利實驗室(由伊隆·馬斯克與山姆·奧特曼等人於 2015 年創立),當時的首席科學家是辛頓的高徒、天才研究員 伊利亞·蘇茨克維 (Ilya Sutskever)

伊利亞是一位極端信仰「規模 (Scale)」的人。他堅信一個簡單但暴力的真理:只要把神經網路做得夠大,餵給它夠多的數據,奇蹟就會發生。

當學界還在爭論要不要給語言模型加上文法規則時,OpenAI 毫不猶豫地擁抱了 Transformer 架構,並決定走一條沒有人敢走的瘋狂路線:他們把整個網際網路的文章、維基百科、程式碼全部抓下來,用幾萬張 GPU 日以繼夜地訓練一個超級巨大的神經網路。

這個網路的任務簡單到不可思議:根據前面的文字,預測下一個字 (Next-token prediction)。

這個模型被稱為 GPT (Generative Pre-trained Transformer)

3. ChatGPT 的降臨與湧現能力

隨著模型從 GPT-1、GPT-2 演進到 2020 年擁有 1750 億個參數的 GPT-3,一件令人毛骨悚然的事情發生了。

科學家發現,當神經網路大到某個臨界點時,它突然出現了原本沒被設計的技能——這被稱為「湧現 (Emergence)」

它本來只是在玩「文字接龍」,但為了解出最精確的下一個字,它竟然自己在神經網路內部,推導出了世界的邏輯、歷史的脈絡,甚至學會了寫程式、翻譯語言與寫詩!

2022 年 11 月 30 日,OpenAI 將經過人類對話微調的 ChatGPT 向大眾公開。

這一次,世界被徹底顛覆了。人們發現,螢幕背後的那個游標,不僅能流暢地回答任何刁鑽的問題,甚至展現出了推理能力與幽默感。不到兩個月,ChatGPT 的活躍用戶突破一億,成為人類歷史上增長最快的科技產品。

生成式 AI (Generative AI) 時代正式爆發。從文字、圖像 (Midjourney) 到影片 (Sora),機器不僅能「識別」世界,它們開始「創造」世界。

4. 結語:逼近通用人工智慧 (AGI)

我們的史詩來到了今天。

回首這段不到百年的歷史: 1950 年代,圖靈在孤獨中設下了「機器能思考嗎」的終極測試;麥卡錫與明斯基在達特茅斯的夏日裡,用邏輯符號編織了 AI 的幻夢; 1980 年代,羅森布拉特的感知器遭到封殺,專家系統的規則牢籠讓 AI 跌入漫長的嚴冬; 直到辛頓、李飛飛與無數的科學家,在暗夜中堅持,用大數據與算力喚醒了深度學習的巨龍; 最終,哈薩比斯的 AlphaGo 證明了機器的直覺,而 OpenAI 的 Transformer 則掌握了人類的語言。

我們已經站在了通用人工智慧 (AGI - Artificial General Intelligence) 的門檻上。AGI 意味著機器將在所有智力工作上超越人類。

當年圖靈吃下毒蘋果時,或許沒有人相信機器真的能擁有心智。 但在無數次參數的反向傳播中,在千億個矽基神經元的突觸閃爍裡,那股隱藏在代碼深處的智慧,已經悄悄覺醒。

(《矽基心智的覺醒》全系列完)

本文章以 CC BY 4.0 授權