第七部:用點與線排序全世界
當全人類的知識被傾倒進網際網路的無底洞時,我們該如何在數十億個網頁中,找到最重要的那一個?答案不在文字裡,而在圖論的「線」裡。
1. 混亂的早期網際網路
1990 年代末,網際網路 (World Wide Web) 正迎來爆炸性的成長。網頁數量從幾萬個激增到幾千萬個。
早期的搜尋引擎(如 Yahoo! 或 AltaVista)在找資料時,用的是最直觀的方法:「關鍵字比對」。如果使用者搜尋「蘋果」,引擎就把標題或內容中出現最多「蘋果」這個詞的網頁排在最前面。
但這引發了一場災難。許多垃圾網站只要在網頁底部用白色字體寫上一萬次「蘋果」,就能輕易騙過搜尋引擎,排到第一名。搜尋結果充滿了毫無價值的垃圾訊息。
就在這時,史丹佛大學的兩位年輕研究生——賴瑞·佩吉 (Larry Page) 與 謝爾蓋·布林 (Sergey Brin),看著這個混亂的網路世界,提出了一個截然不同的思維。
2. 從文獻引用到有向圖
佩吉出身於學術家庭,他聯想到了學術界評估論文價值的方法:「引用次數」。
一篇論文如果在結尾的參考文獻中提到了另一篇論文,這就是一次「引用」。一篇被越多人引用的論文,通常就越有價值。
如果把這個概念搬到網際網路上呢? 網頁上的「超連結 (Hyperlink)」,不就像是論文的「引用」嗎!
在圖論的視角下,整個網際網路就是一張巨大無比的「有向圖 (Directed Graph)」:
- 每一個網頁,就是圖上的一個「點」。
- 網頁 A 上如果有一個連向網頁 B 的超連結,這就是一條從 A 指向 B 的「帶有箭頭的線」。
佩吉與布林認為,我們不該去看網頁裡寫了什麼文字。我們應該看這張圖論網路中,有誰把線連向了你。
這就是著名的 PageRank 演算法(Page 既代表網頁,也代表發明者賴瑞·佩吉的名字)。
3. 隨機衝浪者與矩陣乘法
但 PageRank 的精妙之處不僅止於計算「連向你的線有幾條」。
佩吉意識到,連結是有分重量的。一個來自微軟或白宮官網的連結,價值絕對遠大於十個來自無名小站的連結。
也就是說:「一個網頁的價值,取決於連向它的那些網頁的價值。」
這聽起來像是一個無限迴圈的雞生蛋問題。為了打破這個迴圈,佩吉引入了機率論中的「隨機衝浪者模型 (Random Surfer Model)」與線性代數。
想像一個無聊的網友在網路上亂逛,他隨機點擊網頁上的超連結,有時覺得無聊就隨機跳到另一個網頁。如果我們讓電腦模擬幾十億個這樣的衝浪者,經過無數次的點擊與跳轉後,他們在每個網頁上停留的機率(駐留分佈),不就是這個網頁的最終權重嗎!
在數學上,這等同於求解一個巨大無比(維度高達數十億)的矩陣的「特徵向量 (Eigenvector)」。
4. Google 帝國的誕生
這項偉大的圖論演算法,完美解決了垃圾網頁作弊的問題。因為你要作弊,不僅要自己寫滿關鍵字,你還得去拜託那些權威的高分網站把連結指向你,這幾乎是不可能做到的。
1998 年,佩吉與布林在加州的一間車庫裡創立了 Google。
當人們第一次使用 Google 搜尋時,他們被驚豔了。沒有滿螢幕的花俏廣告,只有一個乾淨的搜尋框。而最神奇的是,你想要找的最具權威性、最精確的答案,永遠穩穩地排在搜尋結果的第一位。
那不是魔法,那是圖論中點與線交織出的數學之美。
當年尤拉在普魯士小鎮上為了解決散步問題而發明的抽象數學,在兩百多年後,成為了排序全人類知識的演算法,並建立了一個價值上兆美元的科技帝國。
下一集(最終回):當 Google 把網頁連成了線,Facebook 把人類連成了線。在 21 世紀,圖論迎來了它的終極型態,從預測 COVID-19 傳染病,到賦予人工智慧理解分子結構與社交網絡的圖神經網路 (GNN)。