人工智能的核心,不在“智能”,而在于它其實是一臺復(fù)雜的、矩陣乘法驅(qū)動的壓縮與預(yù)測機器。
它的“神經(jīng)網(wǎng)絡(luò)”,不是腦神經(jīng),不生電,不會痛,它只是層層函數(shù)、堆堆參數(shù)。數(shù)十億乃至數(shù)萬億的浮點權(quán)重,在一場場矩陣乘法中計算出下一個字、下一個圖像像素、下一幀蛋白質(zhì)的結(jié)構(gòu)。
“模型”,并不是有意識的存在,而是算法與數(shù)據(jù)的直接產(chǎn)物。一個模型的“推理”,不過是生成一串自洽的中間步驟,符合訓(xùn)練中“看起來像推理”的數(shù)據(jù)統(tǒng)計特征。這不是邏輯演繹,而是“看起來像”。
今天AI的能力,來自“預(yù)訓(xùn)練”四個字。這不是訓(xùn)練它完成某個任務(wù),而是先給它喂進整個互聯(lián)網(wǎng)。網(wǎng)頁、維基百科、小說、論壇對話、GitHub代碼……先讓它什么都看。然后才來“微調(diào)”,讓它聽人話、寫郵件、畫圖、下棋。
真正顛覆行業(yè)的,是“生成式AI”。這一類模型,能夠從輸入中生成輸出,而不是僅僅分類、打標簽。GPT是生成文本,DALL·E是生成圖像,AlphaFold是生成蛋白質(zhì)結(jié)構(gòu)。背后都是一套類似的邏輯:Transformer架構(gòu)。
Transformer不是一個術(shù)語,是一個分水嶺。Google在2017年推出的這項結(jié)構(gòu),把所有輸入都看作序列,不管是語句、圖片、視頻幀、還是棋盤。它不再按順序處理數(shù)據(jù),而是一次性關(guān)注所有位置的“上下文”,換句話說:學(xué)會“看全局”。
Transformer的革命性不在于數(shù)學(xué)多高級,而在于它兼容性太強。圖像識別、語音識別、機器翻譯、聊天機器人,全都能用。換句話說,它是AI界的萬能接頭。
而這背后跑的,其實都是同一類操作:矩陣乘法。神經(jīng)網(wǎng)絡(luò)運行的本質(zhì),就是無數(shù)個矩陣乘法疊加優(yōu)化。這也解釋了為什么今天的AI燒電燒得嚇人,為什么英偉達靠賣GPU成為了AI軍火商。能把矩陣乘法跑得快,就是通向未來的鑰匙。
也正因如此,整個AI世界瘋狂追求一種能力:泛化。也就是讓模型在沒見過的數(shù)據(jù)上依然表現(xiàn)得靠譜。模型不是懂,它是“猜得像”,而“猜得像”靠的是海量數(shù)據(jù)加上微妙的參數(shù)調(diào)整。
可參數(shù)再多,錯也照樣會犯。AI“幻覺”就是最典型的例子。它不是故意編造,它是自信地輸出一個在統(tǒng)計上看起來合理但事實上完全錯誤的答案。胡編亂造的引文,都是這么來的。這不是bug,是機制本身決定的。
“強化學(xué)習(xí)”成了人類用來糾偏的方法。告訴AI什么樣的答案“獎勵”更高,讓它學(xué)會少犯錯、多聽話。但別以為這是訓(xùn)練“邏輯”,它本質(zhì)上仍然是“調(diào)參”。我們在行為上引導(dǎo)它,但它并不理解“為什么”。
機制可解釋性(Mechanistic Interpretability)是最近幾年AI研究最硬核的方向。它想要回答一個問題:我們訓(xùn)練出來的這些龐大網(wǎng)絡(luò),內(nèi)部到底學(xué)了什么?有沒有“電路”?有沒有“概念”?有沒有“模塊”?這是拆機式的神經(jīng)網(wǎng)絡(luò)解剖。
研究人員開始嘗試在模型內(nèi)部定位“黃金門大橋”對應(yīng)的神經(jīng)元,逆向還原它是怎么學(xué)會這些語義的。有些甚至找到了人工構(gòu)建的“推理回路”——一個個自動生成的類電路結(jié)構(gòu),確實負責(zé)某種任務(wù)。但整體仍是一座黑箱,只是“灰”得沒那么徹底了。
還有一類問題更現(xiàn)實:數(shù)據(jù)從哪來?答案是“合成數(shù)據(jù)”。很多時候,真實世界的數(shù)據(jù)不夠干凈、不夠全,甚至存在偏見。那怎么辦?用生成模型自己生成一批新數(shù)據(jù),再拿來訓(xùn)練另一個模型。這就是AI喂AI,自我繁殖。但如果過度依賴,它會陷入“模型坍縮”:學(xué)來學(xué)去,只是在模仿自己。
模型到底有沒有偏見?有。而且來自數(shù)據(jù)本身。例如,“CEO”更常被生成成白人男性。這是網(wǎng)絡(luò)數(shù)據(jù)的事實反映,也是模型訓(xùn)練的現(xiàn)實產(chǎn)物。要解決,不是靠政治口號,而是靠“偏見干預(yù)”:訓(xùn)練過程中加入偏好、限制和獎勵機制,讓模型向某種期望靠近。
那AI到底有沒有“理解”?從“嵌入”(embeddings)說起。模型內(nèi)部所有的信息都被轉(zhuǎn)化為一堆浮點數(shù),這些數(shù)之間的相對關(guān)系,就是模型的“語義空間”。“狗”離“幼犬”近,離“烤面筋”遠。它不理解詞義,但它在數(shù)字上“排列”得很合理。
“推理”也不是傳統(tǒng)意義的推理。模型在“推理”時,只是在生成一個“思維鏈條”的文本序列。這些鏈條可以看起來像思考的過程,但其實只是預(yù)測下一個最合理的詞而已。你說它思考,它其實在模擬思考的形式。
而整個AI系統(tǒng)的前提,是一次又一次的“推理”過程,這在技術(shù)里叫做“推斷”(inference)。但模型在推斷時不學(xué)新東西。它只執(zhí)行,不進步。想讓它更聰明,得重新訓(xùn)練。這就決定了現(xiàn)在的AI有“知識截止點”——比如只知道2024年之前的事情。
要想讓AI變得真正動態(tài)、實時、能學(xué),核心挑戰(zhàn)是打破“訓(xùn)練-推理”二分。這個問題沒解決之前,AI都還停留在“高級壓縮工具”階段,而不是“智能體”。
說到底,今天的AI是數(shù)學(xué)的勝利,是計算的勝利,但還不是理解的勝利。它是人類訓(xùn)練出的最強預(yù)測器,不是最強思想家。我們給它喂了世界,它吐出一個“擬世界”。
這個“擬世界”越來越像真的,但它永遠是預(yù)測,不是洞察。越是理解AI的人,越不會被它的“語言能力”所迷惑。它只是學(xué)了“像人”,而不是“是人”。
AI的進化,不是靠天才靈光一現(xiàn),而是靠億萬次的梯度下降。這條路走到哪一步,取決于我們對“理解”的再定義。而不是對“機器”的崇拜。