美大學教授警告：大模型根本不會推理，全靠記憶力強！

金蘋果6 2024-08-31 發(fā)布于北京

展開全文

大模型根本不會推理！

亞利桑那州立大學教授Subbarao Kambhampati最近發(fā)表了一系列言論，直指當前大語言模型（LLM）推理能力的迷思。這番言論引發(fā)了業(yè)內熱議，不少網友紛紛表示：原來AI這么強的推理能力，都是假的？

Kambhampati教授一針見血地指出：

許多關于LLM推理能力的說法都忽視了一個事實：LLM不僅僅是訓練于'事實'，更多時候還包括了這些事實的演繹閉包。因此，所謂的'推理'實際上變成了（近似）檢索。

也就是說，我們以為AI在進行推理，其實它只是在從記憶中調取已有信息。這就好比一個學生，不是通過理解公式來解題，而是把所有可能的題目和答案都背下來了。

網友@AndyXAndersen 就評論道：

LLM充其量只能基于非常相似的數據做出猜測。通過外部驗證、優(yōu)化和反復搜索問題空間，這可以在較簡單的情況下近似演繹推理。

看來，AI的'聰明'程度，可能遠不如我們想象的那么高！

但問題來了，既然AI只是在做'檢索'，為什么它還能回答一些訓練數據中沒有的問題呢？

Kambhampati教授解釋說，這是因為在網絡規(guī)模的訓練數據中，一些2階、3階甚至k階可達的事實與基本事實交織在一起，使得LLM能夠通過模式匹配走得更遠，而無需真正學習推理過程。

簡單來說就是，AI看起來會推理，其實是數據量太大，很多看似需要推理的結果，它其實都'見過'。

對此，@TheBlackHack一針見血地指出：

LLM無法計算，因為它們不是計算機器。我們可以將它們視為有限的token序列映射，一旦學習就不會改變，所以如果映射中缺少某個序列，就無法從頭構建它。

這也引發(fā)了不少爭議。有人表示認同，也有人提出了不同看法。

@EmilevanKrieken就問道：

我有點困惑，你描述的聽起來不就是分布內/外（in/out of distribution）的問題嗎？如果你在2級可達性上訓練，那么任何2級可達的東西都是分布內的，但3級就是分布外的。

Kambhampati教授回應說，問題在于，當前的分布內/外分析讓我們關注那些從推理角度來看并不有趣的泛化方面。

具體來說，把LLM在一小部分2可達事實上'混合訓練'后，我們?yōu)樗懿鲁龈?可達事實而歡呼，卻沒注意到它需要單獨的混合訓練才能達到3可達、4可達等。

@JoelKreager形象地比喻道：

跟隨函數產生的所有路徑。這是一個龐大但有限的集合。聚類輸入、邏輯連接會導致聚類輸出。也會有一些類似特征向量的東西，但是針對整個模型。

那么問題來了：既然AI不會真正的推理，為什么它還能在一些需要推理的任務中表現優(yōu)異呢？

Kambhampati教授解釋說，這是因為在訓練數據中，一些需要2步、3步甚至更多步驟推理得出的結果，已經被直接包含在內了。所以AI看起來會推理，其實是靠超強的記憶力在'套模板'。

這就好比，你覺得一個學生數學特別好，因為他總能很快得出正確答案。但其實，這個學生是把所有可能的題目和答案都背下來了，而不是真的懂得解題方法。

對此，@Mr Nemo提出了一個有趣的觀點：

演繹閉包是一個封閉的環(huán)境，其中所有變量都是已知的；閉包內的所有元素都是已知的，它們的來源是已知的，所有元素之間所有可能相互作用的所有可能結果都是已知的：對嗎？

這個比喻非常形象。AI模型就像是一個巨大的、預先計算好的查找表。它能快速給出答案，但并不真正'理解'問題。

那么，這對AI的未來發(fā)展意味著什么呢？

Kambhampati教授認為，我們需要重新思考如何評估AI的推理能力。他指出，當前的許多基準測試可能并不能真正反映AI的推理水平。

比如，即使AI在4位數乘法上表現出色，但如果你測試5位數乘法，你會發(fā)現它又回到了起點，就像@YejinChoinka和她的同事發(fā)現的那樣。

就像你教會了一個孩子背誦九九乘法表，但他并不真正理解乘法的概念。當你讓他計算10×10時，他就完全不知所措了。

@bensmith_sv就問道：

對于9位數乘法，我看到大多數模型可以計算部分乘積，但在把它們加在一起時失敗了 - 為什么會這樣？

這個問題非常深刻。它揭示了AI模型在處理復雜任務時的局限性。AI可能已經'記住'了很多部分結果，但當需要綜合這些結果時，它就顯得力不從心了。

那么，我們該如何改進AI的推理能力呢？

Kambhampati教授建議，我們需要關注AI是否真正學習了底層程序，并能將其應用于任何未見過的實例——無論是3-、4-、5-還是100可達的推論，還是5×5、6×6，...100×100位數的乘法。

我們不應該滿足于AI能解決特定的數學題，而應該追求它真正理解數學原理，能夠靈活運用于各種新問題。

最后，@tetraduzione總結道：

我猜問題在于人們可能只是混淆了在另一個分布的測試集上獲得100%準確率是真正的分布外泛化（如演繹閉包）的必要但非充分條件。
但論文上定義的'分布外泛化'概念本身是正確的。

這也正是當前AI研究中的一個重要誤區(qū)。

我們不能僅僅因為AI在某些測試中表現出色，就認為它真的掌握了推理能力。

AI的進步之路還很漫長?。?/p>

你怎么看待AI的推理能力呢？

本文同步自于知識星球《AGI Hunt》

星球實時采集和監(jiān)控推特、油管、discord、電報等平臺的熱點AI 內容，并基于數個資訊處理的 AI agent 挑選、審核、翻譯、總結到星球中。

本站是提供個人知識管理的網絡存儲空間，所有內容均由用戶發(fā)布，不代表本站觀點。請注意甄別內容中的聯系方式、誘導購買等信息，謹防詐騙。如發(fā)現有害或侵權內容，請點擊一鍵舉報。

轉藏分享

QQ空間 QQ好友新浪微博微信

獻花（0） +1

來自：金蘋果6 > 《科技》

舉報/認領

0條評論

發(fā)表

請遵守用戶評論公約

類似文章 更多

金蘋果6

關注對話

TA的最新館藏

表揚信
表揚信
建議所有人：一定要大量地記錄自己，真的能改命
建議所有人：一定要大量地記錄自己，真的能改命
《南方有約》楊慶博士訪談內容全文摘錄
超氧化物歧化酶（SOD）和其他抗氧化劑有什么不一樣？

喜歡該文的人也喜歡更多

熱門閱讀換一換

少妇脱了内裤让我添,久久久久亚洲精品无码网址蜜桃,性色av免费观看,久久人妻av无码中文专区

美大學教授警告：大模型根本不會推理，全靠記憶力強！

本文同步自于知識星球《AGI Hunt》

美大學教授警告：大模型根本不會推理，全靠記憶力強！