大模型根本不會推理! 亞利桑那州立大學教授Subbarao Kambhampati最近發(fā)表了一系列言論,直指當前大語言模型(LLM)推理能力的迷思。這番言論引發(fā)了業(yè)內熱議,不少網友紛紛表示:原來AI這么強的推理能力,都是假的? Kambhampati教授一針見血地指出:
也就是說,我們以為AI在進行推理,其實它只是在從記憶中調取已有信息。這就好比一個學生,不是通過理解公式來解題,而是把所有可能的題目和答案都背下來了。 網友@AndyXAndersen 就評論道:
看來,AI的'聰明'程度,可能遠不如我們想象的那么高! 但問題來了,既然AI只是在做'檢索',為什么它還能回答一些訓練數據中沒有的問題呢? Kambhampati教授解釋說,這是因為在網絡規(guī)模的訓練數據中,一些2階、3階甚至k階可達的事實與基本事實交織在一起,使得LLM能夠通過模式匹配走得更遠,而無需真正學習推理過程。 簡單來說就是,AI看起來會推理,其實是數據量太大,很多看似需要推理的結果,它其實都'見過'。 對此,@TheBlackHack一針見血地指出:
這也引發(fā)了不少爭議。有人表示認同,也有人提出了不同看法。 @EmilevanKrieken就問道:
Kambhampati教授回應說,問題在于,當前的分布內/外分析讓我們關注那些從推理角度來看并不有趣的泛化方面。 具體來說,把LLM在一小部分2可達事實上'混合訓練'后,我們?yōu)樗懿鲁龈?可達事實而歡呼,卻沒注意到它需要單獨的混合訓練才能達到3可達、4可達等。 @JoelKreager形象地比喻道:
那么問題來了:既然AI不會真正的推理,為什么它還能在一些需要推理的任務中表現優(yōu)異呢? Kambhampati教授解釋說,這是因為在訓練數據中,一些需要2步、3步甚至更多步驟推理得出的結果,已經被直接包含在內了。所以AI看起來會推理,其實是靠超強的記憶力在'套模板'。 這就好比,你覺得一個學生數學特別好,因為他總能很快得出正確答案。但其實,這個學生是把所有可能的題目和答案都背下來了,而不是真的懂得解題方法。 對此,@Mr Nemo提出了一個有趣的觀點:
這個比喻非常形象。AI模型就像是一個巨大的、預先計算好的查找表。它能快速給出答案,但并不真正'理解'問題。 那么,這對AI的未來發(fā)展意味著什么呢? Kambhampati教授認為,我們需要重新思考如何評估AI的推理能力。他指出,當前的許多基準測試可能并不能真正反映AI的推理水平。 比如,即使AI在4位數乘法上表現出色,但如果你測試5位數乘法,你會發(fā)現它又回到了起點,就像@YejinChoinka和她的同事發(fā)現的那樣。 就像你教會了一個孩子背誦九九乘法表,但他并不真正理解乘法的概念。當你讓他計算10×10時,他就完全不知所措了。 @bensmith_sv就問道:
這個問題非常深刻。它揭示了AI模型在處理復雜任務時的局限性。AI可能已經'記住'了很多部分結果,但當需要綜合這些結果時,它就顯得力不從心了。 那么,我們該如何改進AI的推理能力呢? Kambhampati教授建議,我們需要關注AI是否真正學習了底層程序,并能將其應用于任何未見過的實例——無論是3-、4-、5-還是100可達的推論,還是5×5、6×6,...100×100位數的乘法。 我們不應該滿足于AI能解決特定的數學題,而應該追求它真正理解數學原理,能夠靈活運用于各種新問題。 最后,@tetraduzione總結道:
這也正是當前AI研究中的一個重要誤區(qū)。 我們不能僅僅因為AI在某些測試中表現出色,就認為它真的掌握了推理能力。 AI的進步之路還很漫長?。?/p> 你怎么看待AI的推理能力呢? ?? ?? ?? ?? 本文同步自于知識星球《AGI Hunt》星球實時采集和監(jiān)控推特、油管、discord、電報等平臺的熱點AI 內容,并基于數個資訊處理的 AI agent 挑選、審核、翻譯、總結到星球中。
|
|