少妇脱了内裤让我添,久久久久亚洲精品无码网址蜜桃,性色av免费观看,久久人妻av无码中文专区

分享

美大學教授警告:大模型根本不會推理,全靠記憶力強!

 金蘋果6 2024-08-31 發(fā)布于北京

大模型根本不會推理!

亞利桑那州立大學教授Subbarao Kambhampati最近發(fā)表了一系列言論,直指當前大語言模型(LLM)推理能力的迷思。這番言論引發(fā)了業(yè)內熱議,不少網友紛紛表示:原來AI這么強的推理能力,都是假的?

圖片

Kambhampati教授一針見血地指出:

許多關于LLM推理能力的說法都忽視了一個事實:LLM不僅僅是訓練于'事實',更多時候還包括了這些事實的演繹閉包。因此,所謂的'推理'實際上變成了(近似)檢索。

也就是說,我們以為AI在進行推理,其實它只是在從記憶中調取已有信息。這就好比一個學生,不是通過理解公式來解題,而是把所有可能的題目和答案都背下來了。

網友@AndyXAndersen 就評論道:

LLM充其量只能基于非常相似的數據做出猜測。通過外部驗證、優(yōu)化和反復搜索問題空間,這可以在較簡單的情況下近似演繹推理。

看來,AI的'聰明'程度,可能遠不如我們想象的那么高!

但問題來了,既然AI只是在做'檢索',為什么它還能回答一些訓練數據中沒有的問題呢?

Kambhampati教授解釋說,這是因為在網絡規(guī)模的訓練數據中,一些2階、3階甚至k階可達的事實與基本事實交織在一起,使得LLM能夠通過模式匹配走得更遠,而無需真正學習推理過程。

簡單來說就是,AI看起來會推理,其實是數據量太大,很多看似需要推理的結果,它其實都'見過'。

對此,@TheBlackHack一針見血地指出:

LLM無法計算,因為它們不是計算機器。我們可以將它們視為有限的token序列映射,一旦學習就不會改變,所以如果映射中缺少某個序列,就無法從頭構建它。

這也引發(fā)了不少爭議。有人表示認同,也有人提出了不同看法。

@EmilevanKrieken就問道:

我有點困惑,你描述的聽起來不就是分布內/外(in/out of distribution)的問題嗎?如果你在2級可達性上訓練,那么任何2級可達的東西都是分布內的,但3級就是分布外的。

Kambhampati教授回應說,問題在于,當前的分布內/外分析讓我們關注那些從推理角度來看并不有趣的泛化方面。

具體來說,把LLM在一小部分2可達事實上'混合訓練'后,我們?yōu)樗懿鲁龈?可達事實而歡呼,卻沒注意到它需要單獨的混合訓練才能達到3可達、4可達等。

@JoelKreager形象地比喻道:

跟隨函數產生的所有路徑。這是一個龐大但有限的集合。聚類輸入、邏輯連接會導致聚類輸出。也會有一些類似特征向量的東西,但是針對整個模型。

那么問題來了:既然AI不會真正的推理,為什么它還能在一些需要推理的任務中表現優(yōu)異呢?

Kambhampati教授解釋說,這是因為在訓練數據中,一些需要2步、3步甚至更多步驟推理得出的結果,已經被直接包含在內了。所以AI看起來會推理,其實是靠超強的記憶力在'套模板'。

這就好比,你覺得一個學生數學特別好,因為他總能很快得出正確答案。但其實,這個學生是把所有可能的題目和答案都背下來了,而不是真的懂得解題方法。

對此,@Mr Nemo提出了一個有趣的觀點:

演繹閉包是一個封閉的環(huán)境,其中所有變量都是已知的;閉包內的所有元素都是已知的,它們的來源是已知的,所有元素之間所有可能相互作用的所有可能結果都是已知的:對嗎?

這個比喻非常形象。AI模型就像是一個巨大的、預先計算好的查找表。它能快速給出答案,但并不真正'理解'問題。

那么,這對AI的未來發(fā)展意味著什么呢?

Kambhampati教授認為,我們需要重新思考如何評估AI的推理能力。他指出,當前的許多基準測試可能并不能真正反映AI的推理水平。

比如,即使AI在4位數乘法上表現出色,但如果你測試5位數乘法,你會發(fā)現它又回到了起點,就像@YejinChoinka和她的同事發(fā)現的那樣。

就像你教會了一個孩子背誦九九乘法表,但他并不真正理解乘法的概念。當你讓他計算10×10時,他就完全不知所措了。

@bensmith_sv就問道:

對于9位數乘法,我看到大多數模型可以計算部分乘積,但在把它們加在一起時失敗了 - 為什么會這樣?

這個問題非常深刻。它揭示了AI模型在處理復雜任務時的局限性。AI可能已經'記住'了很多部分結果,但當需要綜合這些結果時,它就顯得力不從心了。

那么,我們該如何改進AI的推理能力呢?

Kambhampati教授建議,我們需要關注AI是否真正學習了底層程序,并能將其應用于任何未見過的實例——無論是3-、4-、5-還是100可達的推論,還是5×5、6×6,...100×100位數的乘法。

我們不應該滿足于AI能解決特定的數學題,而應該追求它真正理解數學原理,能夠靈活運用于各種新問題。

最后,@tetraduzione總結道:

我猜問題在于人們可能只是混淆了在另一個分布的測試集上獲得100%準確率是真正的分布外泛化(如演繹閉包)的必要但非充分條件。

但論文上定義的'分布外泛化'概念本身是正確的。

這也正是當前AI研究中的一個重要誤區(qū)。

我們不能僅僅因為AI在某些測試中表現出色,就認為它真的掌握了推理能力。

AI的進步之路還很漫長?。?/p>

你怎么看待AI的推理能力呢?

??

??

??

??

本文同步自于知識星球《AGI Hunt》

星球實時采集和監(jiān)控推特、油管、discord、電報等平臺的熱點AI 內容,并基于數個資訊處理的 AI agent 挑選、審核、翻譯、總結到星球中。

    本站是提供個人知識管理的網絡存儲空間,所有內容均由用戶發(fā)布,不代表本站觀點。請注意甄別內容中的聯系方式、誘導購買等信息,謹防詐騙。如發(fā)現有害或侵權內容,請點擊一鍵舉報。
    轉藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多

    主站蜘蛛池模板: 亚洲欧洲精品成人久久曰影片| 秋霞国产精品一区二区| 国产95在线 | 亚洲| 免费无码av片在线观看网站| 亚洲区小说区图片区qvod| 视频一区二区无码制服师生| 亚洲精品自在在线观看| 欧美人与动牲交zooz男人| 国产高清不卡一区二区| 日本高清成本人视频一区| 中文字幕制服丝袜人妻动态图| 国产午夜片无码区在线观看爱情网| 国产精品美女久久久网av| 亚洲欧美色αv在线影视| 被窝的午夜无码福利专区| 日本不卡一区二区三区在线| 国产精品爱久久久久久久电影蜜臀| 成人无码精品一区二区三区亚洲区| 80s国产成年女人毛片| 欧美成人精品一区二区综合a片| 国产美女裸体无遮挡免费视频高潮| 成人影院yy111111在线| 国产亚洲精品97在线视频一| 嫩草国产福利视频一区二区| 色拍拍在线精品视频| 亚洲乱码国产一区三区| 中文字幕人妻中文av不卡专区| 午夜亚洲精品久久一区二区| 人人超人人超碰超国产97超碰| 国产色精品vr一区二区| 狠狠色丁香五月综合婷婷| 少妇私密推油呻吟在线播放| 国产乱人视频在线播放| 国产精品亚洲综合色区韩国| 亚洲日韩在线观看免费视频| 国产精品久久国产三级国不卡顿| 日韩精品内射视频免费观看| 热99re久久国免费超精品首页| 久久久一本精品99久久精品88| 亚洲欲色欲www怡红院| 久久亚洲一区二区三区四区五区|