少妇脱了内裤让我添,久久久久亚洲精品无码网址蜜桃,性色av免费观看,久久人妻av无码中文专区

分享

美大學教授警告:大模型根本不會推理,全靠記憶力強!

 金蘋果6 2024-08-31 發(fā)布于北京

大模型根本不會推理!

亞利桑那州立大學教授Subbarao Kambhampati最近發(fā)表了一系列言論,直指當前大語言模型(LLM)推理能力的迷思。這番言論引發(fā)了業(yè)內熱議,不少網友紛紛表示:原來AI這么強的推理能力,都是假的?

圖片

Kambhampati教授一針見血地指出:

許多關于LLM推理能力的說法都忽視了一個事實:LLM不僅僅是訓練于'事實',更多時候還包括了這些事實的演繹閉包。因此,所謂的'推理'實際上變成了(近似)檢索。

也就是說,我們以為AI在進行推理,其實它只是在從記憶中調取已有信息。這就好比一個學生,不是通過理解公式來解題,而是把所有可能的題目和答案都背下來了。

網友@AndyXAndersen 就評論道:

LLM充其量只能基于非常相似的數據做出猜測。通過外部驗證、優(yōu)化和反復搜索問題空間,這可以在較簡單的情況下近似演繹推理。

看來,AI的'聰明'程度,可能遠不如我們想象的那么高!

但問題來了,既然AI只是在做'檢索',為什么它還能回答一些訓練數據中沒有的問題呢?

Kambhampati教授解釋說,這是因為在網絡規(guī)模的訓練數據中,一些2階、3階甚至k階可達的事實與基本事實交織在一起,使得LLM能夠通過模式匹配走得更遠,而無需真正學習推理過程。

簡單來說就是,AI看起來會推理,其實是數據量太大,很多看似需要推理的結果,它其實都'見過'。

對此,@TheBlackHack一針見血地指出:

LLM無法計算,因為它們不是計算機器。我們可以將它們視為有限的token序列映射,一旦學習就不會改變,所以如果映射中缺少某個序列,就無法從頭構建它。

這也引發(fā)了不少爭議。有人表示認同,也有人提出了不同看法。

@EmilevanKrieken就問道:

我有點困惑,你描述的聽起來不就是分布內/外(in/out of distribution)的問題嗎?如果你在2級可達性上訓練,那么任何2級可達的東西都是分布內的,但3級就是分布外的。

Kambhampati教授回應說,問題在于,當前的分布內/外分析讓我們關注那些從推理角度來看并不有趣的泛化方面。

具體來說,把LLM在一小部分2可達事實上'混合訓練'后,我們?yōu)樗懿鲁龈?可達事實而歡呼,卻沒注意到它需要單獨的混合訓練才能達到3可達、4可達等。

@JoelKreager形象地比喻道:

跟隨函數產生的所有路徑。這是一個龐大但有限的集合。聚類輸入、邏輯連接會導致聚類輸出。也會有一些類似特征向量的東西,但是針對整個模型。

那么問題來了:既然AI不會真正的推理,為什么它還能在一些需要推理的任務中表現優(yōu)異呢?

Kambhampati教授解釋說,這是因為在訓練數據中,一些需要2步、3步甚至更多步驟推理得出的結果,已經被直接包含在內了。所以AI看起來會推理,其實是靠超強的記憶力在'套模板'。

這就好比,你覺得一個學生數學特別好,因為他總能很快得出正確答案。但其實,這個學生是把所有可能的題目和答案都背下來了,而不是真的懂得解題方法。

對此,@Mr Nemo提出了一個有趣的觀點:

演繹閉包是一個封閉的環(huán)境,其中所有變量都是已知的;閉包內的所有元素都是已知的,它們的來源是已知的,所有元素之間所有可能相互作用的所有可能結果都是已知的:對嗎?

這個比喻非常形象。AI模型就像是一個巨大的、預先計算好的查找表。它能快速給出答案,但并不真正'理解'問題。

那么,這對AI的未來發(fā)展意味著什么呢?

Kambhampati教授認為,我們需要重新思考如何評估AI的推理能力。他指出,當前的許多基準測試可能并不能真正反映AI的推理水平。

比如,即使AI在4位數乘法上表現出色,但如果你測試5位數乘法,你會發(fā)現它又回到了起點,就像@YejinChoinka和她的同事發(fā)現的那樣。

就像你教會了一個孩子背誦九九乘法表,但他并不真正理解乘法的概念。當你讓他計算10×10時,他就完全不知所措了。

@bensmith_sv就問道:

對于9位數乘法,我看到大多數模型可以計算部分乘積,但在把它們加在一起時失敗了 - 為什么會這樣?

這個問題非常深刻。它揭示了AI模型在處理復雜任務時的局限性。AI可能已經'記住'了很多部分結果,但當需要綜合這些結果時,它就顯得力不從心了。

那么,我們該如何改進AI的推理能力呢?

Kambhampati教授建議,我們需要關注AI是否真正學習了底層程序,并能將其應用于任何未見過的實例——無論是3-、4-、5-還是100可達的推論,還是5×5、6×6,...100×100位數的乘法。

我們不應該滿足于AI能解決特定的數學題,而應該追求它真正理解數學原理,能夠靈活運用于各種新問題。

最后,@tetraduzione總結道:

我猜問題在于人們可能只是混淆了在另一個分布的測試集上獲得100%準確率是真正的分布外泛化(如演繹閉包)的必要但非充分條件。

但論文上定義的'分布外泛化'概念本身是正確的。

這也正是當前AI研究中的一個重要誤區(qū)。

我們不能僅僅因為AI在某些測試中表現出色,就認為它真的掌握了推理能力。

AI的進步之路還很漫長?。?/p>

你怎么看待AI的推理能力呢?

??

??

??

??

本文同步自于知識星球《AGI Hunt》

星球實時采集和監(jiān)控推特、油管、discord、電報等平臺的熱點AI 內容,并基于數個資訊處理的 AI agent 挑選、審核、翻譯、總結到星球中。

    本站是提供個人知識管理的網絡存儲空間,所有內容均由用戶發(fā)布,不代表本站觀點。請注意甄別內容中的聯系方式、誘導購買等信息,謹防詐騙。如發(fā)現有害或侵權內容,請點擊一鍵舉報。
    轉藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多

    主站蜘蛛池模板: 国产97在线 | 亚洲| 动漫av纯肉无码av在线播放| 韩国三级中文字幕无码| 久久久久av综合网成人| 亚洲无线码在线一区观看| 久久国产欧美成人网站| 丰满亚洲大尺度无码无码专线| 中文字幕亚洲综合久久蜜桃| 动漫av网站免费观看| 久久久久国产精品人妻| 99蜜桃臀久久久欧美精品网站| 国产在线精品第一区二区| 天堂网在线最新版www| 国产日产欧洲无码视频| 无遮挡又爽又刺激的视频| 亚洲精品无播放器在线播放| 精品无码人妻夜人多侵犯18| 久久天天躁狠狠躁夜夜躁2014| 国产精品yy9299在线观看| 综合成人亚洲网友偷自拍| 97精品国产一区二区三区| 亚洲精品国产精品乱码不卡√| 国产色a在线观看| 亚洲精品久久久久久久久久吃药| 亚洲国产成人久久综合一区77| 又爽又黄无遮挡高潮视频网站| 狠狠躁夜夜躁人人爽天天69| 国产亚洲精品久久久久蜜臀| 欧美午夜特黄aaaaaa片| 国产强奷伦奷片| 国产午夜影视大全免费观看| 日本一二三区视频在线| 97性无码区免费| 精品国产av最大网站| 国产精品熟女人妻| 久久大香国产成人av| 国产精品自产拍高潮在线观看| 亚洲精品国产精品国自产观看| 久久精品国产福利国产秒拍| 伊人成色综合人夜夜久久| 久久久久人妻啪啪一区二区|