世界模型又近了?MIT驚人研究:LLM已模擬現(xiàn)實世界,絕非隨機鸚鵡!
相信很多大家對世界模型又近了?MIT驚人研究:LLM已模擬現(xiàn)實世界,絕非隨機鸚鵡!還不知道吧,今天菲菲就帶你們一起去了解一下~.~!
【新智元導讀】MIT CSAIL的研究人員發(fā)現(xiàn),LLM的「內心深處」已經(jīng)發(fā)展出了對現(xiàn)實的模擬,模型對語言和世界的理解,絕不僅僅是簡單的「鸚鵡學舌」。也就說,在未來,LLM會比今天更深層地理解語言。
LLM離世界模型,究竟有多遠?
去年,MIT的一篇文章發(fā)現(xiàn)了驚人的結論:在LLM內部,存在一個世界模型。
LLM不僅學習了表面的統(tǒng)計數(shù)據(jù),還學習了包括空間和時間等基本緯度的世界模型。
Llama-2-70B竟然能夠描繪出研究人員真實世界的文字地圖
不僅如此,MIT最近又發(fā)現(xiàn):在LLM的深處,發(fā)展出了一種對現(xiàn)實的模擬,它們對語言的理解,已經(jīng)遠遠超出了簡單的模仿!
論文地址:https://arxiv.org/abs/2305.11169
具體來說,MIT計算機科學和人工智能實驗室 (CSAIL)的兩名學者發(fā)現(xiàn)——
盡管只用「預測下一個token」這種看似只包含純粹統(tǒng)計概率的目標,來訓練LLM學習編程語言,模型依舊可以學習到程序中的形式化語義。
這表明,語言模型可能會發(fā)展自己對現(xiàn)實的理解,以此作為提高其生成能力的一種方式。
因此,LLM在未來的某一天,可能會比今天更深層次地理解語言。
目前這篇文章已被ICML2024接收,實驗所用代碼也已經(jīng)公布在GitHub上。
倉庫地址:https://github.com/charlesjin/emergent-semantics
沒有眼睛,LLM就「看」不到嗎?
如果讓GPT-4去聞一下被雨水浸濕的露營地的味道,它會禮貌地拒絕你。
不過,它仍然會給你一個詩意的描述:有新鮮的泥土香氣,和清爽的雨味,還有松樹或濕樹葉的痕跡。
GPT-4沒見過下雨,也沒有鼻子,但它能模仿大量訓練數(shù)據(jù)中存在的文本。
缺少一雙眼睛,是不是就意味著語言模型永遠無法理解「獅子比家貓更大」?
LLM能理解現(xiàn)實世界和各種抽象概念嗎?還是僅僅在「鸚鵡學舌」,純粹依靠統(tǒng)計概率預測下一個token?
LLM的工作原理,依舊是未解之謎。AI圈的大佬們,時不時就要因為這個問題展開一場論戰(zhàn)。
LeCun堅定認為,LLM的智能絕對被高估了!他最著名的論斷,就是那句「大語言模型不如家里養(yǎng)的貓」。
「貓可以記憶,可以理解物理世界,可以計劃復雜的行動,可以進行一定程度的推理,這實際上已經(jīng)比最大的模型要好了,意味著我們在概念層面有重要的缺失,無法讓機器像動物和人類一樣聰明。」
沒有感官,不耽誤ChatGPT為你描述各種氣味和圖片;沒有生活經(jīng)驗,很多用戶依舊「遇事不決,ChatGPT解決」;看起來完全沒有共情能力,Character.ai上的「心理學家」還是能俘獲美國一千萬青少年的心。
很多人將此解釋為純粹的統(tǒng)計現(xiàn)象,LLM只是在「鸚鵡學舌」,對大量訓練語料中存在的文本進行模仿,并不是像人類一樣擁有同等水平的智能或感知。
但現(xiàn)在,MIT的研究證明,并非如此!
LLM內部,絕對存在著對現(xiàn)實世界的理解。
LLM破解卡雷爾謎題,意味著什么
為了探究這個謎團,MIT CSAIL的研究者們,開發(fā)了一套小型卡雷爾謎題(Karel Puzzle)。
簡單介紹下,什么是卡雷爾謎題
其中包括讓模型用指令在模擬環(huán)境中控制機器人的行動。
卡雷爾語法規(guī)范
然后他們在訓練LLM學習一種特定的解決方案,但沒有演示其中的工作原理。
最后,作者提出了一種名為「探針」(probing)的機器學習技術,用于在模型生成新解決方案時,深入了解其中的「思維過程」。
研究者通過對隨機參考程序進行采樣來構建訓練示例,然后對5個隨機輸入進行采樣并執(zhí)行程序,以獲得相應的5個輸出。LM由交錯輸入和輸出組成的示例語料庫上進行下一個token預測訓練,然后是參考程序。在測試時,研究者向LM提供看不見的輸入輸出規(guī)范,并使用貪婪解碼來預測程序
在超過100萬個隨機謎題上進行訓練后,研究人員發(fā)現(xiàn),模型自發(fā)地形成了對底層模擬環(huán)境的概念!盡管訓練期間,它們并沒有接觸過這方面的信息。
這個結果,不僅挑戰(zhàn)了我們對LLM的固有印象,也質疑了我們對思維過程本質的認知——
在學習語義的過程中,究竟哪些類型的信息才是必需的?
實驗剛開始時,模型生成的隨機指令幾乎無法運行;但完成訓練時,指令的正確率達到了92.4%。
論文一作Jin表示,「這是一個非常激動人心的時刻,因為我們認為,如果語言模型能以這種準確度完成任務,我們也會期望,它能理解語言的含義。」
「這給了我們一個起點,來探索LLM是否確實能理解文本,現(xiàn)在我們看到,模型的能力,遠不止于盲目地將單詞拼接在一起?!?/p>
打開LLM的大腦
在這項實驗中,Jin親眼目睹了這一進展。
LLM為什么會認為,這些指令指的是這個意思?
他發(fā)現(xiàn),LLM已經(jīng)開發(fā)了自己的內部模擬,來模擬機器人如何響應每條指令而移動。
而隨著模型解決難題的能力越來越高,這些概念也就變得越來越準確,這就表明:LM開始理解指令了。
不久之后,LLM就能始終如一地將各部分正確地拼接在一起,形成工作指令。
通過不同的探針分類器測量的語義內容(綠色)
思維探針而為上述發(fā)現(xiàn)做出主要貢獻的,就是一種「思維探針」。
這是一種介入LLM思維過程的有效工具,論文將它稱為「probing」。
具體而言,LM的狀態(tài)中包含輸入和生成程序的純語法層面的記錄,但probe似乎可以學習理解其中的抽象解釋。
實際的實驗中,作者首先構建LLM的狀態(tài)跟蹤數(shù)據(jù)集,再用標準的監(jiān)督學習方法訓練一個小型模型作為探針,比如線性分類器或2層MLP。
訓練后半段當前和接下來兩個抽象狀態(tài)的語義內容(1層MLP)
然而,其中一個重要的問題在于,必須將probe和模型實際的思考過程或生成的指令進行分離。
雖然探針的唯一目的,只是「進入LLM的大腦」,但如果它也為模型做了一些思考,該怎么辦呢?
研究者需要確保的是,LLM能夠獨立于探針理解指令,而不是由探針根據(jù)LLM對語法的掌握來推斷機器人的動作。
想象一下,有一堆編碼LLM思維過程的數(shù)據(jù),其中probe的角色就像一名取證分析師。
我們把這堆數(shù)據(jù)交給了分析師,告訴ta:「這是機器人的動作,試著在這堆數(shù)據(jù)中,找出機器人是怎么動的?!狗治鰩煴硎?,自己知道這堆數(shù)據(jù)中的機器人是怎么回事。
但是,假如這堆數(shù)據(jù)只是對原始指令進行了編碼,而分析人員已經(jīng)想出了一些巧妙的方法來提取指令,并按照指令進行相應的操作呢?
在這種情況下,LLM就根本沒有真正了解到這些指令的含義。
為此,研究者特意做了一個巧妙的設計:它們?yōu)槟P痛蛟炝艘粋€「奇異世界」。
在這個世界中,probe的指令含義被反轉了,比如「向上」其實意味著「向下」。
例如,原始語義中的exec(turnRight,·)是將使機器人順時針旋轉90度,而exec adversarial(turnRight,·)是將機器人推進一個空間
這就保證了,probe并不是在「投機取巧」,直接學習理解LLM對指令的編碼方式。
一作Jin這樣介紹道——
如果探針是將指令翻譯成機器人的位置,那么它應該同樣能夠根據(jù)離奇的含義翻譯指令。
但如果探頭實際上是在語言模型的思維過程中,尋找原始機器人動作的編碼,那么它應該很難從原始思維過程中提取出怪誕的機器人動作。
結果發(fā)現(xiàn),探針出現(xiàn)了翻譯錯誤,無法解釋具有不同指令含義的語言模型。
這就意味著,原始語義被嵌入了語言模型中,表明LLM能夠獨立于原始探測分類器,理解所需的指令。
上半部分描述了在干預前,兩種情況如何導致測量的高語義內容。下半部分顯示了為什么將兩個假設分開: 如果LM表示僅包含語法(左下),那么應該可以訓練探針alt來學習根據(jù)替代狀態(tài)prog(粗體紅色結果)解釋記錄;然而,如果LM表示編碼原始抽象狀態(tài)(右下),則探測alt需要從原始狀態(tài)prog中提取替代狀態(tài)'prog,從而產(chǎn)生較低的語義內容(粗體灰色結果)
LLM理解語言,就像孩童一樣有趣的是,Jin發(fā)現(xiàn),LLM對語言的理解是分階段發(fā)展的,就像孩子學習語言時分多個步驟一樣。
開始,它會像嬰兒一樣牙牙學語,說出的話是重復的,而且大多數(shù)都難以理解。
然后,LLM會開始獲取語法或語言規(guī)則,這樣,它就能夠生成看起來像是真正解決方案的指令了,但此時它們仍然不起作用。
不過,LLM的指令會逐漸進步。
一旦模型獲得了意義,它就會像孩子造句一樣,開始產(chǎn)生正確執(zhí)行所要求規(guī)范的指令。
結果如圖2所示,可以看出LLM對語言的理解大致分為3個階段,就如同孩童學習語言一樣。
牙牙學語(babbling,灰色部分):占據(jù)整個訓練過程約50%,生成高度重復的程序,準確率穩(wěn)定在10%左右
語法習得(syntax acquisition,橙色部分):訓練過程的50%~75%,生成結果的多樣性急劇增加,句法屬性發(fā)生顯著變化,模型開始對程序的token進行建模,但生成的準確率的提升并不明顯
語義習得(semantics acquisition,黃色部分):訓練過程的75%到結束,多樣性幾乎不變,但生成準確率大幅增長,表明出現(xiàn)了語義理解
實驗使用了三種不同的probe架構作為對比,分別是線性分類器、單層MLP和2層MLP。
提前2步預測時,2層MLP預測準確率的絕對值高于用當前狀態(tài)預測的基線模型。或許可以得出這樣一種推測:LLM在生成指令前,其思維過程,以及生成指令的「意圖」已經(jīng)存儲在模型內部了。
LLM = 世界模型?
這項研究解釋了LLM如何思考訓練數(shù)據(jù)中每條指令的含義,如何在內部狀態(tài)中模擬機器人對指令的響應。
這些都直指當前AI研究的一個核心問題——LLM令人驚訝的能力,僅僅是由于大規(guī)模的統(tǒng)計相關性,還是對它們現(xiàn)實產(chǎn)生了有意義的理解?
研究表明,LLM開發(fā)了一個模擬現(xiàn)實的內部模型,盡管它從未接受過開發(fā)該模型的訓練。
而且,語言模型還可以進一步加深對語言的理解。
然而,僅靠一篇論文顯然不能完全回答這個問題。
作者Jin也承認,這項研究存在一些局限性:他們僅使用了非常簡單的編程語言Karel,以及非常簡單的probe模型架構。
未來的工作將關注更通用的實驗設置,也會充分利用對于LLM「思維過程」的見解來改進訓練方式。
本文另一位作者Rinard表示,「一個有趣的懸而未決的問題是,在解決機器人導航問題時,LLM是在用內部現(xiàn)實模型來推理現(xiàn)實嗎?」
雖然論文展現(xiàn)的結果可以支持這一結論,但實驗并不是為回答這個問題而設計的。
布朗大學計算機科學和語言學系助理教授Ellie Pavlick高度贊揚了這項研究。
她表示,對LLM工作原理的理解,可以讓我們對這項技術的內在可能性和局限性有更合理的期望。這項研究正是在受控環(huán)境中探索這個問題。
計算機代碼像自然語言一樣,既有語法又有語義;但與自然語言不同的是,代碼的語義更直觀,并可以根據(jù)實驗需要直接控制。
「實驗設計很優(yōu)雅,他們的發(fā)現(xiàn)也很樂觀,這表明也許LLM可以更深入地了解語言的『含義』。」
以上就是關于【世界模型又近了?MIT驚人研究:LLM已模擬現(xiàn)實世界,絕非隨機鸚鵡!】的相關內容,希望對大家有幫助!
免責聲明:本文由用戶上傳,與本網(wǎng)站立場無關。財經(jīng)信息僅供讀者參考,并不構成投資建議。投資者據(jù)此操作,風險自擔。 如有侵權請聯(lián)系刪除!
-
奔馳GLE作為豪華SUV市場中的佼佼者,憑借其卓越的性能、豪華的內飾以及寬敞的空間,吸引了眾多消費者的關注。...瀏覽全文>>
-
在2025年,安徽阜陽地區(qū)的帕薩特新能源汽車市場表現(xiàn)非?;钴S。作為一款備受關注的新能源車型,帕薩特新能源憑...瀏覽全文>>
-
近日,滁州地區(qū)的大眾汽車經(jīng)銷商傳來好消息:備受矚目的2025款T-ROC探歌正式上市,并且以極具競爭力的價格吸引...瀏覽全文>>
-
在選擇一款新能源汽車時,了解其價格和配置是非常重要的一步。安徽淮南地區(qū)的長安啟源E07作為2024款的新車型,...瀏覽全文>>
-
阜陽長安啟源A05作為長安汽車旗下的全新車型,自推出以來便憑借其獨特的設計風格和豐富的配置吸引了眾多消費者...瀏覽全文>>
-
阜陽長安啟源A07作為一款備受矚目的新能源車型,以其豪華配置和親民的價格在市場上引起了廣泛關注。這款車型不...瀏覽全文>>
-
安徽淮南威然2024款價格及配置詳解隨著汽車市場的不斷更新?lián)Q代,上汽大眾旗下的MPV車型——威然(Viloran)憑...瀏覽全文>>
-
QQ多米新車報價2025款,買車省錢秘籍隨著汽車市場的不斷發(fā)展,消費者在選購車輛時不僅關注車型的性能和配置,...瀏覽全文>>
-
滁州途觀X 2024款最新價格及買車省錢秘籍隨著汽車市場的不斷發(fā)展,大眾途觀X作為一款兼具時尚與性能的中型SUV...瀏覽全文>>
-
隨著汽車市場的不斷發(fā)展,大眾蔚攬以其優(yōu)雅的設計和卓越的性能贏得了眾多消費者的青睞。作為一款兼具實用性和...瀏覽全文>>
- Nvidia DLSS 4 有望將游戲性能提高 8 倍
- 人工智能在預測自身免疫性疾病進展方面顯示出良好的前景
- 心理物理實驗揭示皮膚水分感知是如何改變的
- 科茨沃爾德公司慶祝圣誕節(jié)圓滿成功
- 南法納姆學校被評為薩里郡表現(xiàn)最好的小學
- 約克區(qū)九所小學將削減招生人數(shù)
- 松下新款電動汽車電池為 Lucid Gravity 帶來 450 英里續(xù)航里程
- 泰國旅游呈現(xiàn)新趨勢
- 研究人員找到在細胞水平上餓死前列腺癌腫瘤的新方法
- 領先的人工智能聊天機器人在測試中表現(xiàn)出類似癡呆癥的認知能力下降
- 龐大的 Project Zomboid build 42 終于可以玩了
- Steam Replay 回歸向您展示 2024 年您玩得最多的 PC 游戲
- Jollyes 推出強化的人才支持和招聘措施
- Karen Millen 與 Simon Harrison 共同推出全新高級珠寶系列
- 奇瑞風云A8L電動轎車刷新續(xù)航里程世界紀錄
- 虛擬藝術家將別克 Cascada 帶回 2026 款車型
- OnePlus 宣布推出新計劃解決綠線問題
- OnePlus Watch 3 將擁有更大的電池和更薄的機身
- 研究人員發(fā)現(xiàn)可變剪接與自身免疫性疾病遺傳之間的細胞類型特異性聯(lián)系
- 科學家確定腦細胞類型是排尿的主要控制者