首頁 >> 今日更新 >

多模態(tài)模型學(xué)會(huì)打撲克：表現(xiàn)超越GPT-4v，全新強(qiáng)化學(xué)習(xí)框架是關(guān)鍵

2024-06-04 15:00:05 來源：用戶：

相信很多大家對(duì)多模態(tài)模型學(xué)會(huì)打撲克：表現(xiàn)超越GPT-4v，全新強(qiáng)化學(xué)習(xí)框架是關(guān)鍵還不知道吧，今天菲菲就帶你們一起去了解一下~.~！

只用強(qiáng)化學(xué)習(xí)來微調(diào)，無需人類反饋，就能讓多模態(tài)大模型學(xué)會(huì)做決策!

這種方法得到的模型，已經(jīng)學(xué)會(huì)了看圖玩撲克、算“12點(diǎn)”等任務(wù)，表現(xiàn)甚至超越了GPT-4v。

這是來自UC伯克利等高校最新提出的微調(diào)方法，研究陣容也是相當(dāng)豪華:

圖靈獎(jiǎng)三巨頭之一、Meta首席AI科學(xué)家、紐約大學(xué)教授LeCun

UC伯克利大牛、ALOHA團(tuán)隊(duì)成員Sergry Levine

ResNeXt一作、Sora基礎(chǔ)技術(shù)DiT作者謝賽寧

香港大學(xué)數(shù)據(jù)科學(xué)學(xué)院院長、UC伯克利教授馬毅

該方法名為RL4VLM，論文預(yù)印本已經(jīng)上線，相關(guān)代碼也已在GitHub中開源。

RL4VLM提出了一種新的算法框架，直接使用強(qiáng)化學(xué)習(xí)方法對(duì)多模態(tài)大模型進(jìn)行微調(diào)。

其中獎(jiǎng)勵(lì)信息直接來源于環(huán)境當(dāng)中，擺脫了RLHF中對(duì)于人類反饋的需要，從而直接賦予了多模態(tài)模型決策能力。

對(duì)于RL4VLM的意義，參與了這項(xiàng)工作的馬毅教授這樣說:

那么，用這種方法微調(diào)出來的多模態(tài)大模型，都能讓智能體學(xué)會(huì)哪些能力呢?

多模態(tài)決策能力超GPT-4v

為了評(píng)估訓(xùn)練出的多模態(tài)大模型給智能體帶來的能力，作者一共使用了兩類物種評(píng)測任務(wù):

第一類任務(wù)（a-d）主要考驗(yàn)?zāi)Ｐ屠脠D像中的細(xì)粒度視覺信息做決策的能力，包括對(duì)于數(shù)字的識(shí)別能力和利用識(shí)別的數(shù)字進(jìn)行邏輯推理的能力

第二類任務(wù)（e）主要考察多模態(tài)大模型在具身智能環(huán)境中的視覺語義推理能力。

具體來說，這五個(gè)任務(wù)分別是:

a.數(shù)軸（Numberline）:模型需要通過輸出“+” 或者 “-”，將當(dāng)前數(shù)字移動(dòng)到目標(biāo)數(shù)字

b.簡易12點(diǎn)（EZPoint）:模型需要識(shí)別兩張牌，并用加號(hào)和乘號(hào)運(yùn)算“12點(diǎn)”

c.24點(diǎn)（Point24）: 模型需要識(shí)別四張牌，并用加減乘除和括號(hào)運(yùn)算“24點(diǎn)”

d.21點(diǎn)（Blackjack）:模型需要通過牌面上的信息來決定“要牌”或者“停牌”

e.ALFWorld:一個(gè)標(biāo)準(zhǔn)具身智能環(huán)境

其中任務(wù)a-d為作者的原創(chuàng)任務(wù)，任務(wù)e的ALFWorld是微軟等于2020年提出的開源具身智能任務(wù)集。

實(shí)驗(yàn)結(jié)果表明，直接使用強(qiáng)化學(xué)習(xí)微調(diào)7B的多模態(tài)模型之后，能使其在兩類決策問題上的表現(xiàn)超過商用模型GPT-4v Gemini，同時(shí)也能超過傳統(tǒng)的監(jiān)督微調(diào)（SFT）方法。

而在ALFWorld的具身智能任務(wù)中，作者的模型也取得了最高的平均分，特別是在單物體拾取任務(wù)上表現(xiàn)尤為突出。

先生成思維鏈，再做決策

這套VLM智能體主要解決的是需要視覺識(shí)別和語言理解的任務(wù)，它的工作流程是這樣的:

首先，對(duì)于每一個(gè)任務(wù)，系統(tǒng)會(huì)直接將該任務(wù)的當(dāng)前狀態(tài)，以圖片和文字描述的形式輸入多模態(tài)大模型，并要求模型輸出一段思維鏈之后，再以文字形式輸出要執(zhí)行的動(dòng)作。

最后將，動(dòng)作信息會(huì)被輸入進(jìn)對(duì)應(yīng)的環(huán)境并獲得獎(jiǎng)勵(lì)值，該獎(jiǎng)勵(lì)值會(huì)被用來進(jìn)行強(qiáng)化學(xué)習(xí)訓(xùn)練。

例如下圖中，智能體在執(zhí)行玩21點(diǎn)的任務(wù)時(shí)，系統(tǒng)直接要求多模態(tài)模型根據(jù)目前的狀態(tài)，在輸出思維鏈之后選擇“停牌” （stand）或者“拿牌”(hit)，然后直接將對(duì)應(yīng)的動(dòng)作輸入到環(huán)境中，得到獎(jiǎng)勵(lì)函數(shù)值以及下一個(gè)狀態(tài)。

為了能用直接將強(qiáng)化學(xué)習(xí)運(yùn)用到多模態(tài)模型的訓(xùn)練中，需要對(duì)模型的輸入和輸出做一些調(diào)整，以適應(yīng)RL訓(xùn)練框架中。

具體來說，作者將任務(wù)圖像o和任務(wù)描述的文本v-in合并后，直接作為當(dāng)前任務(wù)的狀態(tài)s，即:

在獲得了多模態(tài)模型的文字輸出v-out以后，該框架直接將其中文字形式的動(dòng)作（“action: {act}”）轉(zhuǎn)化為可與環(huán)境交互的動(dòng)作指令a。

接下來把a(bǔ)輸入到環(huán)境當(dāng)中，就能獲得獎(jiǎng)勵(lì)函數(shù)r，以及操作后的下一個(gè)狀態(tài)。

在獲得了來自環(huán)境的獎(jiǎng)勵(lì)函數(shù)r之后，文章利用PPO直接對(duì)整個(gè)多模態(tài)模型進(jìn)行微調(diào)。

而從提示詞上看，這項(xiàng)研究采取了如下的提示過程作為多模態(tài)模型的輸入，并且給出了期望的輸出形式:

（其中藍(lán)色的部分是讓模型生成思維鏈提示過程，紅色的部分是告訴模型以文字形式輸出動(dòng)作a）

消融實(shí)驗(yàn)結(jié)果表明，如果這一過程中不采用思維鏈，則任務(wù)成功率會(huì)出現(xiàn)大幅下降。

論文地址:

https://arxiv.org/abs/2405.10292

GitHub:

https://github.com/RL4VLM/RL4VLM

—完—

以上就是關(guān)于【多模態(tài)模型學(xué)會(huì)打撲克：表現(xiàn)超越GPT-4v，全新強(qiáng)化學(xué)習(xí)框架是關(guān)鍵】的相關(guān)內(nèi)容，希望對(duì)大家有幫助！

標(biāo)簽：多模態(tài)模型學(xué)會(huì)打撲克：表現(xiàn)超越GPT-4v，全新強(qiáng)化學(xué)習(xí)框架是關(guān)鍵

　　免責(zé)聲明：本文由用戶上傳，與本網(wǎng)站立場無關(guān)。財(cái)經(jīng)信息僅供讀者參考，并不構(gòu)成投資建議。投資者據(jù)此操作，風(fēng)險(xiǎn)自擔(dān)。如有侵權(quán)請(qǐng)聯(lián)系刪除！

相關(guān)閱讀

最新亚洲人成无码网站,夜夜操夜夜操夜夜爽,中文字日产幕乱五区,在线成人看片黄a免费看,亚洲自偷自拍另类11p

多模態(tài)模型學(xué)會(huì)打撲克：表現(xiàn)超越GPT-4v，全新強(qiáng)化學(xué)習(xí)框架是關(guān)鍵

多模態(tài)模型學(xué)會(huì)打撲克：表現(xiàn)超越GPT-4v，全新強(qiáng)化學(xué)習(xí)框架是關(guān)鍵