多模態(tài)模型學(xué)會(huì)打撲克:表現(xiàn)超越GPT-4v,全新強(qiáng)化學(xué)習(xí)框架是關(guān)鍵
相信很多大家對(duì)多模態(tài)模型學(xué)會(huì)打撲克:表現(xiàn)超越GPT-4v,全新強(qiáng)化學(xué)習(xí)框架是關(guān)鍵還不知道吧,今天菲菲就帶你們一起去了解一下~.~!
只用強(qiáng)化學(xué)習(xí)來(lái)微調(diào),無(wú)需人類反饋,就能讓多模態(tài)大模型學(xué)會(huì)做決策!
這種方法得到的模型,已經(jīng)學(xué)會(huì)了看圖玩撲克、算“12點(diǎn)”等任務(wù),表現(xiàn)甚至超越了GPT-4v。
這是來(lái)自UC伯克利等高校最新提出的微調(diào)方法,研究陣容也是相當(dāng)豪華:
圖靈獎(jiǎng)三巨頭之一、Meta首席AI科學(xué)家、紐約大學(xué)教授LeCun
UC伯克利大牛、ALOHA團(tuán)隊(duì)成員Sergry Levine
ResNeXt一作、Sora基礎(chǔ)技術(shù)DiT作者謝賽寧
香港大學(xué)數(shù)據(jù)科學(xué)學(xué)院院長(zhǎng)、UC伯克利教授馬毅
該方法名為RL4VLM,論文預(yù)印本已經(jīng)上線,相關(guān)代碼也已在GitHub中開(kāi)源。
RL4VLM提出了一種新的算法框架,直接使用強(qiáng)化學(xué)習(xí)方法對(duì)多模態(tài)大模型進(jìn)行微調(diào)。
其中獎(jiǎng)勵(lì)信息直接來(lái)源于環(huán)境當(dāng)中,擺脫了RLHF中對(duì)于人類反饋的需要,從而直接賦予了多模態(tài)模型決策能力。
對(duì)于RL4VLM的意義,參與了這項(xiàng)工作的馬毅教授這樣說(shuō):
那么,用這種方法微調(diào)出來(lái)的多模態(tài)大模型,都能讓智能體學(xué)會(huì)哪些能力呢?
多模態(tài)決策能力超GPT-4v
為了評(píng)估訓(xùn)練出的多模態(tài)大模型給智能體帶來(lái)的能力,作者一共使用了兩類物種評(píng)測(cè)任務(wù):
第一類任務(wù)(a-d) 主要考驗(yàn)?zāi)P屠脠D像中的細(xì)粒度視覺(jué)信息做決策的能力,包括對(duì)于數(shù)字的識(shí)別能力和利用識(shí)別的數(shù)字進(jìn)行邏輯推理的能力
第二類任務(wù)(e)主要考察多模態(tài)大模型在具身智能環(huán)境中的視覺(jué)語(yǔ)義推理能力。
具體來(lái)說(shuō),這五個(gè)任務(wù)分別是:
a.數(shù)軸(Numberline):模型需要通過(guò)輸出“+” 或者 “-”,將當(dāng)前數(shù)字移動(dòng)到目標(biāo)數(shù)字
b.簡(jiǎn)易12點(diǎn)(EZPoint):模型需要識(shí)別兩張牌,并用加號(hào)和乘號(hào)運(yùn)算“12點(diǎn)”
c.24點(diǎn)(Point24): 模型需要識(shí)別四張牌,并用加減乘除和括號(hào)運(yùn)算“24點(diǎn)”
d.21點(diǎn)(Blackjack):模型需要通過(guò)牌面上的信息來(lái)決定“要牌”或者“停牌”
e.ALFWorld:一個(gè)標(biāo)準(zhǔn)具身智能環(huán)境
其中任務(wù)a-d為作者的原創(chuàng)任務(wù),任務(wù)e的ALFWorld是微軟等于2020年提出的開(kāi)源具身智能任務(wù)集。
實(shí)驗(yàn)結(jié)果表明,直接使用強(qiáng)化學(xué)習(xí)微調(diào)7B的多模態(tài)模型之后,能使其在兩類決策問(wèn)題上的表現(xiàn)超過(guò)商用模型GPT-4v Gemini,同時(shí)也能超過(guò)傳統(tǒng)的監(jiān)督微調(diào)(SFT)方法。
而在ALFWorld的具身智能任務(wù)中,作者的模型也取得了最高的平均分,特別是在單物體拾取任務(wù)上表現(xiàn)尤為突出。
先生成思維鏈,再做決策
這套VLM智能體主要解決的是需要視覺(jué)識(shí)別和語(yǔ)言理解的任務(wù),它的工作流程是這樣的:
首先,對(duì)于每一個(gè)任務(wù),系統(tǒng)會(huì)直接將該任務(wù)的當(dāng)前狀態(tài),以圖片和文字描述的形式輸入多模態(tài)大模型,并要求模型輸出一段思維鏈之后,再以文字形式輸出要執(zhí)行的動(dòng)作。
最后將,動(dòng)作信息會(huì)被輸入進(jìn)對(duì)應(yīng)的環(huán)境并獲得獎(jiǎng)勵(lì)值,該獎(jiǎng)勵(lì)值會(huì)被用來(lái)進(jìn)行強(qiáng)化學(xué)習(xí)訓(xùn)練。
例如下圖中,智能體在執(zhí)行玩21點(diǎn)的任務(wù)時(shí),系統(tǒng)直接要求多模態(tài)模型根據(jù)目前的狀態(tài),在輸出思維鏈之后選擇“停牌” (stand)或者“拿牌”(hit),然后直接將對(duì)應(yīng)的動(dòng)作輸入到環(huán)境中,得到獎(jiǎng)勵(lì)函數(shù)值以及下一個(gè)狀態(tài)。
為了能用直接將強(qiáng)化學(xué)習(xí)運(yùn)用到多模態(tài)模型的訓(xùn)練中,需要對(duì)模型的輸入和輸出做一些調(diào)整,以適應(yīng)RL訓(xùn)練框架中。
具體來(lái)說(shuō),作者將任務(wù)圖像o和任務(wù)描述的文本v-in合并后,直接作為當(dāng)前任務(wù)的狀態(tài)s,即:
在獲得了多模態(tài)模型的文字輸出v-out以后,該框架直接將其中文字形式的動(dòng)作(“action: {act}”) 轉(zhuǎn)化為可與環(huán)境交互的動(dòng)作指令a。
接下來(lái)把a(bǔ)輸入到環(huán)境當(dāng)中,就能獲得獎(jiǎng)勵(lì)函數(shù)r,以及操作后的下一個(gè)狀態(tài)。
在獲得了來(lái)自環(huán)境的獎(jiǎng)勵(lì)函數(shù)r之后,文章利用PPO直接對(duì)整個(gè)多模態(tài)模型進(jìn)行微調(diào)。
而從提示詞上看,這項(xiàng)研究采取了如下的提示過(guò)程作為多模態(tài)模型的輸入,并且給出了期望的輸出形式:
(其中藍(lán)色的部分是讓模型生成思維鏈提示過(guò)程, 紅色的部分是告訴模型以文字形式輸出動(dòng)作a)
消融實(shí)驗(yàn)結(jié)果表明,如果這一過(guò)程中不采用思維鏈,則任務(wù)成功率會(huì)出現(xiàn)大幅下降。
論文地址:
https://arxiv.org/abs/2405.10292
GitHub:
https://github.com/RL4VLM/RL4VLM
—完—
以上就是關(guān)于【多模態(tài)模型學(xué)會(huì)打撲克:表現(xiàn)超越GPT-4v,全新強(qiáng)化學(xué)習(xí)框架是關(guān)鍵】的相關(guān)內(nèi)容,希望對(duì)大家有幫助!
免責(zé)聲明:本文由用戶上傳,與本網(wǎng)站立場(chǎng)無(wú)關(guān)。財(cái)經(jīng)信息僅供讀者參考,并不構(gòu)成投資建議。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。 如有侵權(quán)請(qǐng)聯(lián)系刪除!
- 董明珠曾喊話雷軍給股民分多少錢(qián)!格力:擬分紅超55億
- Epic喜+1:動(dòng)作游戲《師父》免費(fèi)領(lǐng) 立省139元
- 雷軍辟謠只招聘35歲以下員工:僅針對(duì)未來(lái)之星項(xiàng)目
- 普華永道發(fā)布2025年AI預(yù)測(cè):AI Agents將勞動(dòng)力提升1倍
- 雷軍回應(yīng)股價(jià)暴跌:年年難過(guò)年年過(guò)
- 一天100座!理想汽車(chē)第1700座超充站正式建成
- 《守望先鋒》國(guó)服宣布2月19日回歸:賬號(hào)數(shù)據(jù)完整保留
- 雷軍建議創(chuàng)業(yè)者要多留點(diǎn)錢(qián)給員工:別到山窮水盡才講問(wèn)題
- 雷軍新年第一天收到200元紅包 自侃年入百萬(wàn)的開(kāi)始
- 雷軍親自展示REDMI Turbo 4!2025年第一款新機(jī)
- 雷軍:小米未來(lái)10年建至少20座世界頂級(jí)工廠
- 雷軍辟謠只招聘35歲以下員工:只有招聘未來(lái)之星時(shí)才有年齡限制
- 雷軍回應(yīng)100億造車(chē):沒(méi)有好到“封神” 不要神話我
- 雷軍表態(tài):一心做好小米汽車(chē) 大家可以在“許愿池”尋找商機(jī)
- 雷軍:中國(guó)汽車(chē)產(chǎn)業(yè)應(yīng)少些歪門(mén)邪道 不要發(fā)黑稿、背后捅刀子
- 小米SU7選配色都是7000元 為什么璀璨洋紅卻需要9000元
-
奔馳GLE作為豪華SUV市場(chǎng)中的佼佼者,憑借其卓越的性能、豪華的內(nèi)飾以及寬敞的空間,吸引了眾多消費(fèi)者的關(guān)注。...瀏覽全文>>
-
在2025年,安徽阜陽(yáng)地區(qū)的帕薩特新能源汽車(chē)市場(chǎng)表現(xiàn)非?;钴S。作為一款備受關(guān)注的新能源車(chē)型,帕薩特新能源憑...瀏覽全文>>
-
近日,滁州地區(qū)的大眾汽車(chē)經(jīng)銷(xiāo)商傳來(lái)好消息:備受矚目的2025款T-ROC探歌正式上市,并且以極具競(jìng)爭(zhēng)力的價(jià)格吸引...瀏覽全文>>
-
在選擇一款新能源汽車(chē)時(shí),了解其價(jià)格和配置是非常重要的一步。安徽淮南地區(qū)的長(zhǎng)安啟源E07作為2024款的新車(chē)型,...瀏覽全文>>
-
阜陽(yáng)長(zhǎng)安啟源A05作為長(zhǎng)安汽車(chē)旗下的全新車(chē)型,自推出以來(lái)便憑借其獨(dú)特的設(shè)計(jì)風(fēng)格和豐富的配置吸引了眾多消費(fèi)者...瀏覽全文>>
-
阜陽(yáng)長(zhǎng)安啟源A07作為一款備受矚目的新能源車(chē)型,以其豪華配置和親民的價(jià)格在市場(chǎng)上引起了廣泛關(guān)注。這款車(chē)型不...瀏覽全文>>
-
安徽淮南威然2024款價(jià)格及配置詳解隨著汽車(chē)市場(chǎng)的不斷更新?lián)Q代,上汽大眾旗下的MPV車(chē)型——威然(Viloran)憑...瀏覽全文>>
-
QQ多米新車(chē)報(bào)價(jià)2025款,買(mǎi)車(chē)省錢(qián)秘籍隨著汽車(chē)市場(chǎng)的不斷發(fā)展,消費(fèi)者在選購(gòu)車(chē)輛時(shí)不僅關(guān)注車(chē)型的性能和配置,...瀏覽全文>>
-
滁州途觀X 2024款最新價(jià)格及買(mǎi)車(chē)省錢(qián)秘籍隨著汽車(chē)市場(chǎng)的不斷發(fā)展,大眾途觀X作為一款兼具時(shí)尚與性能的中型SUV...瀏覽全文>>
-
隨著汽車(chē)市場(chǎng)的不斷發(fā)展,大眾蔚攬以其優(yōu)雅的設(shè)計(jì)和卓越的性能贏得了眾多消費(fèi)者的青睞。作為一款兼具實(shí)用性和...瀏覽全文>>
- Alienware 在 2025 年 CES 上展示了一些超凡脫俗的技術(shù)
- Wickes 任命首席零售和分銷(xiāo)官
- 分析師稱GTA 6或?qū)?shù)立行業(yè)新標(biāo)準(zhǔn)
- 索尼和本田在拉斯維加斯推出售價(jià) 89,900 美元的 Afeela 1
- 日本 11 月游客人數(shù)創(chuàng)月度新高
- 神經(jīng)認(rèn)知測(cè)試在 3 歲兒童白血病治療期間可行
- 牛津郡小學(xué)支持圣誕毛衣日
- S?strene Grene 投資歐洲物流中心
- 有人已經(jīng)在電視上直播 BNMC 打造的 1967 年福特野馬 Restomod
- 潛在的分子療法可以逆轉(zhuǎn)小鼠的胎盤(pán)發(fā)育問(wèn)題
- 奔馳GLE預(yù)約試駕,新手必看的詳細(xì)流程
- 滁州T-ROC探歌 2025新款價(jià)格,最低售價(jià)15.89萬(wàn)起,趕緊行動(dòng)
- 安徽淮南威然最新價(jià)格2024款,各配置車(chē)型售價(jià)全知曉
- 滁州途觀X最新價(jià)格2024款,買(mǎi)車(chē)省錢(qián)秘籍
- 淮南長(zhǎng)安啟源Q05 2025新款價(jià)格,最低售價(jià)9.69萬(wàn)起,入手正當(dāng)時(shí)
- 安徽淮南探影多少錢(qián) 2023款落地價(jià),各配置車(chē)型售價(jià)一目了然
- 淮南途觀X價(jià)格大揭秘,買(mǎi)車(chē)前必看
- 安徽淮南長(zhǎng)安獵手K50新款價(jià)格2025款多少錢(qián)?買(mǎi)車(chē)攻略一網(wǎng)打盡
- 滁州ID.4 X新款價(jià)格2025款多少錢(qián)?買(mǎi)車(chē)攻略一網(wǎng)打盡
- QQ多米落地價(jià),購(gòu)車(chē)前必看的費(fèi)用明細(xì)
- Nvidia DLSS 4 有望將游戲性能提高 8 倍
- 人工智能在預(yù)測(cè)自身免疫性疾病進(jìn)展方面顯示出良好的前景
- 心理物理實(shí)驗(yàn)揭示皮膚水分感知是如何改變的
- 科茨沃爾德公司慶祝圣誕節(jié)圓滿成功
- 南法納姆學(xué)校被評(píng)為薩里郡表現(xiàn)最好的小學(xué)
- 約克區(qū)九所小學(xué)將削減招生人數(shù)
- 松下新款電動(dòng)汽車(chē)電池為 Lucid Gravity 帶來(lái) 450 英里續(xù)航里程
- 泰國(guó)旅游呈現(xiàn)新趨勢(shì)
- 研究人員找到在細(xì)胞水平上餓死前列腺癌腫瘤的新方法
- 領(lǐng)先的人工智能聊天機(jī)器人在測(cè)試中表現(xiàn)出類似癡呆癥的認(rèn)知能力下降
- 龐大的 Project Zomboid build 42 終于可以玩了
- Steam Replay 回歸向您展示 2024 年您玩得最多的 PC 游戲
- Jollyes 推出強(qiáng)化的人才支持和招聘措施
- Karen Millen 與 Simon Harrison 共同推出全新高級(jí)珠寶系列
- 奇瑞風(fēng)云A8L電動(dòng)轎車(chē)刷新續(xù)航里程世界紀(jì)錄
- 虛擬藝術(shù)家將別克 Cascada 帶回 2026 款車(chē)型
- OnePlus 宣布推出新計(jì)劃解決綠線問(wèn)題
- OnePlus Watch 3 將擁有更大的電池和更薄的機(jī)身
- 研究人員發(fā)現(xiàn)可變剪接與自身免疫性疾病遺傳之間的細(xì)胞類型特異性聯(lián)系
- 科學(xué)家確定腦細(xì)胞類型是排尿的主要控制者