李飛飛「數(shù)字表兄弟」破解機器人訓練難題!零樣本sim2real成功率高達90%
相信很多大家對李飛飛「數(shù)字表兄弟」破解機器人訓練難題!零樣本sim2real成功率高達90%還不知道吧,今天菲菲就帶你們一起去了解一下~.~!
【新智元導讀】在用模擬環(huán)境訓練機器人時,所用的數(shù)據(jù)與真實世界存在著巨大的差異。為此,李飛飛團隊提出「數(shù)字表親」,這種虛擬資產(chǎn)既具備數(shù)字孿生的優(yōu)勢,還能補足泛化能力的不足,并大大降低了成本。
如何有效地將真實數(shù)據(jù)擴展到模擬數(shù)據(jù),進行機器人學習?
最近,李飛飛團隊提出一種「數(shù)字表親」的新方法,可以同時降低真實到模擬生成的成本,同時提高學習的普遍性。
項目主頁:https://digital-cousins.github.io/
論文地址:https://arxiv.org/abs/2410.07408
目前,論文已被CORL2024接收。
你可能會問,什么是「數(shù)字表親」,有啥用呢?
讓我們把它跟數(shù)字孿生比較一下。
的確,數(shù)字孿生可以準確地對場景進行建模,然而它的生成成本實在太昂貴了,而且還無法提供泛化功能。
而另一方面,數(shù)字表親雖然沒有直接模擬現(xiàn)實世界的對應(yīng)物,卻仍然能夠捕獲相似的幾何和語義功能。
這樣,它就大大降低了生成類似虛擬環(huán)境的成本,同時通過提供類似訓練場景的分布,提高了從模擬到真實域遷移的魯棒性。
共同一作Tianyuan Dai表示,既然有免費的「數(shù)字表親」了,何必再去手工設(shè)計數(shù)字孿生?
亮眼的是,「數(shù)字表親」能同時實現(xiàn)——
單幅圖像變成交互式場景
全自動(無需注釋)
機器人策略在原始場景中的零樣本部署
簡單拍一張照片,就能搞定了
模擬數(shù)據(jù)難題:與現(xiàn)實環(huán)境差異過大
在現(xiàn)實世界中訓練機器人,存在策略不安全、成本高昂、難以擴展等問題;相比之下,模擬數(shù)據(jù)是一種廉價且潛在無限的訓練數(shù)據(jù)來源。
然而,模擬數(shù)據(jù)存在一個難以忽視的問題——與現(xiàn)實環(huán)境之間的語義和物理差異。
這些差異可以通過在數(shù)字孿生中進行訓練來最小化,但數(shù)字孿生作為真實場景的虛擬復制品,同樣成本高昂且無法跨域泛化。
正是為了解決這些限制,論文提出了「數(shù)字表親」(digital cousion)的概念。
「數(shù)字表親」是一種虛擬資產(chǎn)或場景,與數(shù)字孿生不同,它不明確模擬現(xiàn)實世界的對應(yīng)物,但仍然展現(xiàn)類似的幾何和語義功能。
因此,數(shù)字表親既具備了數(shù)字孿生的優(yōu)勢,能夠補足現(xiàn)實數(shù)據(jù)的不足,同時降低了生成類似虛擬環(huán)境的成本,并能更好地促進跨域泛化。
具體而言,論文引入了一種自動創(chuàng)建數(shù)字表親(Automatic Creation of Digital Cousins,ACDC)的新方法,并提出了一個完全自動化的,從真實到模擬再到真實的流程,用于生成交互式場景和訓練策略。
實驗結(jié)果發(fā)現(xiàn),ACDC生成的數(shù)字表親場景能夠保留幾何和語義功能,訓練出的策略也優(yōu)于數(shù)字孿生(90% vs.25%),而且可以通過零樣本學習直接部署在原始場景中。
方法概述
與數(shù)字孿生不同,數(shù)字表親并不苛求在所有微小細節(jié)上都要重建給定場景,而是專注于保留更高級別的細節(jié),例如空間關(guān)系和語義。
ACDC是一個完全自動化的端到端流程,從單個RGB圖像生成完全交互式的模擬場景,由三個連續(xù)步驟組成:
信息提取:首先,從輸入的RGB圖像中提取對象信息。
數(shù)字表親匹配:利用第一步提取的信息,結(jié)合預(yù)先準備的3D模型資產(chǎn)數(shù)據(jù)集,為檢測到的每個對象匹配相應(yīng)的數(shù)字表親。
場景生成:對選擇的數(shù)字表親進行后處理并編譯在一起,生成一個物理上合理且完全交互式的模擬場景。
通過這三個步驟,ACDC能夠自動創(chuàng)建與輸入圖像語義相似但不完全相同的虛擬場景,為機器人策略訓練提供多樣化的環(huán)境。
策略學習構(gòu)建了一組數(shù)字表親后,就可以這些環(huán)境中訓練機器人策略。
雖然這種方法適用于多種訓練范式,例如強化學習或模仿學習,但本文選擇聚焦于于腳本演示(scripted demonstrations)的模仿學習,因為這種范式不需要人類演示,與完全自主化的ACDC流程更加適配。
為了能在模擬環(huán)境中自動實現(xiàn)演示的收集,作者首先實施了一組基于樣本的技能,包括Open(開)、 Close(關(guān))、 Pick(拿)和Place(放)四種。
雖然技能的種類數(shù)仍然有限,但已經(jīng)足夠收集各種日常任務(wù)的演示,例如對象重新排列和家具鉸接。
實驗
通過實驗,團隊回答了以下研究問題:
Q1:ACDC能否生成高質(zhì)量的數(shù)字表親場景?給定單張RGB圖像,ACDC能否捕捉原始場景中固有的高級語義和空間細節(jié)?
Q2:在原始的環(huán)境設(shè)置上評估時,在數(shù)字表親上訓練的策略能否匹配數(shù)字孿生的性能?
Q3:在分布外設(shè)置上評估時,在數(shù)字表親上訓練的策略是否表現(xiàn)出更強的穩(wěn)健性?
Q4:在數(shù)字表親上訓練的策略能否實現(xiàn)零樣本的sim2real策略遷移?
通過ACDC進行場景重建首先團隊需要論證的最重要的問題,就是ACDC能生成高質(zhì)量的數(shù)字表親場景嗎?
從表格中的數(shù)據(jù)來看,結(jié)果十分令人滿意。
以下是在sim-to-sim場景中對ABCD場景重建進行的定量和定性評估。
在sim2sim場景中對ACDC進行場景重建的定量和定性評估
評估指標包括:
「Scale」:輸入場景中兩個對象邊界框之間的最大距離。
「Cat.」:正確分類對象占場景總對象總數(shù)的比例。
「Mod.」:正確建模對象占場景中對象總數(shù)的比例。
「L2Dist.」:輸入和重建場景中邊界框中心間歐幾里得距離的均值和標準差。
「Ori. Diff.」:每個中心對稱對象方向幅度差異的均值和標準差。
「Bbox IoU」:資產(chǎn)3D邊界框的交并比(IoU)。
以下是ACDC實景到模擬場景的重建結(jié)果。
在給定場景中,會顯示多個數(shù)字表親。
ACDC真實到模擬場景重建結(jié)果的定性評估,展示了為給定場景生成的多個數(shù)字表親
基于這些結(jié)果,研究者可以肯定地回答Q1了——
ACDC確實能夠保留輸入場景的語義和空間細節(jié),從單張RGB圖像生成真實世界對象的數(shù)字表親,并能準確定位和縮放以匹配原始場景。
sim2sim的策略學習這部分的實驗主要是為了回答上述研究中的Q2和Q3,在3個任務(wù)上分析ACDC訓練策略的能力,包括「開門」、「打開抽屜」和「收起碗」,每項任務(wù)都與數(shù)字孿生設(shè)置進行了對比。
不同設(shè)置中的總體成功率如下圖所示。
可以發(fā)現(xiàn),在數(shù)字表親上訓練的策略通常可以匹配,甚至優(yōu)于數(shù)字孿生的設(shè)置。
作者假設(shè),由于數(shù)字表親的策略是在不同環(huán)境設(shè)置的數(shù)據(jù)上進行訓練的,因此可以覆蓋廣泛的狀態(tài)空間,從而很好地推廣到原始數(shù)字孿生設(shè)置。
然而,在另一個極端,針對所有可行資產(chǎn)(All Assets)進行訓練場的策略要比數(shù)字孿生差得多,這表明樸素的領(lǐng)域隨機化并不總是有用的。
此外,隨著DINO嵌入距離的增加,即評估設(shè)置與原始設(shè)置的差異逐漸增大,數(shù)字孿生的策略性能通常會出現(xiàn)成比例的顯著下降,但數(shù)字孿生策略整體表現(xiàn)更加穩(wěn)定,證明了在分布外設(shè)置上的魯棒性。
sim2real的策略學習隨后,研究者對數(shù)字孿生和數(shù)字表親策略進行了零樣本現(xiàn)實世界評估。
任務(wù)是給宜家柜子上開門。
評估指標就是成功率。
結(jié)果顯示,模擬結(jié)果平均超過50次試驗,真實結(jié)果平均超過20次試驗。
real2sim2real的場景生成和策略學習無論是數(shù)字孿生還是數(shù)字表親,最終的落腳點還是要在真實環(huán)境中對比性能。
因此實驗的最后,團隊在完全真實(in-the-wild)的廚房場景中端到端地測試了完整的ACDC管道和自動化策略學習框架。
在經(jīng)過數(shù)字表親的專門模擬訓練后,機器人可以成功打開廚房櫥柜,證明了ACDC方法遷移到真實環(huán)境中的有效性。
以下Demo展示了完全自動化的數(shù)字表親生成過程。
左右滑動查看
零樣本的sim2real策略遷移實驗表明,僅從上述生成的四個數(shù)字表親訓練的模擬策略,可以直接遷移到相應(yīng)的真實廚房場景。
基于這些結(jié)果,研究者可以肯定地回答Q2、Q3和Q4了——
使用數(shù)字表親訓練的策略,表現(xiàn)出了與在數(shù)字孿生上訓練策略相當?shù)姆植純?nèi)性能,以及更強的分布外魯棒性,并且可以實現(xiàn)零樣本從模擬到現(xiàn)實的策略遷移。
失敗案例即使ACDC方法表現(xiàn)出了整體上的優(yōu)越性能,研究團隊也在實驗中觀察到了幾個失敗案例,例如:在打開柜子的任務(wù)中,機器人未能完全移動到把手所在位置——
或者移動時錯過把手——
即使正確找到了把手所在位置,也有可能手滑——
可以觀察到,ACDC經(jīng)常在以下幾種情況下陷入困境:
a. 高頻深度信息
b. 遮擋
c .語義類別差異
d. 缺乏相應(yīng)類別的資產(chǎn)
e. 除「位于頂部」之外的對象關(guān)系
前三個限制,與ACDC的參數(shù)化方式直接相關(guān)。
比如對于(a),由于ACDC依賴于相對準確的深度估計,來計算預(yù)測的對象3D邊界框,因此不準確的深度圖可能會導致ACDC對物體模型的估計相應(yīng)較差。
原生深度傳感器在物體邊界附近可能難以產(chǎn)生準確的讀數(shù),這是因為深度圖在這些區(qū)域可能出現(xiàn)不連續(xù)性。當物體具有許多精細邊界時(例如植物和柵欄),這個問題會變得更加復雜。
此外,由于研究者依賴現(xiàn)成的基礎(chǔ)模型(DepthAnything-v2)來預(yù)測合成深度圖,因此也承襲了模型自身的一系列限制,例如對特殊物體或在不利的視覺條件下的預(yù)測較差。
結(jié)論
最終,研究者得出了以下結(jié)論。
ACDC是一個全自動化管線,能夠快速生成與單張真實世界RGB圖像相對應(yīng)的完全交互式數(shù)字表親場景。
研究發(fā)現(xiàn):
1. 魯棒性
在這些數(shù)字表親設(shè)置上訓練的策略,比在數(shù)字孿生上訓練的策略表現(xiàn)出更強的魯棒性。
為了進一步檢查數(shù)字表親對樸素域隨機化的相對影響,研究者根據(jù)其他基線在 DoorOpening任務(wù)上重新運行了sim2sim實驗
2.性能對比
領(lǐng)域內(nèi)性能:數(shù)字表親訓練的策略與數(shù)字孿生訓練的策略相當。
領(lǐng)域外泛化:數(shù)字表親訓練的策略展現(xiàn)出優(yōu)越的領(lǐng)域外泛化能力。
3. 零樣本學習
數(shù)字表親訓練的策略能夠?qū)崿F(xiàn)零樣本從模擬到現(xiàn)實的策略遷移。
作者介紹
TianyuanDaiTianyuan Dai本科畢業(yè)于香港科技大學,獲得了計算機科學和數(shù)學學士學位,目前在斯坦福攻讀碩士學位,隸屬于斯坦福SVL實驗室(Vision and Learning Lab)和PAIR研究小組(People, AI & Robots Group),由李飛飛指導。
他的長期愿景是將人類對現(xiàn)實世界環(huán)境的理解融入到機器人算法中,使用數(shù)據(jù)驅(qū)動的方法幫助人們完成日常任務(wù);最近研究的重點是開發(fā)real2sim2real范式,以實現(xiàn)穩(wěn)健的操控策略學習(manipulation policy learning)。
Josiah WongJosiah Wong目前在斯坦福大學攻讀機械工程博士學位,導師是李飛飛,同樣在SVL和PAIR組工作。
此前,他在斯坦福大學獲得碩士學位,在加利福尼亞大學圣迭戈分校獲得學士學位。
他致力于利用仿真技術(shù)來拓展機器人操作能力,目標是推動日常通用機器人的發(fā)展,從而改善我們的日常生活。
參考資料:
https://x.com/RogerDai1217/status/1844411408374693941
以上就是關(guān)于【李飛飛「數(shù)字表兄弟」破解機器人訓練難題!零樣本sim2real成功率高達90%】的相關(guān)內(nèi)容,希望對大家有幫助!
免責聲明:本文由用戶上傳,與本網(wǎng)站立場無關(guān)。財經(jīng)信息僅供讀者參考,并不構(gòu)成投資建議。投資者據(jù)此操作,風險自擔。 如有侵權(quán)請聯(lián)系刪除!
-
奔馳GLE作為豪華SUV市場中的佼佼者,憑借其卓越的性能、豪華的內(nèi)飾以及寬敞的空間,吸引了眾多消費者的關(guān)注。...瀏覽全文>>
-
在2025年,安徽阜陽地區(qū)的帕薩特新能源汽車市場表現(xiàn)非?;钴S。作為一款備受關(guān)注的新能源車型,帕薩特新能源憑...瀏覽全文>>
-
近日,滁州地區(qū)的大眾汽車經(jīng)銷商傳來好消息:備受矚目的2025款T-ROC探歌正式上市,并且以極具競爭力的價格吸引...瀏覽全文>>
-
在選擇一款新能源汽車時,了解其價格和配置是非常重要的一步。安徽淮南地區(qū)的長安啟源E07作為2024款的新車型,...瀏覽全文>>
-
阜陽長安啟源A05作為長安汽車旗下的全新車型,自推出以來便憑借其獨特的設(shè)計風格和豐富的配置吸引了眾多消費者...瀏覽全文>>
-
阜陽長安啟源A07作為一款備受矚目的新能源車型,以其豪華配置和親民的價格在市場上引起了廣泛關(guān)注。這款車型不...瀏覽全文>>
-
安徽淮南威然2024款價格及配置詳解隨著汽車市場的不斷更新?lián)Q代,上汽大眾旗下的MPV車型——威然(Viloran)憑...瀏覽全文>>
-
QQ多米新車報價2025款,買車省錢秘籍隨著汽車市場的不斷發(fā)展,消費者在選購車輛時不僅關(guān)注車型的性能和配置,...瀏覽全文>>
-
滁州途觀X 2024款最新價格及買車省錢秘籍隨著汽車市場的不斷發(fā)展,大眾途觀X作為一款兼具時尚與性能的中型SUV...瀏覽全文>>
-
隨著汽車市場的不斷發(fā)展,大眾蔚攬以其優(yōu)雅的設(shè)計和卓越的性能贏得了眾多消費者的青睞。作為一款兼具實用性和...瀏覽全文>>
- Nvidia DLSS 4 有望將游戲性能提高 8 倍
- 人工智能在預(yù)測自身免疫性疾病進展方面顯示出良好的前景
- 心理物理實驗揭示皮膚水分感知是如何改變的
- 科茨沃爾德公司慶祝圣誕節(jié)圓滿成功
- 南法納姆學校被評為薩里郡表現(xiàn)最好的小學
- 約克區(qū)九所小學將削減招生人數(shù)
- 松下新款電動汽車電池為 Lucid Gravity 帶來 450 英里續(xù)航里程
- 泰國旅游呈現(xiàn)新趨勢
- 研究人員找到在細胞水平上餓死前列腺癌腫瘤的新方法
- 領(lǐng)先的人工智能聊天機器人在測試中表現(xiàn)出類似癡呆癥的認知能力下降
- 龐大的 Project Zomboid build 42 終于可以玩了
- Steam Replay 回歸向您展示 2024 年您玩得最多的 PC 游戲
- Jollyes 推出強化的人才支持和招聘措施
- Karen Millen 與 Simon Harrison 共同推出全新高級珠寶系列
- 奇瑞風云A8L電動轎車刷新續(xù)航里程世界紀錄
- 虛擬藝術(shù)家將別克 Cascada 帶回 2026 款車型
- OnePlus 宣布推出新計劃解決綠線問題
- OnePlus Watch 3 將擁有更大的電池和更薄的機身
- 研究人員發(fā)現(xiàn)可變剪接與自身免疫性疾病遺傳之間的細胞類型特異性聯(lián)系
- 科學家確定腦細胞類型是排尿的主要控制者