馬毅教授CRATE-α模型首次證實(shí)白盒Transformer可擴(kuò)展性
相信很多大家對馬毅教授CRATE-α模型首次證實(shí)白盒Transformer可擴(kuò)展性還不知道吧,今天菲菲就帶你們一起去了解一下~.~!
站長之家(ChinaZ.com)6月6日 消息:馬毅教授團(tuán)隊(duì)最近取得了顯著的研究成果,他們開發(fā)的CRATE-α模型首次證實(shí)了白盒Transformer架構(gòu)的可擴(kuò)展性。這一進(jìn)展對于自然語言處理(NLP)、圖像處理和視覺計(jì)算領(lǐng)域的深度表征學(xué)習(xí)具有重要意義。
盡管Transformer架構(gòu)及其變體在AI領(lǐng)域取得了巨大成功,但它們大多基于經(jīng)驗(yàn)設(shè)計(jì),缺乏嚴(yán)格的數(shù)學(xué)解釋。CRATE模型通過數(shù)學(xué)推導(dǎo)得到每一層,提供了更好的可解釋性。不過,CRATE的應(yīng)用規(guī)模之前相對有限,與Vision Transformer的參數(shù)量相比有較大差距。
為了解決這一問題,研究團(tuán)隊(duì)提出了CRATE-α,它對稀疏編碼塊進(jìn)行了策略性但最小化的修改,并設(shè)計(jì)了輕量級的訓(xùn)練方法,有效提高了CRATE的可擴(kuò)展性。實(shí)驗(yàn)結(jié)果顯示,CRATE-α的性能隨著模型尺寸和訓(xùn)練數(shù)據(jù)集的增大而持續(xù)提升。在ImageNet分類任務(wù)上,CRATE-α-B和CRATE-α-L的準(zhǔn)確率顯著提高,同時保持了CRATE模型的可解釋性。
研究人員使用了ImageNet-21K和ImageNet-1K數(shù)據(jù)集進(jìn)行訓(xùn)練和微調(diào),證明了CRATE-α在不同像素塊大小下的性能。此外,他們還采用了多模態(tài)數(shù)據(jù)集DataComp1B,包含14億圖文對,通過對比學(xué)習(xí)的方法訓(xùn)練CRATE-α,并使用優(yōu)化的CLIPA協(xié)議減少計(jì)算資源消耗。
CRATE-α模型的可擴(kuò)展性通過在ImageNet-1K數(shù)據(jù)集上的零樣本學(xué)習(xí)評估得到了證明,這為衡量模型的泛化能力提供了重要指標(biāo)。研究人員還發(fā)現(xiàn)了節(jié)省計(jì)算資源的擴(kuò)展策略,通過調(diào)整預(yù)訓(xùn)練階段的圖像token序列長度,在減少計(jì)算資源消耗的同時,保持了模型性能。
CRATE-α的語義可解釋性也得到了提升,使用MaskCut評估模型捕獲的豐富語義信息,CRATE-α在目標(biāo)檢測和分割方面比現(xiàn)有模型有所提高。這些研究成果不僅推動了Transformer模型的發(fā)展,也為未來的研究和應(yīng)用開辟了新的道路。
論文:https://arxiv.org/pdf/2405.20299
項(xiàng)目地址:https://rayjryang.github.io/CRATE-alpha/
以上就是關(guān)于【馬毅教授CRATE-α模型首次證實(shí)白盒Transformer可擴(kuò)展性】的相關(guān)內(nèi)容,希望對大家有幫助!
免責(zé)聲明:本文由用戶上傳,與本網(wǎng)站立場無關(guān)。財(cái)經(jīng)信息僅供讀者參考,并不構(gòu)成投資建議。投資者據(jù)此操作,風(fēng)險自擔(dān)。 如有侵權(quán)請聯(lián)系刪除!
-
【空谷幽蘭是什么意思】“空谷幽蘭”是一個富有詩意的成語,常用來形容在偏僻、冷清的地方生長的蘭花。它不僅...瀏覽全文>>
-
【空格怎么打出來】在日常使用電腦或手機(jī)輸入文字時,經(jīng)常會遇到需要輸入“空格”的情況。雖然看似簡單,但很...瀏覽全文>>
-
【空格怎么打】在日常使用電腦或手機(jī)時,很多人會遇到“空格怎么打”的問題。其實(shí),“空格”是一個非?;A(chǔ)的...瀏覽全文>>
-
【空格名字怎么打】在日常使用電腦或手機(jī)時,很多人會遇到“空格名字怎么打”的問題。尤其是在輸入法設(shè)置、文...瀏覽全文>>
-
【空格鍵是指的哪一個】在日常使用電腦或手機(jī)的過程中,我們經(jīng)常接觸到各種按鍵,其中“空格鍵”是一個非?;?..瀏覽全文>>
-
【空擋是什么意思】“空擋”是一個在多個領(lǐng)域中常見的術(shù)語,尤其在汽車駕駛、機(jī)械操作以及一些比喻性表達(dá)中使...瀏覽全文>>
-
【空城舊夢是情侶網(wǎng)名嗎】“空城舊夢”這個詞語,聽起來充滿了詩意和情感色彩。它常被用于表達(dá)一種孤獨(dú)、懷念...瀏覽全文>>
-
【可吸收線是什么顏色】在醫(yī)學(xué)領(lǐng)域,尤其是外科手術(shù)中,可吸收線是一種常見的縫合材料。它主要用于縫合傷口,...瀏覽全文>>
-
【可為是什么意思】“可為”一詞源自中文,常用于表達(dá)“可以做”、“值得做”或“有作為”的含義。在不同語境...瀏覽全文>>
-
【可微與可導(dǎo)之間有什么聯(lián)系】在微積分的學(xué)習(xí)過程中,“可導(dǎo)”和“可微”是兩個經(jīng)常被提到的概念,它們看似相...瀏覽全文>>