NVIDIA 自動(dòng)引導(dǎo)技術(shù):改善擴(kuò)散模型中的圖像質(zhì)量和變化
相信很多大家對(duì)NVIDIA 自動(dòng)引導(dǎo)技術(shù):改善擴(kuò)散模型中的圖像質(zhì)量和變化還不知道吧,今天菲菲就帶你們一起去了解一下~.~!
站長(zhǎng)之家(ChinaZ.com)6月7日 消息:NVIDIA 近期提出了一種名為自動(dòng)引導(dǎo)的新方法,旨在改善擴(kuò)散模型中圖像的質(zhì)量和變化,而不影響其與給定條件(如類(lèi)標(biāo)簽或文本提示)的一致性。當(dāng)前的方法通常會(huì)以犧牲多樣性為代價(jià)來(lái)提高圖像質(zhì)量,從而限制了它們?cè)卺t(yī)學(xué)診斷和自動(dòng)駕駛等各種現(xiàn)實(shí)場(chǎng)景中的適用性。然而,克服這一挑戰(zhàn)可以提升人工智能系統(tǒng)在生成逼真且多樣化圖像方面的性能,推動(dòng)當(dāng)前人工智能能力的邊界。
目前解決這一挑戰(zhàn)的方法主要是使用無(wú)分類(lèi)器引導(dǎo)(CFG),它使用無(wú)條件模型來(lái)引導(dǎo)有條件模型。雖然 CFG 改善了提示對(duì)齊和圖像質(zhì)量,但降低了圖像變化。這種權(quán)衡發(fā)生在圖像質(zhì)量和變化的影響在本質(zhì)上是糾纏在一起的,難以獨(dú)立控制它們。此外,CFG 局限于有條件生成,并存在任務(wù)差異問(wèn)題,導(dǎo)致圖像構(gòu)成的偏斜和過(guò)于簡(jiǎn)化的圖像。這些限制影響了方法的性能,并限制了它在生成多樣化和高質(zhì)量圖像方面的應(yīng)用。
NVIDIA 的研究人員提出了一種名為自動(dòng)引導(dǎo)的新方法,它涉及使用主模型的規(guī)模較小、訓(xùn)練時(shí)間較短的版本來(lái)引導(dǎo)生成過(guò)程,而不是使用無(wú)條件模型。這種方法通過(guò)將圖像質(zhì)量與變化解耦,從而更好地控制這些方面,同時(shí)保持與主模型相同的條件,確保生成圖像的一致性。這種創(chuàng)新方法顯著提高了圖像生成的質(zhì)量和變化,在 ImageNet-512和 ImageNet-64等基準(zhǔn)測(cè)試中刷新了記錄,可以應(yīng)用于有條件和無(wú)條件模型。
該方法的核心是訓(xùn)練主模型的規(guī)模較小、訓(xùn)練時(shí)間較短的引導(dǎo)模型。論文詳細(xì)介紹了去噪擴(kuò)散過(guò)程,通過(guò)反轉(zhuǎn)隨機(jī)損壞過(guò)程生成合成圖像。研究人員使用 Fréchet Inception Distance(FID)和 FDDINOv2等指標(biāo)對(duì)模型進(jìn)行評(píng)估,結(jié)果顯示圖像生成質(zhì)量有了顯著提高。例如,在 ImageNet-512中使用小模型(EDM2-S),自動(dòng)引導(dǎo)將 FID 從2.56提高到1.34,超越了現(xiàn)有方法。
廣泛的定量結(jié)果證明了自動(dòng)引導(dǎo)的有效性。該方法在公開(kāi)可用的網(wǎng)絡(luò)上實(shí)現(xiàn)了64×64和512×512圖像分辨率的 FID 記錄,表明圖像質(zhì)量有了顯著提升,而沒(méi)有犧牲多樣性。評(píng)估包括比較不同方法的表格,展示了自動(dòng)引導(dǎo)在 CFG 和其他基線方法上的優(yōu)越性能。例如,該方法在 ImageNet 數(shù)據(jù)集上實(shí)現(xiàn)了87.5% 的準(zhǔn)確率,超過(guò)了先前的最先進(jìn)水平。
這種改進(jìn)擴(kuò)散模型中圖像質(zhì)量的新方法涉及使用模型的規(guī)模較小、訓(xùn)練時(shí)間較短的引導(dǎo)模型。所提出的自動(dòng)引導(dǎo)方法克服了像 CFG 這樣的現(xiàn)有方法的局限性。這種創(chuàng)新方法在基準(zhǔn)測(cè)試中取得了最先進(jìn)的成績(jī),顯著推進(jìn)了人工智能研究領(lǐng)域,為生成高質(zhì)量和多樣化圖像提供了更高效、更有效的解決方案。
以上就是關(guān)于【NVIDIA 自動(dòng)引導(dǎo)技術(shù):改善擴(kuò)散模型中的圖像質(zhì)量和變化】的相關(guān)內(nèi)容,希望對(duì)大家有幫助!
免責(zé)聲明:本文由用戶(hù)上傳,與本網(wǎng)站立場(chǎng)無(wú)關(guān)。財(cái)經(jīng)信息僅供讀者參考,并不構(gòu)成投資建議。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。 如有侵權(quán)請(qǐng)聯(lián)系刪除!
- 董明珠曾喊話雷軍給股民分多少錢(qián)!格力:擬分紅超55億
- Epic喜+1:動(dòng)作游戲《師父》免費(fèi)領(lǐng) 立省139元
- 雷軍辟謠只招聘35歲以下員工:僅針對(duì)未來(lái)之星項(xiàng)目
- 普華永道發(fā)布2025年AI預(yù)測(cè):AI Agents將勞動(dòng)力提升1倍
- 雷軍回應(yīng)股價(jià)暴跌:年年難過(guò)年年過(guò)
- 一天100座!理想汽車(chē)第1700座超充站正式建成
- 《守望先鋒》國(guó)服宣布2月19日回歸:賬號(hào)數(shù)據(jù)完整保留
- 雷軍建議創(chuàng)業(yè)者要多留點(diǎn)錢(qián)給員工:別到山窮水盡才講問(wèn)題
- 雷軍新年第一天收到200元紅包 自侃年入百萬(wàn)的開(kāi)始
- 雷軍親自展示REDMI Turbo 4!2025年第一款新機(jī)
- 雷軍:小米未來(lái)10年建至少20座世界頂級(jí)工廠
- 雷軍辟謠只招聘35歲以下員工:只有招聘未來(lái)之星時(shí)才有年齡限制
- 雷軍回應(yīng)100億造車(chē):沒(méi)有好到“封神” 不要神話我
- 雷軍表態(tài):一心做好小米汽車(chē) 大家可以在“許愿池”尋找商機(jī)
- 雷軍:中國(guó)汽車(chē)產(chǎn)業(yè)應(yīng)少些歪門(mén)邪道 不要發(fā)黑稿、背后捅刀子
- 小米SU7選配色都是7000元 為什么璀璨洋紅卻需要9000元
-
【空谷幽蘭是什么意思】“空谷幽蘭”是一個(gè)富有詩(shī)意的成語(yǔ),常用來(lái)形容在偏僻、冷清的地方生長(zhǎng)的蘭花。它不僅...瀏覽全文>>
-
【空格怎么打出來(lái)】在日常使用電腦或手機(jī)輸入文字時(shí),經(jīng)常會(huì)遇到需要輸入“空格”的情況。雖然看似簡(jiǎn)單,但很...瀏覽全文>>
-
【空格怎么打】在日常使用電腦或手機(jī)時(shí),很多人會(huì)遇到“空格怎么打”的問(wèn)題。其實(shí),“空格”是一個(gè)非?;A(chǔ)的...瀏覽全文>>
-
【空格名字怎么打】在日常使用電腦或手機(jī)時(shí),很多人會(huì)遇到“空格名字怎么打”的問(wèn)題。尤其是在輸入法設(shè)置、文...瀏覽全文>>
-
【空格鍵是指的哪一個(gè)】在日常使用電腦或手機(jī)的過(guò)程中,我們經(jīng)常接觸到各種按鍵,其中“空格鍵”是一個(gè)非常基...瀏覽全文>>
-
【空擋是什么意思】“空擋”是一個(gè)在多個(gè)領(lǐng)域中常見(jiàn)的術(shù)語(yǔ),尤其在汽車(chē)駕駛、機(jī)械操作以及一些比喻性表達(dá)中使...瀏覽全文>>
-
【空城舊夢(mèng)是情侶網(wǎng)名嗎】“空城舊夢(mèng)”這個(gè)詞語(yǔ),聽(tīng)起來(lái)充滿(mǎn)了詩(shī)意和情感色彩。它常被用于表達(dá)一種孤獨(dú)、懷念...瀏覽全文>>
-
【可吸收線是什么顏色】在醫(yī)學(xué)領(lǐng)域,尤其是外科手術(shù)中,可吸收線是一種常見(jiàn)的縫合材料。它主要用于縫合傷口,...瀏覽全文>>
-
【可為是什么意思】“可為”一詞源自中文,常用于表達(dá)“可以做”、“值得做”或“有作為”的含義。在不同語(yǔ)境...瀏覽全文>>
-
【可微與可導(dǎo)之間有什么聯(lián)系】在微積分的學(xué)習(xí)過(guò)程中,“可導(dǎo)”和“可微”是兩個(gè)經(jīng)常被提到的概念,它們看似相...瀏覽全文>>