首頁 >> 今日更新 >

微調(diào)Flux席卷全網(wǎng)，外國小哥一人組一隊漫威英雄！

2024-08-19 14:30:25 來源：用戶：

相信很多大家對微調(diào)Flux席卷全網(wǎng)，外國小哥一人組一隊漫威英雄！還不知道吧，今天菲菲就帶你們一起去了解一下~.~！

Midjourney之后，從未見人們對某個AI生圖應(yīng)用，如此瘋狂著迷。

Flux的橫空出世，意味著AI圖像生成邁入了一個全新的階段。

馬斯克本人表示，真假已經(jīng)傻傻分不清。

先是，一張TED演講者逼真照片席卷了整個互聯(lián)網(wǎng)。再之后，集成Flux模型的Grok2破除護欄限制，被網(wǎng)友玩瘋。

最近，F(xiàn)lux開發(fā)者們也紛紛入坑，開啟微調(diào)自己的LoRA模型。

HuggingFace聯(lián)創(chuàng)驚嘆道，F(xiàn)lux已經(jīng)完全席卷了開源AI界，從未見過一個模型，同時有如此多的衍生模型/在線平臺/demo占據(jù)熱榜。

一手微調(diào)的開發(fā)者表示，「Flux+LoRA將顛覆生成式AI市場。你可以在任何地方，戴著任何東西，穿著任何你喜歡的衣服，生成不同的自己」。

比如，讓自己變身超人。

拿上伸縮光影劍，變身絕地武士，愿原力與你同在。

不僅如此，冰雕，拿著switch游戲機，精靈耳，時裝走秀等各種形象的照片，都是動動嘴皮子的事。

微調(diào)自己的LoRA，現(xiàn)已經(jīng)成為許多開發(fā)者的新玩物。

這不，全網(wǎng)都被Flux+LoRA淹沒了。

一個人就能組成「復(fù)仇者聯(lián)盟」

Rundown AI的創(chuàng)始人Rowan Cheung將自己的照片作為數(shù)據(jù)，用Flux訓(xùn)練了一個LoRA模型，然后聯(lián)動Runway讓其動起來。

如下，生成了一張類似TED演講者的圖片。

做成視頻后，照片中的自己真的活靈活現(xiàn)了，很有演講者范兒。唯一不足的是，右手到后面指頭就變成了2-3根。

另一張，生成了以超人身份拯救世界的自己。

配上動畫，終于做了一回漫威中的英雄。

再生成一張身穿時裝，走秀現(xiàn)場的照片。

兩邊觀眾熱烈鼓掌，也算是體驗了一把T臺走秀。

此外，Rowan Cheung還生成了不同風(fēng)格的自己，和場景融合自洽，毫無違和感。

左右滑動查看

他認為，雖然AI生圖依舊不能替代完整的電影/商業(yè)廣告，但其已經(jīng)有很多重要的用途，尤其對內(nèi)容創(chuàng)作者來說。

比如，這些AI圖片制作用于新聞的預(yù)覽圖和配圖，以及短片中的補充素材（B-roll）。

網(wǎng)友Min Choi看后表示，自己可以組建一支「復(fù)仇者聯(lián)盟」了。

前英特爾CTO在A100上，同樣微調(diào)了一個自己的LoRA模型，75分鐘花費了7美金（約50元）。

左右滑動查看

還有開發(fā)者硬是把自己拍成了恐怖片。

分不清AI還是現(xiàn)實

要說最火的，還是「超現(xiàn)實主義」的微調(diào)版本——讓人越來越分不清想象和現(xiàn)實的邊界了。

是真實的照片，還是AI畫出來的人?

在Flux-Dev中用LoRA訓(xùn)練后，無論是場景復(fù)雜性還是真實感，都取得了不可思議的進展。

什么風(fēng)格都能微調(diào)

除此之外，各種不同風(fēng)格的微調(diào)也層出不窮。

像素風(fēng)格

開發(fā)者以傳奇的ZX Spectrum中的風(fēng)格為例，微調(diào)出類似像素的圖片生成LoRA。

下面生成圖像中，有龍珠孫悟空、漫威鋼鐵俠、川建國（貌似）等形象。

左右滑動查看

動畫涂鴉

PS生成式AI產(chǎn)品設(shè)計人Davis Brown基于Flux，微調(diào)出了一個half_illustration模型。

它生成的圖片，有一部分是真實照片的畫風(fēng)，一部分是動畫涂鴉的風(fēng)格。

每次生圖前，只需要在提示開頭加上——In the style of TOK。

然后，具體描述想要的效果，就能立即出片。

以后感覺不一定非得用PS，直接AI生圖就可以了。

還有其他涂鴉風(fēng)格的照片。

左右滑動查看

九宮格

開源數(shù)據(jù)集平臺LAION用Flux模型，訓(xùn)出了一個可以生成3x3九宮格照片，還是不同角度的自己。

以后自拍一張，就夠了。

左右滑動查看

不同年齡

一個人一生的樣貌，透過Flux+LoRA便可看到。

左右滑動查看

另一個例子:

左右滑動查看

可玩性超強

今天的主角——FLUX.1，采用了一種全新的「流匹配」技術(shù)。

以前的擴散模型是通過逐步去除從隨機起點開始的噪聲來創(chuàng)建圖像，而流匹配則采用更直接的方法，學(xué)習(xí)將噪聲轉(zhuǎn)換為真實圖像所需的精確變化。

這種方法上的差異帶來了獨特的美學(xué)風(fēng)格，并在速度和控制方面具備極大的優(yōu)勢。

文本:大部分都能get到

文本到圖像生成的挑戰(zhàn)之一是準確地將文字轉(zhuǎn)化為視覺表現(xiàn)。FLUX.1在這方面處理得相當好，即使是在像表情包這樣復(fù)雜的場景中。

prompt:

光線和質(zhì)感都不錯

FLUX.1對光線、陰影和紋理有敏銳的理解，能始終如一地生成高質(zhì)量的圖像。

prompt:

在這幅圖里，重點不僅在于玻璃的質(zhì)感，還在于光線如何通過花瓣折射和傳遞，創(chuàng)造出一種發(fā)光的效果。

prompt:

藝術(shù)風(fēng)格:不止是模仿

FLUX.1似乎掌握了各種藝術(shù)風(fēng)格背后的原理，使得創(chuàng)造性的重新詮釋成為可能。

prompt:

這幅《神奈川沖浪里》的「水彩」版本不僅暗示著標志性波浪是模型訓(xùn)練數(shù)據(jù)的一部分，還突出了「流」技術(shù)如何近似顏料在水、紙和墨水中的運動。

構(gòu)圖:讓場景有意義

FLUX.1擅長構(gòu)建復(fù)雜的場景，以一種既真實又有視覺吸引力的方式放置物體和角色。

prompt:

「流」:一種新的視覺語言

FLUX.1所采用的流匹配技術(shù)，賦予了圖像一種獨特的有機運動感和流動性，仿佛像素本身在流動。

prompt:

總有一款工具，能幫你搞定

我們可以把圖像的生成過程概括為:獲取一些輸入像素，將它們從噪聲中稍微移開，朝著由你的文本輸入創(chuàng)建的模式移動，并重復(fù)這一過程，直到達到設(shè)定的步驟數(shù)。

而微調(diào)過程則是從數(shù)據(jù)集中獲取每個圖像/標注對，并稍微更新其內(nèi)部映射。

只要可以通過圖像-標題對表示，你就可以通過這種方式教會模型任何內(nèi)容:角色、場景、媒介、風(fēng)格、流派。

左:使用原始FLUX.1模型生成;右:使用相同提示和種子，在fofr/flux-bad-70s-food模型上生成

在訓(xùn)練中，模型將會學(xué)習(xí)如何把這些概念與特定的文本字符串關(guān)聯(lián)起來。而在提示中，則需要加入這個字符串來激活這種關(guān)聯(lián)。

比如，你想微調(diào)一個「漫畫風(fēng)超級英雄」的模型。

首先，需要收集大量關(guān)于角色的圖像作為數(shù)據(jù)集，包括但不限于:不同的場景、服裝、燈光，甚至可能是不同的藝術(shù)風(fēng)格

然后，選擇一個簡短且不常見的詞或短語作為你的觸發(fā)詞:一種不會與其他概念或微調(diào)沖突的獨特內(nèi)容。你可能會選擇像「糟糕的70年代食物」或「JELLOMOLD」這樣的詞。

在訓(xùn)練完成之后，你只需給出一個包含觸發(fā)詞的提示，如「在舊金山的聚會上拍攝糟糕的70年代食物的場景」，模型就會調(diào)用你之前微調(diào)時加入的特定概念。

就這么簡單。

在了解了原理之后，我們就可以任選一個工具來微調(diào)模型了。

左:使用原始FLUX.1模型生成;右:使用相同提示和種子，在fofr/flux-bad-70s-food模型上生成

比如一位叫Matt Wolfe的小哥，在看到上面這些酷炫的生成之后，也好奇地上手試了一把。

結(jié)果，他翻車了……

做出的AI圖像，堪稱買家秀和賣家秀的區(qū)別。

這是他生成的——

這是別人的——

兩張圖片高下立判，區(qū)別就在于用沒用LoRA微調(diào)。

被刺激到的小哥，立刻去研究了一番，他驚喜地發(fā)現(xiàn)，LoRA模型很小，只有2到500MB，可以輕易地和現(xiàn)有的模型結(jié)合。

更令人驚喜的是，并不需要額外的算力，也不需要全面的再訓(xùn)練，就可以讓AI模型提高畫質(zhì)，產(chǎn)生獨特的風(fēng)格，或者生成特殊的人物，比如馬里奧或者海綿寶寶。

遺憾的是，在小哥用得順手的Glif上，F(xiàn)lux中并不能使用LoRA。

他發(fā)現(xiàn)，能使用Flux的其中一種方法，是用ComfyUI。

這張圖，相信很多人都很熟悉了

或者，也可以使用Replicate、HuggingFace Spaces或Fal AI之類的平臺。

小哥在Fal平臺上試用后，發(fā)現(xiàn)每百萬像素花費0.035美元，所以，只要花1美元，就可以運行模型29次，還是比較劃算的。

在這里FLUX.1dev、Flux Realism LoRA、FLUX.1pro等等，都是可以使用的。

小哥二話不說，選擇了Flux Realism LoRA。

經(jīng)過精心調(diào)試后，小哥將推理步長設(shè)置在了28，CFG設(shè)置在了2。

產(chǎn)生的圖像，效果非常驚喜!

如果說有什么瑕疵，就是額頭皺紋處的打光仍然不自然。

接下來，小哥興奮地將圖像導(dǎo)到Gen-3Alpha中，根據(jù)他輸入的prompt，Gen-3Alpha生成了視頻。

除了在某一刻，手中的麥克風(fēng)突然「飄浮」了起來，視頻的其余部分，挑不出太大毛病了。

小哥又嘗試了一遍，生成了第二個視頻。

這一次，麥克風(fēng)又顯得太過靜止了，仿佛定在了原地。

另外，小哥也加入了全網(wǎng)爆改自己的大潮，生成一系列爆笑的照片。

最后，小哥再用Gen-3Alpha把它變成視頻，就讓自己和死侍走在了同一部電影的畫面中。

參考資料:

https://x.com/dr_cintas/status/1824480995317350401

https://x.com/Gorden_Sun/status/1824843049421484309

https://replicate.com/blog/fine-tune-flux

https://x.com/laion_ai/status/1824814210758459548

https://www.youtube.com/watch?v=_rjto4ix3rA

https://www.youtube.com/watch?v=rDu481JFwqM

以上就是關(guān)于【微調(diào)Flux席卷全網(wǎng)，外國小哥一人組一隊漫威英雄！】的相關(guān)內(nèi)容，希望對大家有幫助！

標簽：微調(diào)Flux席卷全網(wǎng)，外國小哥一人組一隊漫威英雄！

　　免責(zé)聲明：本文由用戶上傳，與本網(wǎng)站立場無關(guān)。財經(jīng)信息僅供讀者參考，并不構(gòu)成投資建議。投資者據(jù)此操作，風(fēng)險自擔(dān)。如有侵權(quán)請聯(lián)系刪除！

相關(guān)閱讀

最新亚洲人成无码网站,夜夜操夜夜操夜夜爽,中文字日产幕乱五区,在线成人看片黄a免费看,亚洲自偷自拍另类11p

微調(diào)Flux席卷全網(wǎng)，外國小哥一人組一隊漫威英雄！

微調(diào)Flux席卷全網(wǎng)，外國小哥一人組一隊漫威英雄！