視頻生成大模型賽道,只是看上去擁擠
相信很多大家對(duì)視頻生成大模型賽道,只是看上去擁擠還不知道吧,今天菲菲就帶你們一起去了解一下~.~!
2024 年最后一個(gè)月,國(guó)產(chǎn)大模型落地應(yīng)用突然加速。尤其視頻生成模型,就像密集射出子彈后的槍管,熱得發(fā)燙。
12 月 19 日,快手可靈更新了1. 6 模型,相比兩周前高調(diào)擴(kuò)散AI導(dǎo)演共創(chuàng)計(jì)劃,這個(gè)動(dòng)作顯得安靜很多。但是快手選擇升級(jí)模型的這個(gè)時(shí)間點(diǎn),似乎有些深意。
因?yàn)橐惶烨暗?12 月 18 日,字節(jié)火山原動(dòng)力大會(huì),第一次對(duì)外發(fā)布豆包視頻生成大模型。同時(shí)張楠從抖音來到剪映成為掌門人之后,首次對(duì)外亮相。她簡(jiǎn)短介紹了今年 5 月份就推出的即夢(mèng),一款跟可靈類似的視頻生成工具。
會(huì)上,張楠給出即夢(mèng)的明確含義:想象力相機(jī),以此對(duì)應(yīng)抖音的現(xiàn)實(shí)相機(jī)。但是她沒有講太多產(chǎn)品細(xì)節(jié),只是播放了兩個(gè)樣片。她說產(chǎn)品和技術(shù)都還在早期階段。
這可能是避免外界將即夢(mèng)和一周前公布的Sora Turbo做直接對(duì)比。
OpenAI年底為期 12 天的直播,重頭戲是在 12 月 10 日,長(zhǎng)達(dá) 10 個(gè)月的鋪墊之后,Sora終于揭開面紗。
其中最大亮點(diǎn)是「故事板」(view story)功能,提示詞可以直接轉(zhuǎn)化劇本。此外新版Sora視頻生成速度更快,編輯功能更實(shí)用。為此,用戶每月要付出 200 美元的成本。所以雖然產(chǎn)品發(fā)布當(dāng)天,服務(wù)器被海量流量沖擊崩潰,但吐槽聲音不斷。
不管怎樣,在大模型先鋒OpenAI之后發(fā)布產(chǎn)品總是壓力不小,除非有更驚喜強(qiáng)大的產(chǎn)品亮點(diǎn),否則容易黯然失色。
因此,騰訊混元在 12 月初就搶先一步推出視頻生成大模型,且將應(yīng)用名字稱作「元寶」。不過,相比Sora、可靈、即夢(mèng)等既能文生視頻也能圖生視頻的工具,騰訊混元目前只能文生視頻。
問題在于,目前大模型對(duì)語(yǔ)義理解水平能力有限,所有文生視頻的應(yīng)用效果遠(yuǎn)遠(yuǎn)達(dá)不到令人滿意的地步,也很難吸引AGIC創(chuàng)作者積極使用。
騰訊自然是明白的。所以產(chǎn)品發(fā)布當(dāng)天,開源是騰訊積極釋放的信號(hào)。
雖然國(guó)產(chǎn)視頻生成應(yīng)用也近 10 多款,從過去 20 天的情況來看,國(guó)產(chǎn)視頻生成模型還是掌握在大公司手里,這不僅跟大模型水平、算力有關(guān),視頻數(shù)據(jù)積累更是決定性因素。而且大模型早期彌漫的一種FOMO情緒(Fear of Missing Out),此刻依然有跡可循。
只是正如張楠所說,產(chǎn)品和技術(shù)還處在早期。如果你了解到現(xiàn)在的AI視頻是怎么做出來的,就不會(huì)被渲染的畫面迷惑,只是發(fā)出一聲驚嘆。
此刻僅僅是發(fā)令槍響起,不要太早下結(jié)論。
圖生視頻是主流?
在我們接收到的信息中,大模型生成視頻似乎易如反掌,一段文字還你一段視頻,且效果比肩影視大片。人人都是大導(dǎo)演,近在遲尺。
事實(shí)是,AI視頻的確降低了生產(chǎn)門檻,只是那些制作精良的廣告宣傳片、短劇類AI視頻,還是少數(shù)人掌握的技能。
有必要先講下一個(gè) 2 分鐘的AI短片是怎么做出來的。
首先,跟傳統(tǒng)創(chuàng)作類似,創(chuàng)作者要先拿出腳本,只不過是基于AI能力可以實(shí)現(xiàn)的內(nèi)容。這個(gè)步驟是可以借助AI工具,ChatGPT、Kimi和智譜清言是被提及最多的。
其次,根據(jù)視頻腳本拆解細(xì)化的分鏡內(nèi)容,創(chuàng)作者用AI文生圖工具將分鏡先以靜態(tài)圖的方式展現(xiàn)。
如果是有專業(yè)或者商業(yè)要求,比如廣告,宣傳片,短劇等,希望達(dá)到傳統(tǒng)拍攝的專業(yè)與合理性,在將靜態(tài)分鏡圖轉(zhuǎn)成視頻之前,需要?jiǎng)?chuàng)作者將生成的靜態(tài)圖進(jìn)行PS后期及圖片超分辨率處理來提高圖片的原始質(zhì)量,以次保證圖生視頻的質(zhì)量基礎(chǔ)。
之后,將這些圖片給到AI視頻工具進(jìn)行動(dòng)態(tài)分鏡生成。Sora的720p單次可以生成最長(zhǎng) 20 秒的視頻,國(guó)產(chǎn)大模型一次都只能生成5- 10 秒的視頻。
需要注意的是,除了Sora,國(guó)產(chǎn)AI還做不到基于生成視頻進(jìn)行修改編輯,所以一個(gè)5- 6 秒的視頻需要多次生成才能拿到滿意結(jié)果也是有可能的。
現(xiàn)在我們看到的2- 3 分鐘AI視頻,絕大部分都是圖生視頻,而且原料是經(jīng)過專業(yè)處理的圖片,需要多次續(xù)寫并配合后期剪輯而成。
雖然目前國(guó)產(chǎn)視頻生成模型中,只有騰訊混元是免費(fèi)的,沒有收費(fèi)項(xiàng)目,但文生視頻依然面臨激勵(lì)創(chuàng)作者使用的障礙(今年 5 月份騰訊生成式AI產(chǎn)業(yè)峰會(huì)上,騰訊公布的多模態(tài)能力中,其中提到混元支持圖文等形態(tài)生成視頻能力,只是還沒有圖生視頻的落地應(yīng)用):
首先是大模型語(yǔ)義理解能力局限,視頻最終呈現(xiàn)的是不是文字描述的東西,以及是不是符合創(chuàng)作者腦海設(shè)想的畫面?
其次在于一致性。比如,你希望以「一個(gè)穿著淡黃色長(zhǎng)裙的女生」為主角,生成一個(gè)長(zhǎng)1- 2 分鐘的連續(xù)視頻。
按照現(xiàn)在大模型能力,你可能要不斷續(xù)寫幾十次甚至上百次才有可能最終實(shí)現(xiàn)。但是可能你每次文字輸入生成的視頻中,這個(gè)女生的五官和穿的長(zhǎng)裙款式都不一樣,五官可能存在年齡與樣貌偏差,服裝顏色可能是淺黃、深黃或是橙黃,這就是一致性問題。
但是圖生視頻可以提前確定統(tǒng)一色調(diào),在圖片處理方面配合Comfy UI(一款基于節(jié)點(diǎn)工作流穩(wěn)定擴(kuò)散算法的圖形界面)的換臉、換服裝等功能做到人物一致性。
文生視頻也不是被束之高閣,如果你要的就是短短五六秒的東西,或者一鍵讓靜圖活動(dòng)起來,使用門檻要更低一些。在文生視頻領(lǐng)域,尚在內(nèi)測(cè)階段的騰訊混元(一天只能測(cè)試 6 次)的確是超出現(xiàn)在行業(yè)平均水平的。
騰訊混元文生視頻,提示詞為:煙花綻放/開篇:夜空中一道火光劃破黑暗,煙花升空。高潮:煙花在空中瞬間綻放,色彩斑斕,畫面以慢動(dòng)作和高速攝影交替展現(xiàn)。結(jié)尾:煙花逐漸消散,夜空恢復(fù)平靜,留下點(diǎn)點(diǎn)星光,寓意瞬間的美好。
但是也有創(chuàng)作者有過新的嘗試,《烈焰天街》是作者夢(mèng)羅浮創(chuàng)作的一部AI電影,全片 660 個(gè)鏡頭,其中70%是文生視頻,每個(gè)鏡頭需要200- 300 字的提示詞。他在分享創(chuàng)作心得時(shí)解釋,「之所以用文生視頻做主體創(chuàng)作,因?yàn)樗砬楹椭w動(dòng)作比圖生視頻真實(shí)?!?/p>
他提到,即夢(mèng)文生視頻效果很像圖生視頻,「放眼望去,人人都是主演,多人內(nèi)容場(chǎng)景模型不崩壞」。
即夢(mèng)文生視頻,提示詞同樣為:煙花綻放/開篇:夜空中一道火光劃破黑暗,煙花升空。高潮:煙花在空中瞬間綻放,色彩斑斕,畫面以慢動(dòng)作和高速攝影交替展現(xiàn)。結(jié)尾:煙花逐漸消散,夜空恢復(fù)平靜,留下點(diǎn)點(diǎn)星光,寓意瞬間的美好。
不管怎樣,現(xiàn)在看到絕美或是接近物理現(xiàn)實(shí)的AI視頻,是少數(shù)懂得設(shè)計(jì)、審美,熟練操作各種工具的專業(yè)人士做出來的。你也可以理解為,這些人是AI視頻的種子用戶。一年前,他們中大部分是AI繪畫工具的熟練掌握者,活躍在小紅書平臺(tái)。
因此,相比豆包、Kimi等AI對(duì)話類產(chǎn)品上來就海量投放轉(zhuǎn)化的動(dòng)作,可靈、即夢(mèng)前期更多是在盡可能網(wǎng)羅種子用戶的參與,激勵(lì)他們創(chuàng)作更多作品,各個(gè)社群這些創(chuàng)作者都是被爭(zhēng)取的對(duì)象。其中一些敏銳的創(chuàng)作者,靠售賣AIGC培訓(xùn)教程,抓住了一波變現(xiàn)紅利。
成為各個(gè)應(yīng)用的超創(chuàng),創(chuàng)作者可以有機(jī)會(huì)獲得平臺(tái)推送的商單,免費(fèi)積分,包括于電視臺(tái)合作的支持。但可能平臺(tái)也會(huì)要求超創(chuàng)每月輸出一定的視頻創(chuàng)作,甚至免費(fèi)配合產(chǎn)品宣講教程。?????????????????????????????????
從大廠的一些動(dòng)作也透露出應(yīng)用在引導(dǎo)的用戶群體和使用場(chǎng)景。
可靈從影視專業(yè)人員群體攻入,之前他們也提出AI+短劇的計(jì)劃,意圖就是在影視、廣告、游戲等領(lǐng)域嫁接AI。自上而下滲透的意圖顯而易見。
騰訊混元在介紹中就明確提出,可在工業(yè)級(jí)商業(yè)場(chǎng)景例如廣告宣傳、動(dòng)畫制作等場(chǎng)景。騰訊廣告妙思平臺(tái)就已經(jīng)接入文生圖模式,降低廣告主的創(chuàng)作門檻。
看不見的決定因素
盡管即夢(mèng)和可靈具備圖生視頻的能力,已經(jīng)占據(jù)一定的用戶心智,但對(duì)于他們而言,依然前路漫漫。
除了我們所能感知到的產(chǎn)品特征和差異,國(guó)產(chǎn)AI視頻應(yīng)用的底層模型架構(gòu),有很大的相似性。
騰訊混元和快手可靈都是采用了跟Sora類似的DiT(Diffusion Transformer)模型架構(gòu)。包括MiniMax的海螺AI也是如此選擇。???
一種觀點(diǎn)認(rèn)為,與OpenAI其他產(chǎn)品不同,在算力充足的前提下,DiT架構(gòu)路徑復(fù)刻難度相對(duì)較低。這也是國(guó)產(chǎn)視頻生成大模型在短短幾個(gè)月,布局速度和落地結(jié)果超出預(yù)期的原因。
但是接下來在一些關(guān)鍵性問題解決上,就看各家公司的底層優(yōu)化能力和數(shù)據(jù)訓(xùn)練結(jié)果。????
AGIC創(chuàng)作者溫維斯Wenvis告訴新莓daybreak,他對(duì)AI視頻應(yīng)用實(shí)現(xiàn)的結(jié)果有兩個(gè)期望:一是快速展現(xiàn)出自己腦海的想法,且跟預(yù)期是比較相符的;二是成為自己的靈感激發(fā)器,不一定是成品,但想法會(huì)被啟發(fā)或提升。
在可靈發(fā)起的AI導(dǎo)演共創(chuàng)計(jì)劃中,溫維斯是導(dǎo)演王子川的AI合作者,他們共同創(chuàng)作了《雛菊》,前期一個(gè)基本想法就是,盡量避開AI不擅長(zhǎng)的地方。
就目前而言,視頻生成模型共同努力方向有幾個(gè):一致性,視覺真實(shí)度,動(dòng)態(tài)幅度,提示詞的語(yǔ)義理解能力等。
比如盡管很多產(chǎn)品宣稱一致性表現(xiàn)不錯(cuò),但幾乎所有公司都還在默默努力。只有創(chuàng)業(yè)公司生數(shù)科技曾在今年 9 月高調(diào)發(fā)布所謂「全球首個(gè)支持多主體一致性的多模態(tài)大模型」,公司旗下產(chǎn)品Vidu現(xiàn)在已經(jīng)開放使用,測(cè)評(píng)反饋在2D及多主體一致上表現(xiàn)不錯(cuò),缺點(diǎn)是畫面太糊,即使是會(huì)員可以享受高分辨率的用戶也依然存在這個(gè)問題。
再比如,不論國(guó)內(nèi)國(guó)外,AI視頻軟件的動(dòng)態(tài)幅度都有待提升。最基本的人物開口說話,做一些特定的肢體動(dòng)作,比如武術(shù),運(yùn)動(dòng)體操這類大幅動(dòng)作,目前所有工具表現(xiàn)都不盡如人意。
導(dǎo)演俞白眉接觸AI最想探索的就是與動(dòng)作連接的部分,他知道AI在規(guī)定鏡頭的運(yùn)動(dòng)方面,不是強(qiáng)項(xiàng),也不擅長(zhǎng)真人動(dòng)作。但他還是積極參與了可靈的導(dǎo)演計(jì)劃,希望嘗試創(chuàng)作出一些之前沒有見過的動(dòng)作片段。
談及整個(gè)創(chuàng)作過程,他說一言難盡,結(jié)果也差強(qiáng)人意,「這些作品都是涂鴉」。但他也提到,中間有趣味存在,學(xué)到了很多東西。
俞白眉的體感可能會(huì)得到不少共鳴。所以,創(chuàng)作者會(huì)根據(jù)不同題材,不同需求,使用不同的AI視頻工具。也許個(gè)人創(chuàng)作偏好會(huì)導(dǎo)致他使用某個(gè)工具多一些,但現(xiàn)在遠(yuǎn)不到哪款產(chǎn)品形成絕對(duì)優(yōu)勢(shì)的地步。
國(guó)產(chǎn)AI生成視頻應(yīng)用,快手旗下的可靈是唯一公布過數(shù)據(jù)的。
快手第三季度財(cái)報(bào)發(fā)布時(shí),可靈 9 月份月活超 150 萬(wàn)。到了 12 月 10 日,累計(jì)用戶數(shù)達(dá)到 600 萬(wàn),生成視頻數(shù)量為 6500 萬(wàn),圖片超1. 75 億張??焓诌€公布過商業(yè)化成績(jī),單月流水超過千萬(wàn)元,據(jù)說為此內(nèi)部還切蛋糕,小小慶祝了一下。
可靈是國(guó)產(chǎn)大模型生成視頻動(dòng)作相對(duì)較快的一個(gè),有種搶跑加速的焦慮感。
今年 6 月產(chǎn)品上線,當(dāng)月就推出圖生視頻,以及續(xù)寫視頻,從一開始的最長(zhǎng) 2 分鐘延伸至 3 分鐘。而且很早就明確跟短劇、影視相結(jié)合,可靈生成最早流傳到海外的視頻還被馬斯克看到并點(diǎn)評(píng)。
即夢(mèng)推出時(shí)間比可靈要更早,對(duì)外釋放的信息和動(dòng)作沒有可靈頻繁。但是因?yàn)樽止?jié)AI部署能力和廣泛用戶基礎(chǔ),即夢(mèng)在創(chuàng)作者群體的呼聲也很高。
葉錦添有兩句話說得非常好:如果用3D傳統(tǒng)的方式,每次想試一樣?xùn)|西都要花同樣的時(shí)間,但AI是不用的。這給了我不同的速度感,我就開始去領(lǐng)會(huì),AI會(huì)影響我怎么看這個(gè)世界。他還說,AI有時(shí)候走得比我們快,所以有可能帶來另外一種經(jīng)驗(yàn)。
AI一天,人間一年。
以上就是關(guān)于【視頻生成大模型賽道,只是看上去擁擠】的相關(guān)內(nèi)容,希望對(duì)大家有幫助!
免責(zé)聲明:本文由用戶上傳,與本網(wǎng)站立場(chǎng)無(wú)關(guān)。財(cái)經(jīng)信息僅供讀者參考,并不構(gòu)成投資建議。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。 如有侵權(quán)請(qǐng)聯(lián)系刪除!
- 董明珠曾喊話雷軍給股民分多少錢!格力:擬分紅超55億
- Epic喜+1:動(dòng)作游戲《師父》免費(fèi)領(lǐng) 立省139元
- 雷軍辟謠只招聘35歲以下員工:僅針對(duì)未來之星項(xiàng)目
- 普華永道發(fā)布2025年AI預(yù)測(cè):AI Agents將勞動(dòng)力提升1倍
- 雷軍回應(yīng)股價(jià)暴跌:年年難過年年過
- 一天100座!理想汽車第1700座超充站正式建成
- 《守望先鋒》國(guó)服宣布2月19日回歸:賬號(hào)數(shù)據(jù)完整保留
- 雷軍建議創(chuàng)業(yè)者要多留點(diǎn)錢給員工:別到山窮水盡才講問題
-
奔馳GLE作為豪華SUV市場(chǎng)中的佼佼者,憑借其卓越的性能、豪華的內(nèi)飾以及寬敞的空間,吸引了眾多消費(fèi)者的關(guān)注。...瀏覽全文>>
-
在2025年,安徽阜陽(yáng)地區(qū)的帕薩特新能源汽車市場(chǎng)表現(xiàn)非?;钴S。作為一款備受關(guān)注的新能源車型,帕薩特新能源憑...瀏覽全文>>
-
近日,滁州地區(qū)的大眾汽車經(jīng)銷商傳來好消息:備受矚目的2025款T-ROC探歌正式上市,并且以極具競(jìng)爭(zhēng)力的價(jià)格吸引...瀏覽全文>>
-
在選擇一款新能源汽車時(shí),了解其價(jià)格和配置是非常重要的一步。安徽淮南地區(qū)的長(zhǎng)安啟源E07作為2024款的新車型,...瀏覽全文>>
-
阜陽(yáng)長(zhǎng)安啟源A05作為長(zhǎng)安汽車旗下的全新車型,自推出以來便憑借其獨(dú)特的設(shè)計(jì)風(fēng)格和豐富的配置吸引了眾多消費(fèi)者...瀏覽全文>>
-
阜陽(yáng)長(zhǎng)安啟源A07作為一款備受矚目的新能源車型,以其豪華配置和親民的價(jià)格在市場(chǎng)上引起了廣泛關(guān)注。這款車型不...瀏覽全文>>
-
安徽淮南威然2024款價(jià)格及配置詳解隨著汽車市場(chǎng)的不斷更新?lián)Q代,上汽大眾旗下的MPV車型——威然(Viloran)憑...瀏覽全文>>
-
QQ多米新車報(bào)價(jià)2025款,買車省錢秘籍隨著汽車市場(chǎng)的不斷發(fā)展,消費(fèi)者在選購(gòu)車輛時(shí)不僅關(guān)注車型的性能和配置,...瀏覽全文>>
-
滁州途觀X 2024款最新價(jià)格及買車省錢秘籍隨著汽車市場(chǎng)的不斷發(fā)展,大眾途觀X作為一款兼具時(shí)尚與性能的中型SUV...瀏覽全文>>
-
隨著汽車市場(chǎng)的不斷發(fā)展,大眾蔚攬以其優(yōu)雅的設(shè)計(jì)和卓越的性能贏得了眾多消費(fèi)者的青睞。作為一款兼具實(shí)用性和...瀏覽全文>>
- Alienware 在 2025 年 CES 上展示了一些超凡脫俗的技術(shù)
- Wickes 任命首席零售和分銷官
- 分析師稱GTA 6或?qū)淞⑿袠I(yè)新標(biāo)準(zhǔn)
- 索尼和本田在拉斯維加斯推出售價(jià) 89,900 美元的 Afeela 1
- 日本 11 月游客人數(shù)創(chuàng)月度新高
- 神經(jīng)認(rèn)知測(cè)試在 3 歲兒童白血病治療期間可行
- 牛津郡小學(xué)支持圣誕毛衣日
- S?strene Grene 投資歐洲物流中心
- 有人已經(jīng)在電視上直播 BNMC 打造的 1967 年福特野馬 Restomod
- 潛在的分子療法可以逆轉(zhuǎn)小鼠的胎盤發(fā)育問題
- 奔馳GLE預(yù)約試駕,新手必看的詳細(xì)流程
- 滁州T-ROC探歌 2025新款價(jià)格,最低售價(jià)15.89萬(wàn)起,趕緊行動(dòng)
- 安徽淮南威然最新價(jià)格2024款,各配置車型售價(jià)全知曉
- 滁州途觀X最新價(jià)格2024款,買車省錢秘籍
- 淮南長(zhǎng)安啟源Q05 2025新款價(jià)格,最低售價(jià)9.69萬(wàn)起,入手正當(dāng)時(shí)
- 安徽淮南探影多少錢 2023款落地價(jià),各配置車型售價(jià)一目了然
- 淮南途觀X價(jià)格大揭秘,買車前必看
- 安徽淮南長(zhǎng)安獵手K50新款價(jià)格2025款多少錢?買車攻略一網(wǎng)打盡
- 滁州ID.4 X新款價(jià)格2025款多少錢?買車攻略一網(wǎng)打盡
- QQ多米落地價(jià),購(gòu)車前必看的費(fèi)用明細(xì)
- Nvidia DLSS 4 有望將游戲性能提高 8 倍
- 人工智能在預(yù)測(cè)自身免疫性疾病進(jìn)展方面顯示出良好的前景
- 心理物理實(shí)驗(yàn)揭示皮膚水分感知是如何改變的
- 科茨沃爾德公司慶祝圣誕節(jié)圓滿成功
- 南法納姆學(xué)校被評(píng)為薩里郡表現(xiàn)最好的小學(xué)
- 約克區(qū)九所小學(xué)將削減招生人數(shù)
- 松下新款電動(dòng)汽車電池為 Lucid Gravity 帶來 450 英里續(xù)航里程
- 泰國(guó)旅游呈現(xiàn)新趨勢(shì)
- 研究人員找到在細(xì)胞水平上餓死前列腺癌腫瘤的新方法
- 領(lǐng)先的人工智能聊天機(jī)器人在測(cè)試中表現(xiàn)出類似癡呆癥的認(rèn)知能力下降
- 龐大的 Project Zomboid build 42 終于可以玩了
- Steam Replay 回歸向您展示 2024 年您玩得最多的 PC 游戲
- Jollyes 推出強(qiáng)化的人才支持和招聘措施
- Karen Millen 與 Simon Harrison 共同推出全新高級(jí)珠寶系列
- 奇瑞風(fēng)云A8L電動(dòng)轎車刷新續(xù)航里程世界紀(jì)錄
- 虛擬藝術(shù)家將別克 Cascada 帶回 2026 款車型
- OnePlus 宣布推出新計(jì)劃解決綠線問題
- OnePlus Watch 3 將擁有更大的電池和更薄的機(jī)身
- 研究人員發(fā)現(xiàn)可變剪接與自身免疫性疾病遺傳之間的細(xì)胞類型特異性聯(lián)系
- 科學(xué)家確定腦細(xì)胞類型是排尿的主要控制者