最新亚洲人成无码网站,夜夜操夜夜操夜夜爽,中文字日产幕乱五区,在线成人看片黄a免费看,亚洲自偷自拍另类11p

首頁 >> 今日更新 >

AI+視頻 | Nvidia 投資的AI公司,通過視頻理解開創(chuàng)感知推理,獲頂級風(fēng)投5000萬美元融資

2024-07-08 10:00:34 來源: 用戶: 

相信很多大家對AI+視頻 | Nvidia 投資的AI公司,通過視頻理解開創(chuàng)感知推理,獲頂級風(fēng)投5000萬美元融資還不知道吧,今天菲菲就帶你們一起去了解一下~.~!

在每天刷視頻的時代,我們?nèi)绾慰焖賱?chuàng)作360度全方位理解的視頻內(nèi)容?

Twelve Labs,一家舊金山初創(chuàng)公司,是由一支年輕的工程師團(tuán)隊Jae Lee 和 Aiden L 創(chuàng)立,該產(chǎn)品可在視頻中提取特定視頻瞬間,包括視覺、音頻、文本和上下文信息,以實現(xiàn)語義搜索、分析和洞察。該公司的愿景是創(chuàng)建用于多模式視頻理解的基礎(chǔ)設(shè)施,其自研模型可用于媒體分析并自動生成精彩片段。目前已被從多個頂級風(fēng)投機(jī)構(gòu)投資。

Sense 思考

我們嘗試基于文章內(nèi)容,提出更多發(fā)散性的推演和深思,歡迎交流。

-場景式視頻內(nèi)容理解是主流:增加視頻數(shù)據(jù)和高質(zhì)量視頻內(nèi)容是未來AIGC在媒體和娛樂領(lǐng)域規(guī)?;捎玫幕A(chǔ),場景式理解視頻內(nèi)容(Context Understanding of Video)將會成為技術(shù)主流。視頻內(nèi)容處理可以細(xì)化到每一個瞬間,大大提高了視頻內(nèi)容在不同社交平臺的傳播效率。

- AI原生產(chǎn)品的絲滑體驗感:自動化視頻數(shù)據(jù)標(biāo)注和數(shù)據(jù)生成可以極大的降低成本,把勞動力從重復(fù)性的工作中解放出來。Twelve Labs 把標(biāo)注,搜索和生成端到端的設(shè)計起來,創(chuàng)造了極優(yōu)的產(chǎn)品體驗。

本篇正文共3653字,仔細(xì)閱讀約6分鐘

AI Native 產(chǎn)品分析

52

Twelve Labs

1. 產(chǎn)品:Twelve Labs

2. 產(chǎn)品上線時間:2023年

3.創(chuàng)始人:

Jae Lee

聯(lián)合創(chuàng)始人兼首席執(zhí)行官,畢業(yè)于UC伯克利大學(xué)計算機(jī)專業(yè),曾在大韓民國國防部擔(dān)任數(shù)據(jù)科學(xué)家,也是三星和亞馬遜的工程師實習(xí)生。

Aiden L

聯(lián)合創(chuàng)始人兼首席技術(shù)官,布朗大學(xué)的drop-out創(chuàng)業(yè)者,他的專業(yè)是計算機(jī)科學(xué)和應(yīng)用數(shù)學(xué),研究專注于:視頻理解, 視頻語言模型, 多模態(tài)系統(tǒng),曾在大韓民國國防部當(dāng)研究員。

4. 產(chǎn)品簡介:

Twelve Labs是一個人工智能平臺,幫助開發(fā)者創(chuàng)建視頻搜索和生成能力。該產(chǎn)品可在視頻中提取特定視頻瞬間,包括視覺、音頻、文本和上下文信息,以實現(xiàn)語義搜索、分析和洞察。該公司的愿景是創(chuàng)建用于多模式視頻理解的基礎(chǔ)設(shè)施,其自研模型可用于媒體分析并自動生成精彩片段。目前已被從多個頂級風(fēng)投機(jī)構(gòu)投資。

5. 融資情況:

這家總部位于舊金山的公司已于2024年6月一共籌集了 $77M 萬美元的頂級風(fēng)投融資,此外早前還獲得了其他機(jī)構(gòu)投資和天使投資人的注資,其中包括:

-2021年1月從 Techstars 獲得天使投資120,000美元

-2022年3月,來自 Index Ventures 的種子融資500萬美元

-2022年12月從 Radical Ventures 獲得1200萬美元

-2023年10月,來自英特爾公司、Samsung Next 和 NVentures 的5000萬美元A 輪融資

01.

創(chuàng)立愿景:視頻內(nèi)容的場景式理解

目前互聯(lián)網(wǎng)上主流的視頻供應(yīng)商Youtube, Tiktok,Reels的全球受眾覆蓋率達(dá)到92%,而且視頻占所有互聯(lián)網(wǎng)流量的82%,盡管如此,80%的視頻內(nèi)容還停留在使用關(guān)鍵詞和數(shù)據(jù)標(biāo)簽這種簡單的方式去歸類和分析,導(dǎo)致視頻理解受到局限性。

YouTube的下載量在2020年達(dá)到1.5億次

隨著 AIGC 技術(shù)的發(fā)展,通過語義記憶,OCR, NPL, CLIP 等技術(shù)可以360度場景式的理解復(fù)雜視頻內(nèi)容,降低了生成高質(zhì)量視頻內(nèi)容的門檻,使視頻媒體,電商,廣告營銷服務(wù)商可更低成本獲取高質(zhì)量的視頻內(nèi)容。

Twelve Labs 的創(chuàng)始人 Jae Lee 發(fā)現(xiàn)了這個問題,并且表示舊有的視頻系統(tǒng)不能有效解決:“為檢測特定問題而構(gòu)建的狹義人工智能產(chǎn)品在受控環(huán)境下的理想場景中表現(xiàn)出很高的準(zhǔn)確性,但不能很好地擴(kuò)展到混亂的現(xiàn)實世界數(shù)據(jù), 它們更像是一個基于規(guī)則的系統(tǒng),因此在出現(xiàn)差異時缺乏概括的能力。"

"我們還認(rèn)為這是由于缺乏上下文理解而造成的限制。對背景的理解賦予了人類獨特的能力,可以對現(xiàn)實世界中看似不同的情況進(jìn)行概括,而這正是 Twelve Labs 的獨特之處。”

Twelve Labs 平臺功能的演示

對于上述的技術(shù)問題,可以簡單歸納以下幾點:

- 傳統(tǒng)視頻的人工標(biāo)注方式簡單而且不完善,導(dǎo)致AI對視頻的理解只在frame-level,對聲音,場景,圖像都缺乏理解, 在視頻中搜索特定時刻和場景遠(yuǎn)遠(yuǎn)超出了技術(shù)的能力,特別是如果這些時刻和場景沒有以明顯的方式標(biāo)記的話。

- 以前使用元數(shù)據(jù)搜索方法,即搜索視頻都是通過視頻已有的描述性文字,導(dǎo)致視頻內(nèi)容沒有場景式的理解。

- 現(xiàn)有的大模型,包括ChatGPT, Stable Diffusion,Mid-Journey等都不是以專注于視頻模型作為基礎(chǔ),所以缺乏大規(guī)模生成客制化的高視頻質(zhì)量能力。

02.

大模型之爭:打造視頻優(yōu)先的大模型

為了實現(xiàn)大規(guī)模莫場景式視頻理解搜索和生成,Twelve Labs 建立了兩個視頻語言大模型,奠定了極大的技術(shù)優(yōu)勢:

Pegasus-1(800億參數(shù))是 Twelve Labs 的視頻語言模型(Video-to-Text),通過“視頻優(yōu)先”策略確保卓越的視頻理解,具有高效的長視頻處理、多模態(tài)理解、原生視頻嵌入和深度視頻語言對齊的優(yōu)點。憑借800億參數(shù)并在3億視頻-文本對的大型數(shù)據(jù)集上進(jìn)行訓(xùn)練,它顯著超越了之前的模型。在 MSR-VTT 數(shù)據(jù)集上顯示出61% 的提升,在視頻描述數(shù)據(jù)集上提升了47%。與 Whisper-ChatGPT 等 ASR+LLM 模型相比,Pegasus-1的性能提升高達(dá)188%,在視頻轉(zhuǎn)文本的準(zhǔn)確性和效率上設(shè)立了新標(biāo)準(zhǔn)。

(Pegasus-1Image Credits: Twelve Labs)

Marengo-2.6是一款最先進(jìn)的多模態(tài)基礎(chǔ)模型,擅長執(zhí)行文本到視頻、文本到圖像和文本到音頻等任意搜索任務(wù)。它在 MSR-VTT 數(shù)據(jù)集上比 Google 的 VideoPrism-G 高出10%,在 ActivityNet 數(shù)據(jù)集上高出3%。具備先進(jìn)的零樣本檢索能力,超越現(xiàn)有模型在理解和處理視覺內(nèi)容上的表現(xiàn)。其多功能性還包括跨模態(tài)任務(wù),如音頻到視頻和圖像到視頻。該模型通過重新排序模型實現(xiàn)了增強(qiáng)的時間定位,確保更精確的搜索結(jié)果,展示了在多種模態(tài)下令人印象深刻的感知推理能力。

(Pegasus-1Image Credits: Twelve Labs)

03.

產(chǎn)品獨特優(yōu)勢:AIGC技術(shù)賦能

Tewelve Labs 通過三個步驟自動搜索,分類和生成來簡化用戶的工作流程,但其中包括了六種主要的產(chǎn)品功能,只需通過對接API就可以使用:

1、視頻搜索

此模型分析視頻的語義內(nèi)容(Sematic search),包括視頻,音頻,Logo等數(shù)字材料,文字等全面分析場景關(guān)聯(lián)性,以實現(xiàn)高效且準(zhǔn)確的特定視頻片段檢索,幫助用戶在無需觀看完整內(nèi)容的情況下精準(zhǔn)搜索到大量來自Youtube, Tiktok,Reels等視頻庫的材料。

(示例:尋找在跑步機(jī)上行走,背景是Air Jordans的視頻)

2、視頻分類

該模型通過分析視頻中的語義特征、對象和動作,將視頻自動分類為預(yù)定義的類別,如體育、新聞、娛樂或紀(jì)錄片。這增強(qiáng)了內(nèi)容發(fā)現(xiàn)能力,并提供個性化推薦。同時,此功能基于內(nèi)容相似性對視頻進(jìn)行分組,而不需要標(biāo)簽數(shù)據(jù)。它使用視頻嵌入來捕捉視覺和時間信息,便于測量相似性并將相似視頻進(jìn)行歸類。

(示例:按TikTok主題對短視頻進(jìn)行分類)

3、視頻-語言建模

該功能集成文本描述和視頻內(nèi)容,使模型能夠理解并生成基于文本的摘要、描述或?qū)σ曨l內(nèi)容的響應(yīng)。它彌合了視覺和文本理解之間的差距。還可以在生成的視頻上自由修改和插入視頻內(nèi)容,有提供用戶利用細(xì)分賽道數(shù)據(jù)的微調(diào)模型的功能,例如客戶會需要微調(diào)“茄瓜沙律”為“雞胸肉沙律”。

(用于微調(diào)模型以更好地處理與沙拉相關(guān)的內(nèi)容的 API 模型)

4、視頻描述和摘要

該模型生成自然語言描述和視頻的簡明摘要,捕捉關(guān)鍵信息和重要時刻。這改善了理解力和參與度,尤其適用于有視力障礙或時間限制的用戶。還可以通過自由定義的prompt來生成不同側(cè)重點的長文字型的視頻總結(jié),故事或者自媒體文章等。

(示例:輸入Prompt,為此視頻創(chuàng)建鏡頭列表)

5、視頻問答(QA)

該模型通過視覺、語言和可能的音頻信息之間的語義推理,回答與視頻內(nèi)容相關(guān)的問題。此功能增強(qiáng)了可訪問性,并提供了用戶互動的元素。

04.

通過視頻理解開創(chuàng)感知推理

視頻作為多模態(tài)現(xiàn)實的核心,其豐富的視覺和聽覺信息是傳統(tǒng)語言模型(LLM)難以完全解析的。在多模態(tài)理解領(lǐng)域,不能簡單地將現(xiàn)有LLM作為附加功能來處理。相反,從設(shè)計之初,多模態(tài)基礎(chǔ)模型就應(yīng)該被構(gòu)建為包含這種跨模態(tài)能力。

Twelve Labs 正積極引領(lǐng)這一變革,通過視頻理解開創(chuàng)感知推理,推出下一代多模態(tài)模型來模擬世界。

想象一下時間在某個特定時刻定格,就像一張快照。到目前為止,我們的大腦一直在處理感官輸入,幫助我們理解發(fā)生了什么,預(yù)測接下來會發(fā)生什么,并據(jù)此制定計劃。這種能力被稱為感知推理,是人類智力的基礎(chǔ)。

許多發(fā)展研究表明,人類在生命的最初幾個月內(nèi)就開始發(fā)展感知能力(從主要周圍環(huán)境中獲取知識的能力),然后才發(fā)展出任何語言能力(《嬰兒期的物體感知、物體導(dǎo)向動作和物理知識》,1995年)。然而,現(xiàn)代人工智能繞過了這一個關(guān)鍵的學(xué)習(xí)步驟:通過視頻創(chuàng)建一個強(qiáng)大的世界表征——這與人類感官數(shù)據(jù)非常相似。

(人類認(rèn)知發(fā)展的四個階段)

基于此發(fā)現(xiàn),Twelve Labs 致力于通過視頻理解來推動感知推理的革命。

他們的目標(biāo)是重新定義機(jī)器如何感知世界并與之互動。研究專注于訓(xùn)練先進(jìn)的基礎(chǔ)模型,以彌補(bǔ)這一差距,從視頻數(shù)據(jù)中學(xué)習(xí)豐富的多模態(tài)表示,并利用這些知識來完成復(fù)雜的高級推理任務(wù),這些任務(wù)通常需要語言能力才能完成。

Twelve Labs 專注于研究兩種模型,開發(fā)出不僅能感知和理解視覺世界,還能以類似于人類認(rèn)知的方式對其進(jìn)行推理的系統(tǒng)。

1、感知—— Marengo

視頻原生編碼器模型 Marengo 是感知的體現(xiàn)。人類的視覺和聽覺器官天生就對捕捉世界的細(xì)節(jié)有著敏銳的洞察力。為了達(dá)到這一水平,Twelve Labs 致力于訓(xùn)練 Marengo,使其能夠深入分析視頻幀的視覺內(nèi)容以及它們隨時間變化的關(guān)系,同時對伴隨的語音和聲音進(jìn)行精細(xì)的解析。這一模型的目的是實現(xiàn)對視覺和聽覺信息的全面理解,它將成為感知推理流程的核心基礎(chǔ)。

(視頻原生編碼器模型 Marengo)

2、推理——Pegasus

真正的視頻理解還需要推理感知的能力。Pegasus 將從大型語言模型(文本數(shù)據(jù))中學(xué)到的推理技能與從視頻編碼器模型(視頻數(shù)據(jù))中獲得的感知理解相結(jié)合。通過結(jié)合這兩種模式,Pegasus 可以進(jìn)行跨模式推理,從 Marengo 豐富的多模式表示中推斷出含義和意圖。

(Pegasus 架構(gòu))

Marengo 和 Pegasus 之間的協(xié)同工作是 Twelve Labs 的 AI 系統(tǒng)中引入感知推理能力的關(guān)鍵。他們的研究不僅僅是開發(fā)最先進(jìn)的模型,而是從根本上重新思考 AI 系統(tǒng)如何學(xué)習(xí)和推理世界。

目前 Twelve Lab 的客戶以程序員和中小企業(yè)為主,通過給中小企業(yè)用戶提供 API 和 PlugIn 等方式去快速擴(kuò)張。創(chuàng)始人 CEO聲稱,自5月初推出內(nèi)測以來,Twelve Labs 的用戶群已發(fā)展到17,000名開發(fā)者。

該公司目前正在與多家公司合作——目前還不能透露;但從官網(wǎng)上公開信息看,目前已和 FiftyOne 達(dá)成合作,一起通過 PlugIn 形式給缺乏技術(shù)基礎(chǔ)的用戶提供服務(wù)。

當(dāng)然,這并不是一項新的技術(shù),谷歌開發(fā)了一種類似的視頻理解多模態(tài)模型,稱為 MUM,該公司用它來支持谷歌搜索和 YouTube 上的視頻推薦。

除了 MUM 之外,谷歌以及微軟和亞馬遜還提供 API 級、人工智能驅(qū)動的服務(wù),這些服務(wù)可以識別視頻中的對象、位置和動作,并在幀級提取豐富的元數(shù)據(jù)。隨著這些技術(shù)的不斷進(jìn)步,我們可以預(yù)見,未來在視頻理解領(lǐng)域的競爭將變得異常激烈。

我們正站在一個由 AI 技術(shù)引領(lǐng)的新時代的門檻上。在這個時代,視頻不再僅僅是動態(tài)的視覺記錄,而是智能理解與深度學(xué)習(xí)技術(shù)融合的前沿。

視頻內(nèi)容的深度分析和理解,將為我們打開一個全新的視角,讓我們以前所未有的方式探索和理解世界。

以上就是關(guān)于【AI+視頻 | Nvidia 投資的AI公司,通過視頻理解開創(chuàng)感知推理,獲頂級風(fēng)投5000萬美元融資】的相關(guān)內(nèi)容,希望對大家有幫助!

  免責(zé)聲明:本文由用戶上傳,與本網(wǎng)站立場無關(guān)。財經(jīng)信息僅供讀者參考,并不構(gòu)成投資建議。投資者據(jù)此操作,風(fēng)險自擔(dān)。 如有侵權(quán)請聯(lián)系刪除!

 
分享:
最新文章