最新亚洲人成无码网站,夜夜操夜夜操夜夜爽,中文字日产幕乱五区,在线成人看片黄a免费看,亚洲自偷自拍另类11p

首頁 >> 今日更新 >

比OpenAI的Whisper快50%,最新開源語音模型

2024-08-04 09:00:36 來源: 用戶: 

相信很多大家對比OpenAI的Whisper快50%,最新開源語音模型還不知道吧,今天菲菲就帶你們一起去了解一下~.~!

生成式AI初創(chuàng)公司aiOla在官網(wǎng)開源了最新語音模型Whisper-Medusa,推理效率比OpenAI開源的Whisper快50%。

aiOla在Whisper的架構(gòu)之上進(jìn)行了修改采用了“多頭注意力”機(jī)制的并行計算方法,允許模型在每個推理步驟中預(yù)測多個token,同時不會損失性能和識別準(zhǔn)確率。

開源地址:https://github.com/aiola-lab/whisper-medusa

huggingface:https://huggingface.co/aiola/whisper-medusa-v1

傳統(tǒng)的Transformer架構(gòu)在生成序列時,是遵循逐個token的順序預(yù)測過程。這意味著在生成新序列時,模型每次只能預(yù)測下一個token,然后將這個預(yù)測的token加入到序列中,再基于更新后的序列預(yù)測下一個token。

這雖然能夠確保生成序列的連貫性和上下文相關(guān)性,但也有一個非常明顯的缺陷——極大限制了模型的推理效率。

此外,由于每次只能處理一個 token ,模型難以捕捉到數(shù)據(jù)中的長程依賴關(guān)系,可能會忽略一些重要的全局信息,從而影響模型的整體性能和準(zhǔn)確性。

而Whisper-Medusa使用了10頭的多注意力機(jī)制, 能各自獨(dú)立地計算注意力分布并行地處理輸入,然后將各自的輸出通過拼接的方式組合起來,形成一個多維度的向量。

隨后向量被送入全連接層進(jìn)行進(jìn)一步的處理,以生成最終的token預(yù)測。這種并行的數(shù)據(jù)處理方式不僅加快了模型的推理效率,還增加了模型的表達(dá)能力,因?yàn)槊總€注意力頭都可以專注于序列的不同子集,捕捉到更豐富的上下文信息。

為了使多頭注意力機(jī)制在Whisper-Medusa模型中更高效地運(yùn)行,aiOla采用了弱監(jiān)督的方法,在訓(xùn)練過程中凍結(jié)了原Whisper模型的主要組件,使用該模型生成的音頻轉(zhuǎn)錄作為偽標(biāo)簽來訓(xùn)練額外的token預(yù)測模塊。

使得模型即便沒有大量手動人工標(biāo)注數(shù)據(jù)的情況下,依然能夠?qū)W習(xí)到有效的語音識別模式。

此外在訓(xùn)練過程中,Whisper-Medusa的損失函數(shù)需要同時考慮預(yù)測的準(zhǔn)確性和效率。一方面,模型需要確保預(yù)測的token序列與實(shí)際轉(zhuǎn)錄盡可能一致;

另一方面,通過多頭注意力機(jī)制的并行預(yù)測,模型被鼓勵在保證精度的前提下,盡可能地加快預(yù)測效率。

aiOla使用了學(xué)習(xí)率調(diào)度、梯度裁剪、正則化等多種方法,確保模型在訓(xùn)練過程中能夠穩(wěn)定收斂,同時避免過擬合性。

業(yè)務(wù)場景方面, Whisper-Medusa能理解100多種語言,用戶可以開發(fā)音頻轉(zhuǎn)錄、識別等多種應(yīng)用,適用于翻譯、金融、旅游、物流、倉儲等行業(yè)。

aiOla表示,未來會將Whisper-Medusa的多注意力機(jī)制擴(kuò)展至20個頭,其推理效率將再次獲得大幅度提升。

以上就是關(guān)于【比OpenAI的Whisper快50%,最新開源語音模型】的相關(guān)內(nèi)容,希望對大家有幫助!

  免責(zé)聲明:本文由用戶上傳,與本網(wǎng)站立場無關(guān)。財經(jīng)信息僅供讀者參考,并不構(gòu)成投資建議。投資者據(jù)此操作,風(fēng)險自擔(dān)。 如有侵權(quán)請聯(lián)系刪除!

 
分享:
最新文章