阿里開源新語音模型,比OpenAI的Whisper更好!
相信很多大家對阿里開源新語音模型,比OpenAI的Whisper更好!還不知道吧,今天菲菲就帶你們一起去了解一下~.~!
阿里巴巴在Qwen-Audio基礎(chǔ)之上,開源了最新語音模型Qwen2-Audio。
Qwen2-Audio一共有基礎(chǔ)和指令微調(diào)兩個版本,支持使用語音向音頻模型進(jìn)行提問并識別內(nèi)容以及語音分析。
例如,讓一位女生說一段話,然后識別她的年紀(jì)或解讀她的心情;發(fā)布一段吵鬧的聲音,分析有哪些聲音組成等。
目前,Qwen2-Audio支持中文、粵語、法語、英語、日語等主流語言和方言,這對于開發(fā)翻譯、情感分析等應(yīng)用非常方便。
開源地址:https://github.com/QwenLM/Qwen2-Audio
Qwen2-Audio能力大幅度提升
與第一代Qwen-Audio相比,Qwen2-Audio在架構(gòu)、性能等方面進(jìn)行了大幅度優(yōu)化和改進(jìn)。在預(yù)訓(xùn)練階段Qwen2-Audio采用了自然語言提示,替代了Qwen-Audio使用的復(fù)雜分層標(biāo)簽系統(tǒng)。
這一改變簡化了模型的訓(xùn)練過程,使得模型能夠更自然地理解和響應(yīng)各種數(shù)據(jù)和任務(wù),提高了模型的泛化能力能更好地理解和執(zhí)行各種指令。
Qwen2- Audio在指令跟隨能力方面有了顯著提升,通過增加指令調(diào)優(yōu)和直接偏好優(yōu)化等方法,可更準(zhǔn)確地理解用戶的指令,并根據(jù)指令提供更恰當(dāng)?shù)捻憫?yīng)。
例如,當(dāng)用戶發(fā)出語音指令,“分析這段音頻中的情感傾向時”,Qwen2- Audio能夠更精準(zhǔn)地判斷出音頻中的情感。
在功能方面Qwen2– Audio也進(jìn)行了擴展,支持語音聊天和音頻分析兩種模式:在語音聊天模式中,用戶可以更加自由地與Qwen2- Audio進(jìn)行語音交互,就像與朋友聊天一樣自然。
在音頻分析模式中,Qwen2- Audio能夠?qū)Ω鞣N類型的音頻進(jìn)行深入分析,提供更詳細(xì)和準(zhǔn)確的分析結(jié)果。
此外,Qwen2-Audio還引入了監(jiān)督式微調(diào)(SFT)和直接偏好優(yōu)化(DPO)兩種優(yōu)化方法。在SFT階段,模型通過高質(zhì)量的微調(diào)數(shù)據(jù)進(jìn)一步與人類意圖對齊,這使得Qwen2-Audio在與人類交互時更加自然和準(zhǔn)確;
DPO則通過人類標(biāo)注的好響應(yīng)和壞響應(yīng)數(shù)據(jù)來優(yōu)化模型,使其輸出更符合人類的期望和偏好。
Qwen2-Audio架構(gòu)簡單介紹
Qwen2-Audio使用了OpenAI開源的語音模型Whisper-large-v3作為音頻編碼器。為了更好地處理音頻數(shù)據(jù),Qwen2-Audio采用了16kHz的采樣頻率,并將原始波形轉(zhuǎn)化為128通道的mel譜圖,通過25ms窗口大小和10ms跳幀,確保了音頻特征的時間分辨率與頻譜信息的完整性。
為了減少音頻表示的長度,Qwen2-Audio引入一個池化層其步幅為2,編碼器輸出的每幀大約對應(yīng)于原始音頻信號中40ms的片段。這種處理方式使得模型能夠有效地捕捉音頻信號的特征,為后續(xù)的分析和理解提供了有力的支。
Qwen2-Audio準(zhǔn)確輸出分析結(jié)果
Qwen2-Audio使用了阿里自研的大模型Qwen-7B作為語言模型,能根據(jù)輸入的音頻和文本數(shù)據(jù)生成相應(yīng)的文本輸出。主要與音頻模塊協(xié)同工作,實現(xiàn)對音頻信息的理解和處理。
當(dāng)音頻編碼器對輸入的音頻信號進(jìn)行特征提取后,這些特征會與之前的文本序列一起輸入到大語言模型中,會對這些信息進(jìn)行綜合分析,理解音頻中所包含的語言內(nèi)容和語義信息。
例如,如果輸入的音頻是一段對話,大語言模型會嘗試?yán)斫鈱υ挼闹黝}、參與者的意圖以及情感傾向等。
在生成文本輸出時,大語言模型會根據(jù)對輸入信息的理解,通過其所學(xué)到的語言知識和模式,生成準(zhǔn)確的文本回復(fù)。
為了測試Qwen2-Audio性能,阿里在AIR – Bench、S2TT、ASR、Fleurs zh等主流基準(zhǔn)上進(jìn)行了綜合評測。
結(jié)果顯示,Qwen2-Audio的整體性能非常強勁,在librispeech的test-clean和test-other數(shù)據(jù)集上分別達(dá)到了1.6%和3.6%的WER。
在Fleurs的中文子集上,Qwen2-Audio的成績優(yōu)于OpenAI的Whisper-large-v3。
在CoVoST2數(shù)據(jù)集上的語音翻譯測試中,Qwen2-Audio在所有七個翻譯方向上均大幅度領(lǐng)先于基線模型。在SER和VSC測試中,Qwen2-Audio同樣以顯著成績勝出。
本文素材來源Qwen2-Audio,如有侵權(quán)請聯(lián)系刪除
以上就是關(guān)于【阿里開源新語音模型,比OpenAI的Whisper更好!】的相關(guān)內(nèi)容,希望對大家有幫助!
免責(zé)聲明:本文由用戶上傳,與本網(wǎng)站立場無關(guān)。財經(jīng)信息僅供讀者參考,并不構(gòu)成投資建議。投資者據(jù)此操作,風(fēng)險自擔(dān)。 如有侵權(quán)請聯(lián)系刪除!
-
【空調(diào)外機聲音大是什么問題】空調(diào)在使用過程中,如果發(fā)現(xiàn)外機發(fā)出異常的噪音,可能會讓人感到困擾??照{(diào)外機...瀏覽全文>>
-
【空調(diào)外機聲音大如何解決】空調(diào)在使用過程中,外機發(fā)出較大的噪音是很多用戶遇到的常見問題。這不僅影響居住...瀏覽全文>>
-
【空調(diào)外機清洗方法是什么】空調(diào)外機是空調(diào)系統(tǒng)中非常重要的組成部分,它的清潔程度直接影響到空調(diào)的制冷效果...瀏覽全文>>
-
【空調(diào)突然不制冷的原因】當(dāng)家中的空調(diào)突然不再制冷時,不僅影響使用體驗,還可能帶來一定的安全隱患。了解空...瀏覽全文>>
-
【空調(diào)銅管什么作用】空調(diào)在現(xiàn)代生活中扮演著越來越重要的角色,尤其是在夏季高溫時,它為我們提供了舒適的室...瀏覽全文>>
-
【空調(diào)銅管結(jié)霜怎么回事】空調(diào)在使用過程中,有時會出現(xiàn)銅管結(jié)霜的現(xiàn)象,這不僅影響制冷效果,還可能對設(shè)備造...瀏覽全文>>
-
【空調(diào)銅管結(jié)霜是什么原因】當(dāng)空調(diào)運行時,如果發(fā)現(xiàn)室內(nèi)機的銅管出現(xiàn)結(jié)霜現(xiàn)象,這不僅影響制冷效果,還可能對...瀏覽全文>>
-
【空谷幽蘭是什么意思】“空谷幽蘭”是一個富有詩意的成語,常用來形容在偏僻、冷清的地方生長的蘭花。它不僅...瀏覽全文>>
-
【空格怎么打出來】在日常使用電腦或手機輸入文字時,經(jīng)常會遇到需要輸入“空格”的情況。雖然看似簡單,但很...瀏覽全文>>
-
【空格怎么打】在日常使用電腦或手機時,很多人會遇到“空格怎么打”的問題。其實,“空格”是一個非?;A(chǔ)的...瀏覽全文>>