國產(chǎn)大模型競技場首超GPT-4o！零一萬物GLM共同躋身Top10

2024-10-16 14:00:50 來源：用戶：

相信很多大家對國產(chǎn)大模型競技場首超GPT-4o！零一萬物GLM共同躋身Top10還不知道吧，今天菲菲就帶你們一起去了解一下~.~！

國產(chǎn)大模型首次在公開榜單上超過GPT-4o!

就在剛剛，“大模型六小強”之一的零一萬物正式對外發(fā)布新旗艦?zāi)Ｐ汀猋i-Lightning（閃電）。

在大模型競技場（Chatbot Arena）上，Yi-Lightning性能直沖總榜單并列第6，數(shù)學(xué)分榜并列第3，代碼等其它分榜也名列前茅。

總成績幾乎與馬斯克最新xAI大模型Grok-2-08-13持平，超越GPT-4o-2024-05-13、GPT-4o-mini-2024-07-18、Claude3.5Sonnet等頂流。同時，國內(nèi)清華系大模型公司智譜AI的GLM-4-Plus也殺進了總榜，位居第9位。

該榜單結(jié)果來自全球累積超千萬次的人類用戶盲測投票。

前段時間大模型競技場還剛剛更新了規(guī)則，新榜單對AI回答的長度和風(fēng)格等特征做了降權(quán)處理，分數(shù)更能反映模型真正解決問題的能力。

這次Yi-Lightning殺出重圍，Lmsys團隊特意發(fā)帖子，稱這是競技場上的大新聞:

大模型競技場總榜第六、國產(chǎn)第一

細看大模型競技場分類榜上的“賽況”，Yi-Lightning各項能力都排在前頭。

在中文能力上，Yi-Lightning和GLM-4-Plus兩個國產(chǎn)大模型都名列前位。

Yi-Lightning躍居并列第二，和o1-mini相差無幾。

數(shù)學(xué)能力，Yi-Lightning和Gemini-1.5-Pro-002并列第3，僅次于o1-preview、o1-mini。

代碼能力Yi-Lightning排名并列第4。

另外在Hard Prompts和Longer Query分榜，Yi-Lightning也都排在第4位。

最后同樣值得關(guān)注的是，競技場新功能風(fēng)格控制過濾，確保分數(shù)反映模型真正解決問題的能力，而不是用漂亮的格式、增加回答長度。

在對長度和風(fēng)格等特征做了降權(quán)處理后，所有模型分數(shù)均有下降，Yi-Lightning排名變化不大，整體還與GPT-4o、Grok-2同一梯隊。

發(fā)布會上，零一萬物創(chuàng)始人兼CEO李開復(fù)博士展示了Yi-Lightning在不同場景上的能力。

Yi-Lightning主打一個“推理速度更快，生成質(zhì)量更好”。

相比上半年Yi-Large，Yi-Lightning首包速度提升1倍，推理速度也提升了4成。

像是翻譯下面這種文學(xué)作品，Yi-Lightning不僅速度更快:

而且用詞更精準，更具文學(xué)色彩:

那么Yi-Lightning是如何做到的?

好用還得極速

Yi-Lightning采用MoE混合專家模型架構(gòu)。

底層技術(shù)上，Yi-Lightning在以下方面進行了提升。

首先是優(yōu)化混合注意力機制（Hybrid Attention），只在模型的部分層次中將傳統(tǒng)的全注意力(Full Attention)替換為滑動窗口注意力(Sliding Window Attention)。

由此以來，模型在保證處理長序列數(shù)據(jù)高性能表現(xiàn)的同時，還能大大降低推理成本。

Yi-Lightning還引入了跨層注意力（Cross-Layer Attention， CLA），允許模型在不同的層次之間共享鍵(Key)和值(Value)頭，減少對存儲需求。

這使得Yi-Lightning能在不同層次之間更有效地共享信息。

總的來說，KV cache縮小了2-4倍，同時將計算的復(fù)雜度從O（L2）降至O(L)。

其次，Yi-Lightning還采用了動態(tài)Top-P路由機制。

也就是說，Yi-Lightning可以根據(jù)任務(wù)的難度動態(tài)自動選擇最合適的專家網(wǎng)絡(luò)組合——

訓(xùn)練過程中會激活所有專家網(wǎng)絡(luò)，使模型能學(xué)習(xí)到所有專家知識;而推理階段，根據(jù)任務(wù)的難度，模型會選擇性激活更匹配的專家網(wǎng)絡(luò)。

另外，之前有一些傳言稱國內(nèi)大模型“六小強”，有一些已經(jīng)不做預(yù)訓(xùn)練了，李開復(fù)博士這次在發(fā)布會上直接“辟謠”:

而且在模型預(yù)訓(xùn)練階段，團隊還積累了豐富的多階段訓(xùn)練方法，將整個訓(xùn)練分為兩塊，一塊做好以后就把它固定起來，然后在這個固定的模型上再做后段訓(xùn)練。

訓(xùn)練前期，更注重數(shù)據(jù)多樣性，使得Yi-Lightning盡可能學(xué)習(xí)不同的知識;訓(xùn)練后期更重內(nèi)容更豐富、知識性更強的數(shù)據(jù)。

同時團隊還在不同階段采用不同的batch size和LR schedule保證訓(xùn)練速度和穩(wěn)定性。

李開復(fù)博士還表示，零一萬物開發(fā)模型講究“模基共建”，也就是共建模型和基礎(chǔ)架構(gòu)。

模型的訓(xùn)練、服務(wù)、推理設(shè)計，與底層的AIInfra架構(gòu)和模型結(jié)構(gòu)必須高度適配。

這樣做的目的，不僅是讓模型更好，而且讓它在推理的時候能夠更便宜。

再加上以上種種抬升“性價比”的技術(shù)加持，所以Yi-Lightning這次也是打到了白菜價——

0.99元每1M token

在中文等方面，Yi-Lightning比肩OpenAI的o1-mini，o1-mini的定價是每百萬輸入3美元，每百萬輸出12美元。

Yi-Lightning每百萬token只需0.99RMB也是打到了骨折。

但李開復(fù)博士表示，即便這樣也:不虧錢。

除了發(fā)布新模型，零一萬物這次還首發(fā)了AI2.0數(shù)字人方案。

目前該數(shù)字人已接入Yi-Lightning，實時互動效果相比以往更強更自然了，belike:

最后談起和國外頭部大模型的差距，李開復(fù)博士表示這次Yi-Lightning的排名證明了國產(chǎn)大模型跟硅谷最頂尖模型的差距縮小到了五個月。

參考鏈接:

[1]https://x.com/lmarena_ai/status/1846245604890116457

[2]https://x.com/01AI_Yi/status/1845776529185476613

以上就是關(guān)于【國產(chǎn)大模型競技場首超GPT-4o！零一萬物GLM共同躋身Top10】的相關(guān)內(nèi)容，希望對大家有幫助！

標簽：國產(chǎn)大模型競技場首超GPT-4o！零一萬物GLM共同躋身Top10

　　免責(zé)聲明：本文由用戶上傳，與本網(wǎng)站立場無關(guān)。財經(jīng)信息僅供讀者參考，并不構(gòu)成投資建議。投資者據(jù)此操作，風(fēng)險自擔(dān)。如有侵權(quán)請聯(lián)系刪除！

分享：

相關(guān)閱讀

董明珠曾喊話雷軍給股民分多少錢！格力：擬分紅超55億

Epic喜+1：動作游戲《師父》免費領(lǐng) 立省139元

雷軍辟謠只招聘35歲以下員工：僅針對未來之星項目

普華永道發(fā)布2025年AI預(yù)測：AI Agents將勞動力提升1倍

雷軍回應(yīng)股價暴跌：年年難過年年過

一天100座！理想汽車第1700座超充站正式建成

《守望先鋒》國服宣布2月19日回歸：賬號數(shù)據(jù)完整保留

雷軍建議創(chuàng)業(yè)者要多留點錢給員工：別到山窮水盡才講問題

雷軍新年第一天收到200元紅包自侃年入百萬的開始

雷軍親自展示REDMI Turbo 4！2025年第一款新機

雷軍：小米未來10年建至少20座世界頂級工廠

雷軍辟謠只招聘35歲以下員工：只有招聘未來之星時才有年齡限制

雷軍回應(yīng)100億造車：沒有好到“封神” 不要神話我

雷軍表態(tài)：一心做好小米汽車大家可以在“許愿池”尋找商機

雷軍：中國汽車產(chǎn)業(yè)應(yīng)少些歪門邪道不要發(fā)黑稿、背后捅刀子

小米SU7選配色都是7000元為什么璀璨洋紅卻需要9000元

最新文章

奔馳GLE預(yù)約試駕，新手必看的詳細流程

奔馳GLE作為豪華SUV市場中的佼佼者，憑借其卓越的性能、豪華的內(nèi)飾以及寬敞的空間，吸引了眾多消費者的關(guān)注。...瀏覽全文>>

安徽阜陽帕薩特新能源新車報價2025款走勢，市場優(yōu)惠力度持續(xù)加大

在2025年，安徽阜陽地區(qū)的帕薩特新能源汽車市場表現(xiàn)非?；钴S。作為一款備受關(guān)注的新能源車型，帕薩特新能源憑...瀏覽全文>>

滁州T-ROC探歌 2025新款價格，最低售價15.89萬起，趕緊行動

近日，滁州地區(qū)的大眾汽車經(jīng)銷商傳來好消息：備受矚目的2025款T-ROC探歌正式上市，并且以極具競爭力的價格吸引...瀏覽全文>>

安徽淮南長安啟源E07多少錢 2024款落地價，買車前的全方位指南

在選擇一款新能源汽車時，了解其價格和配置是非常重要的一步。安徽淮南地區(qū)的長安啟源E07作為2024款的新車型，...瀏覽全文>>

阜陽長安啟源A05最新價格2025款，配置升級，值不值得買？

阜陽長安啟源A05作為長安汽車旗下的全新車型，自推出以來便憑借其獨特的設(shè)計風(fēng)格和豐富的配置吸引了眾多消費者...瀏覽全文>>

阜陽長安啟源A07價格，豪華配置超值價來襲

阜陽長安啟源A07作為一款備受矚目的新能源車型，以其豪華配置和親民的價格在市場上引起了廣泛關(guān)注。這款車型不...瀏覽全文>>

安徽淮南威然最新價格2024款，各配置車型售價全知曉

安徽淮南威然2024款價格及配置詳解隨著汽車市場的不斷更新?lián)Q代，上汽大眾旗下的MPV車型——威然（Viloran）憑...瀏覽全文>>

QQ多米新車報價2025款，買車省錢秘籍

QQ多米新車報價2025款，買車省錢秘籍隨著汽車市場的不斷發(fā)展，消費者在選購車輛時不僅關(guān)注車型的性能和配置，...瀏覽全文>>

滁州途觀X最新價格2024款，買車省錢秘籍

滁州途觀X 2024款最新價格及買車省錢秘籍隨著汽車市場的不斷發(fā)展，大眾途觀X作為一款兼具時尚與性能的中型SUV...瀏覽全文>>

滁州蔚攬 2022新款價格，豪華配置超值價來襲

隨著汽車市場的不斷發(fā)展，大眾蔚攬以其優(yōu)雅的設(shè)計和卓越的性能贏得了眾多消費者的青睞。作為一款兼具實用性和...瀏覽全文>>

大家愛看

Alienware 在 2025 年 CES 上展示了一些超凡脫俗的技術(shù)

Wickes 任命首席零售和分銷官

分析師稱GTA 6或?qū)淞⑿袠I(yè)新標準

索尼和本田在拉斯維加斯推出售價 89,900 美元的 Afeela 1

日本 11 月游客人數(shù)創(chuàng)月度新高

神經(jīng)認知測試在 3 歲兒童白血病治療期間可行

牛津郡小學(xué)支持圣誕毛衣日

S?strene Grene 投資歐洲物流中心

有人已經(jīng)在電視上直播 BNMC 打造的 1967 年福特野馬 Restomod

潛在的分子療法可以逆轉(zhuǎn)小鼠的胎盤發(fā)育問題

頻道推薦

奔馳GLE預(yù)約試駕，新手必看的詳細流程

滁州T-ROC探歌 2025新款價格，最低售價15.89萬起，趕緊行動

安徽淮南威然最新價格2024款，各配置車型售價全知曉

滁州途觀X最新價格2024款，買車省錢秘籍

淮南長安啟源Q05 2025新款價格，最低售價9.69萬起，入手正當(dāng)時

安徽淮南探影多少錢 2023款落地價，各配置車型售價一目了然

淮南途觀X價格大揭秘，買車前必看

安徽淮南長安獵手K50新款價格2025款多少錢？買車攻略一網(wǎng)打盡

滁州ID.4 X新款價格2025款多少錢？買車攻略一網(wǎng)打盡

QQ多米落地價，購車前必看的費用明細

站長推薦

Nvidia DLSS 4 有望將游戲性能提高 8 倍

人工智能在預(yù)測自身免疫性疾病進展方面顯示出良好的前景

心理物理實驗揭示皮膚水分感知是如何改變的

科茨沃爾德公司慶祝圣誕節(jié)圓滿成功

南法納姆學(xué)校被評為薩里郡表現(xiàn)最好的小學(xué)

約克區(qū)九所小學(xué)將削減招生人數(shù)

松下新款電動汽車電池為 Lucid Gravity 帶來 450 英里續(xù)航里程

泰國旅游呈現(xiàn)新趨勢

研究人員找到在細胞水平上餓死前列腺癌腫瘤的新方法

領(lǐng)先的人工智能聊天機器人在測試中表現(xiàn)出類似癡呆癥的認知能力下降

龐大的 Project Zomboid build 42 終于可以玩了

Steam Replay 回歸向您展示 2024 年您玩得最多的 PC 游戲

Jollyes 推出強化的人才支持和招聘措施

Karen Millen 與 Simon Harrison 共同推出全新高級珠寶系列

奇瑞風(fēng)云A8L電動轎車刷新續(xù)航里程世界紀錄

虛擬藝術(shù)家將別克 Cascada 帶回 2026 款車型

OnePlus 宣布推出新計劃解決綠線問題

OnePlus Watch 3 將擁有更大的電池和更薄的機身

研究人員發(fā)現(xiàn)可變剪接與自身免疫性疾病遺傳之間的細胞類型特異性聯(lián)系

科學(xué)家確定腦細胞類型是排尿的主要控制者

最新亚洲人成无码网站,夜夜操夜夜操夜夜爽,中文字日产幕乱五区,在线成人看片黄a免费看,亚洲自偷自拍另类11p

國產(chǎn)大模型競技場首超GPT-4o！零一萬物GLM共同躋身Top10