力壓70B Llama 3,Gemma 2成最強開源模型,大佬質(zhì)疑用榜單prompt微調(diào)引全網(wǎng)熱議
相信很多大家對力壓70B Llama 3,Gemma 2成最強開源模型,大佬質(zhì)疑用榜單prompt微調(diào)引全網(wǎng)熱議還不知道吧,今天菲菲就帶你們一起去了解一下~.~!
導(dǎo)讀:時隔4個月上新的Gemma2模型在LMSYS Chatbot Arena的排行上,以27B的參數(shù)擊敗了許多更大規(guī)模的模型,甚至超過了70B的Llama-3-Instruct,成為開源模型的性能第一!
谷歌出手,果然非同凡響。
Gemma2上周剛剛發(fā)布,就在LMSYS競技場上取得了亮眼的成績。
在整體評分上Gemma2拿到了開源模型最高分,而且用27B的參數(shù)「以小搏大」,超過了Llama3-70B-Instruct、Claude3Sonnet等更大量級的知名模型。
開源模型的頭把交椅真的要易主Gemma了?
對于這個成績,谷歌研究院首席科學(xué)家Jeff Dean也發(fā)文慶祝。
不僅是總體評分,在LMSYS昨天剛發(fā)布的「多輪對話」排行榜上,Gemma2的表現(xiàn)依舊強勁。
LMSYS表示,LLM的多輪對話在當(dāng)今許多應(yīng)用場景中非常重要。
在競技場的投票中,多輪對話的占比為14%,占到了不可忽視的比例。
因此他們推出了新的排行類別「多輪對話」,其中包括兩輪或多輪的測試,以衡量模型在更長時間內(nèi)交互的能力。
在這個全新的排行榜中,Claude家族的排名顯著提升。
總分屈居亞軍的Claude3.5Sonnet,成功地與GPT-4o并列第一;Claude3Opus也從原來的第8名躍居第三。
我們本次的主角Gemma2也實現(xiàn)了2個名次的進步,進入前十行列,而且壓了Llama3-70B-Instruct一頭。
在Gemma2放出9B和27B兩個版本的同時,DeepMind研究員Clement在推特上透露,接下來還會有2B版本和大家見面!
曾經(jīng)只靠開源「一招鮮」的Meta終于迎來了強勁對手。Gemma2和Llama3的競爭想必會在未來一段時間內(nèi)持續(xù)下去。
Gemma為什么這么強?
為什么27B的Gemma2能打敗70B的Llama3?谷歌究竟用了什么技術(shù)實現(xiàn)如此高的參數(shù)效率?
或許我們可以從官方發(fā)布的技術(shù)報告中找到蛛絲馬跡。
報告地址:https://developers.googleblog.com/en/fine-tuning-gemma-2-with-keras-hugging-face-update/
訓(xùn)練數(shù)據(jù)方面,可想而知,并沒有具體的數(shù)據(jù)來源和組成,只有數(shù)據(jù)量。
由于Gemma既沒有多模態(tài)又不針對多語言任務(wù),因此訓(xùn)練語料只包含各種類型的文本和代碼,且主要語言為英語。
27B模型的訓(xùn)練數(shù)據(jù)有13萬億token,9B模型和2.6B模型則分別為8萬億、2萬億token。
架構(gòu)上,Gemma2從Gemini團隊和Gemma1沿用了很多方面,包括旋轉(zhuǎn)位置編碼(RoPE)、SentencePiece分詞器、Logit軟上限、GeGLU激活函數(shù)等等。
相比Gemma1,Gemma2采用了更深的網(wǎng)絡(luò),且在某些部分做了更新——
局部滑動窗口和全局注意力Gemma2交替使用局部滑動窗口和全局注意力,滑動窗口大小設(shè)置為4096token,而全局注意力層的設(shè)置為8192token。
這種方法在正確捕捉文本細(xì)節(jié)的同時,又能保持對上下文和全局的正確理解。
知識蒸餾能夠訓(xùn)練出有競爭力性能的9B和27B模型,成功的知識蒸餾過程估計是最為重要的環(huán)節(jié)。
傳統(tǒng)訓(xùn)練大語言模型的方法主要是根據(jù)之前的token,預(yù)測下一個token,需要大量的數(shù)據(jù)進行訓(xùn)練。
但是,人類的學(xué)習(xí)過程并不依賴走量的知識輸入。比如,一位學(xué)生由于閱讀原著的需要學(xué)習(xí)一門外語,他并不需要看遍所有的書籍,只需要以一本書為綱,通過理解后融會貫通。
而知識蒸餾法與人的學(xué)習(xí)過程更加類似。一個小模型向另一個已經(jīng)進行過預(yù)訓(xùn)練的大模型學(xué)習(xí),通過這種方式助產(chǎn)小模型對于token的預(yù)測。
站在老師模型的肩膀上,學(xué)生模型能用較少的訓(xùn)練數(shù)據(jù)、更少的參數(shù)量提升性能。
用LMSYS數(shù)據(jù)微調(diào),引AI2研究員質(zhì)疑
開源模型界終于在Llama之后迎來了Gemma2這個最新的扛把子選手,就在大家忙著興奮的同時,Allen AI的研究員Nathan Lambert冷靜地在技術(shù)報告中發(fā)現(xiàn)了華點:
微調(diào)數(shù)據(jù)的來源包括LMSYS的聊天數(shù)據(jù)集!
似乎是預(yù)想到了可能的質(zhì)疑,論文中特意強調(diào)只使用了prompt,把答案剔出去了。
Lambert依舊不認(rèn)可這種行為。他發(fā)了一篇推特,疑惑的語氣中帶著一絲嘲諷:為了在競技場上刷分?jǐn)?shù),你們谷歌團隊挺有想象力的。
這位Nathan Lambert其實算是LLM領(lǐng)域比較資深的專業(yè)人士,他博士畢業(yè)于UC伯克利大學(xué),在DeepMind和FAIR都有實習(xí)經(jīng)歷。
針對Lambert的質(zhì)疑,LMSYS隨后回復(fù)了一篇意義不明的超長推特,似乎透露出了為谷歌辯護的隱晦立場。
推特全文如下:
這有些讓人摸不著頭腦,既說「用數(shù)據(jù)改進模型是受歡迎的」,又說「我們開放數(shù)據(jù)和論文是為了回應(yīng)質(zhì)疑」。
發(fā)帖的Lambert也同樣被搞糊涂了,他進一步闡明了自己的立場。
「感覺我們討論的不是同一件事,我的觀點依舊成立。很可能有更多的人也在這樣做,但我們并不知道。」
LMSYS最新回復(fù)的內(nèi)容更加讓人內(nèi)心復(fù)雜——
「對不起,雖然我貼上了你的推特,但不是在特意回復(fù)你。」
對于微調(diào)應(yīng)不應(yīng)該使用LMSYS數(shù)據(jù)這個問題,評論區(qū)的網(wǎng)友也吵得熱火朝天。
有些人覺得Lambert的質(zhì)疑毫無道理。畢竟LMSYS公開了數(shù)據(jù)集,用來做微調(diào)有什么不可以的?而且只使用了prompt,答案是教師模型生成的。
畢竟大家都在看LMSYS的聊天機器人Arena的分?jǐn)?shù),如果大家都不用這個數(shù)據(jù)才比較出乎意料。
這個立場得到了大部分人的認(rèn)同。雖然谷歌是為數(shù)不多的坦誠,敢把用了LMSYS數(shù)據(jù)這件事寫進論文,但他們絕對不是第一個使用這些數(shù)據(jù)的人。
「我打賭GPT-4o和Llama3也這么干了?!?/p>
畢竟在一段時間內(nèi),LMSYS競技場曾經(jīng)是唯一可信的基準(zhǔn)測試。
而這也正是Lambert所擔(dān)心的——LMSYS是業(yè)界為數(shù)不多的得到大多數(shù)人認(rèn)可的基準(zhǔn)測試,如果大家再用它的數(shù)據(jù)微調(diào)甚至訓(xùn)練,豈不很快又會失去公信力?
更糟糕的情況是,不是每一個模型都像Gemma2這樣會承認(rèn)這件事。
不少觀點比較中肯的網(wǎng)友也點出了這一點。
「我相信這會降低Arena的信噪比?!?/p>
看來在基準(zhǔn)測試領(lǐng)域,重復(fù)的歷史總在不斷上演,而那個金句也總是適用——
「當(dāng)一個衡量標(biāo)準(zhǔn)成為目標(biāo)時,它就不再是一個好的衡量標(biāo)準(zhǔn)了。」
參考資料:
https://x.com/JeffDean/status/1807407880766726464
https://x.com/lmsysorg/status/1807503885181006236
https://x.com/natolambert/status/1806384821826109597
https://storage.googleapis.com/deepmind-media/gemma/gemma-2-report.pdf
以上就是關(guān)于【力壓70B Llama 3,Gemma 2成最強開源模型,大佬質(zhì)疑用榜單prompt微調(diào)引全網(wǎng)熱議】的相關(guān)內(nèi)容,希望對大家有幫助!
免責(zé)聲明:本文由用戶上傳,與本網(wǎng)站立場無關(guān)。財經(jīng)信息僅供讀者參考,并不構(gòu)成投資建議。投資者據(jù)此操作,風(fēng)險自擔(dān)。 如有侵權(quán)請聯(lián)系刪除!
-
奔馳GLE作為豪華SUV市場中的佼佼者,憑借其卓越的性能、豪華的內(nèi)飾以及寬敞的空間,吸引了眾多消費者的關(guān)注。...瀏覽全文>>
-
在2025年,安徽阜陽地區(qū)的帕薩特新能源汽車市場表現(xiàn)非?;钴S。作為一款備受關(guān)注的新能源車型,帕薩特新能源憑...瀏覽全文>>
-
近日,滁州地區(qū)的大眾汽車經(jīng)銷商傳來好消息:備受矚目的2025款T-ROC探歌正式上市,并且以極具競爭力的價格吸引...瀏覽全文>>
-
在選擇一款新能源汽車時,了解其價格和配置是非常重要的一步。安徽淮南地區(qū)的長安啟源E07作為2024款的新車型,...瀏覽全文>>
-
阜陽長安啟源A05作為長安汽車旗下的全新車型,自推出以來便憑借其獨特的設(shè)計風(fēng)格和豐富的配置吸引了眾多消費者...瀏覽全文>>
-
阜陽長安啟源A07作為一款備受矚目的新能源車型,以其豪華配置和親民的價格在市場上引起了廣泛關(guān)注。這款車型不...瀏覽全文>>
-
安徽淮南威然2024款價格及配置詳解隨著汽車市場的不斷更新?lián)Q代,上汽大眾旗下的MPV車型——威然(Viloran)憑...瀏覽全文>>
-
QQ多米新車報價2025款,買車省錢秘籍隨著汽車市場的不斷發(fā)展,消費者在選購車輛時不僅關(guān)注車型的性能和配置,...瀏覽全文>>
-
滁州途觀X 2024款最新價格及買車省錢秘籍隨著汽車市場的不斷發(fā)展,大眾途觀X作為一款兼具時尚與性能的中型SUV...瀏覽全文>>
-
隨著汽車市場的不斷發(fā)展,大眾蔚攬以其優(yōu)雅的設(shè)計和卓越的性能贏得了眾多消費者的青睞。作為一款兼具實用性和...瀏覽全文>>
- Alienware 在 2025 年 CES 上展示了一些超凡脫俗的技術(shù)
- Wickes 任命首席零售和分銷官
- 分析師稱GTA 6或?qū)淞⑿袠I(yè)新標(biāo)準(zhǔn)
- 索尼和本田在拉斯維加斯推出售價 89,900 美元的 Afeela 1
- 日本 11 月游客人數(shù)創(chuàng)月度新高
- 神經(jīng)認(rèn)知測試在 3 歲兒童白血病治療期間可行
- 牛津郡小學(xué)支持圣誕毛衣日
- S?strene Grene 投資歐洲物流中心
- 有人已經(jīng)在電視上直播 BNMC 打造的 1967 年福特野馬 Restomod
- 潛在的分子療法可以逆轉(zhuǎn)小鼠的胎盤發(fā)育問題
- 奔馳GLE預(yù)約試駕,新手必看的詳細(xì)流程
- 滁州T-ROC探歌 2025新款價格,最低售價15.89萬起,趕緊行動
- 安徽淮南威然最新價格2024款,各配置車型售價全知曉
- 滁州途觀X最新價格2024款,買車省錢秘籍
- 淮南長安啟源Q05 2025新款價格,最低售價9.69萬起,入手正當(dāng)時
- 安徽淮南探影多少錢 2023款落地價,各配置車型售價一目了然
- 淮南途觀X價格大揭秘,買車前必看
- 安徽淮南長安獵手K50新款價格2025款多少錢?買車攻略一網(wǎng)打盡
- 滁州ID.4 X新款價格2025款多少錢?買車攻略一網(wǎng)打盡
- QQ多米落地價,購車前必看的費用明細(xì)
- Nvidia DLSS 4 有望將游戲性能提高 8 倍
- 人工智能在預(yù)測自身免疫性疾病進展方面顯示出良好的前景
- 心理物理實驗揭示皮膚水分感知是如何改變的
- 科茨沃爾德公司慶祝圣誕節(jié)圓滿成功
- 南法納姆學(xué)校被評為薩里郡表現(xiàn)最好的小學(xué)
- 約克區(qū)九所小學(xué)將削減招生人數(shù)
- 松下新款電動汽車電池為 Lucid Gravity 帶來 450 英里續(xù)航里程
- 泰國旅游呈現(xiàn)新趨勢
- 研究人員找到在細(xì)胞水平上餓死前列腺癌腫瘤的新方法
- 領(lǐng)先的人工智能聊天機器人在測試中表現(xiàn)出類似癡呆癥的認(rèn)知能力下降
- 龐大的 Project Zomboid build 42 終于可以玩了
- Steam Replay 回歸向您展示 2024 年您玩得最多的 PC 游戲
- Jollyes 推出強化的人才支持和招聘措施
- Karen Millen 與 Simon Harrison 共同推出全新高級珠寶系列
- 奇瑞風(fēng)云A8L電動轎車刷新續(xù)航里程世界紀(jì)錄
- 虛擬藝術(shù)家將別克 Cascada 帶回 2026 款車型
- OnePlus 宣布推出新計劃解決綠線問題
- OnePlus Watch 3 將擁有更大的電池和更薄的機身
- 研究人員發(fā)現(xiàn)可變剪接與自身免疫性疾病遺傳之間的細(xì)胞類型特異性聯(lián)系
- 科學(xué)家確定腦細(xì)胞類型是排尿的主要控制者