現(xiàn)在的大模型榜單，真就沒一個(gè)可信的。

2024-09-10 09:00:58 來源：用戶：

相信很多大家對現(xiàn)在的大模型榜單，真就沒一個(gè)可信的。還不知道吧，今天菲菲就帶你們一起去了解一下~.~！

現(xiàn)在的大模型榜單上，真的都是水分。

全是作弊的考生，真的。

上周，AI圈有個(gè)很炸裂的大模型發(fā)布，在全網(wǎng)引起了山呼海嘯，一眾從業(yè)者和媒體尊稱它為開源新王。

就是Reflection70B。

在每項(xiàng)基準(zhǔn)測試上都超過了 GPT-4o，還只用70B的參數(shù)，就擊敗了405B的Llama3.1，模型中還有一個(gè)叫「Reflection-Tuning」的技術(shù)，能讓模型能夠在最終回復(fù)之前，先識別自己有沒有錯(cuò)誤，如果有，糾正以后再回答。

其實(shí)這個(gè)東西當(dāng)時(shí)我就很存疑，因?yàn)樵谖业睦斫饫?，這玩意，就是個(gè)CoT，就是個(gè)純Prompt，一個(gè)Prompt把70B模型直接帶的螺旋升天?

你這玩意，真要是能做到，奧特曼就真的直接原地給你磕頭了。。。

最關(guān)鍵的是，還有一個(gè)很離譜的點(diǎn)，這個(gè)模型就兩個(gè)人做，而且，從一拍即合、到找數(shù)據(jù)集、到模型微調(diào)完成并正式發(fā)布，一共就花了3周。

這效率，這速度，直接卷的螺旋升天，國內(nèi)大廠速度沒卷到這個(gè)地步...

于是我就觀望了幾天。

直到昨天，發(fā)現(xiàn)這模型底都快被人扒掉了。

模型結(jié)果造假，提供給開發(fā)者的API，還是造假。

先是跑分評測上面，這是他們老板Matt自己發(fā)出來的跑分結(jié)果，勇奪第一。

看這個(gè)結(jié)果，你就說屌不屌吧，拳打Claude3.5，腳踢GPT-4o，還把Gemini1.5Pro和Llama3.1405B給摁在地上摩擦。

你很難想象這只是一個(gè)兩個(gè)人花三周訓(xùn)的70B的模型能干出來的事。

直到7號，Artificial Analysis用他們自己的標(biāo)準(zhǔn)評測集跑了一通，發(fā)現(xiàn)這事不對啊，你這么多項(xiàng)評測集都登頂了，你應(yīng)該很牛逼才對啊，這得分什么情況???

他們是這么說的:

“哥們，我們測完了咋感覺你比Llama3.170B更拉了呢?老實(shí)說，你是不是在騙兄弟們?！?/p>

Matt看到了以后，開始說臥槽不對勁啊，我們內(nèi)部是好的啊，怎么你們測試結(jié)果這么爛?

花了好半天，Matt終于說，哦是Hugging Face 權(quán)重出現(xiàn)了問題，我也不知道咋回事，你們等一等。

說完還不忘凡爾賽一下，說:

翻譯一下就是:我們是在太太太太火啦，你們再等等啊，乖。

直到今天凌晨，最騷的事情來了，Matt說，我們終于解決了問題，開放了新的API。

他們提供了一個(gè)私有接口，說這個(gè)才是Reflection70B完全體。

大家一測，臥槽，果然牛逼，牛逼炸了。

真的好像比GPT4o還有那些大廠的模型強(qiáng)哎。

就差點(diǎn)直接給Reflection70B開香檳了。

2個(gè)人，3周時(shí)間，創(chuàng)了AI行業(yè)的奇跡。

但是大家香檳剛開一半，就被生生的摁回去了。

大家發(fā)現(xiàn)，這個(gè)所謂的“Reflection70B”的API，怎么跟Claude3.5回復(fù)的東西，一模一樣。。。

于是有人，又做了一個(gè)驗(yàn)證測試，他把所有API的參數(shù)全部設(shè)為10個(gè)Token、0溫度、top_k1，然后讓大模型，重復(fù)entsprechend這個(gè)詞20次，因?yàn)榇竽Ｐ蛯oken的計(jì)算都不太一樣，所以其實(shí)10個(gè)token限制輸出的內(nèi)容也不太一樣，你既然說你是基于Llama3.1微調(diào)的，那你肯定得跟Llama3.1輸出內(nèi)容一樣對吧。

但是，結(jié)果直接讓人大跌眼鏡。

好兄弟，你怎么，跟Claude的長度一樣，你到底是Llama3.1生出的Reflection70B，還是披著狗皮的Claude啊???

更狗的是，他們居然，還把Claude設(shè)成了屏蔽詞，在用戶的對話中，一旦你發(fā)Claude，就直接剔除。

騷啊，實(shí)在是太騷了。。。

這下，所有AI行業(yè)的人，都知道，Reflection70B就是一場徹頭徹尾的鬧劇。

這個(gè)鬧劇背后，我覺得反應(yīng)出了現(xiàn)在整個(gè)AI領(lǐng)域，一個(gè)非常詭異的現(xiàn)象。

刷榜。

回到整個(gè)事情的起點(diǎn)，就是模型能力的強(qiáng)度，和榜單。

正是因?yàn)镽eflection70B在評測集上屠榜了，秒殺Claude3.5和GPT4o，才讓大家如此興奮。

但是結(jié)果大家發(fā)現(xiàn)，臥槽你怎么就做那些特定評測集的題目那么牛逼?換個(gè)別的題就直接變廢物了?不是細(xì)狗你行不行啊?

直接對著答案抄，還不行，那不扯淡嗎。

大模型目前的評測體系，從來就不復(fù)雜，就是考試，純純的考試。

評測數(shù)據(jù)集相當(dāng)于試卷，模型就是正在考試的學(xué)生，最后交卷，看誰的分高。

聽起來是不是很科學(xué)?理論上是的，但是大模型評測領(lǐng)域有一個(gè)非常嚴(yán)重的BUG，就是評測集，就是考試試卷，是公開的，所有人在考試之前，都可以看到考卷。

為什么評測機(jī)構(gòu)要公開評測集?不公開不就行了?

答案是不行。

高考和學(xué)校的考試，是權(quán)威的考試，我不差你一個(gè)，你愛考不考，我就是天，我就是規(guī)則，所以，他們當(dāng)然不會公開試卷，一切以公平說話。

但是大模型領(lǐng)域，太新了，這些評測榜單，比如SuperCLUE、C-Eval、HuggingFace，話語權(quán)沒那么大，供需關(guān)系倒過來了，如果機(jī)構(gòu)在評測時(shí)用什么問題以及對應(yīng)什么答案是什么一直不公開，如果機(jī)構(gòu)的評測邏輯與工具、評分方法與過程是封閉的“黑盒子”，那一定會被招來無數(shù)質(zhì)疑，先被干躺的是這些評測機(jī)構(gòu)你信不信。

兩害相權(quán)取其輕，所以就變成了現(xiàn)在的情況了。

人們總是單純的，總是喜歡量化的，也總是喜歡用一些固定的標(biāo)準(zhǔn)，來恒定一個(gè)東西的好與差。

所以在這一年半的白模大戰(zhàn)中，我們經(jīng)常能聽到各種奇奇怪怪的第一，每個(gè)模型，都說自己超越GPT4o了，把它按在腳下摩擦。

6月27日:“ 訊飛星火V4.0不僅在8個(gè)國際主流測試集中排名第一，領(lǐng)先國內(nèi)大模型，并在文本生成、語言理解、知識問答、邏輯推理、數(shù)學(xué)能力等方面實(shí)現(xiàn)了對GPT-4Turbo的整體超越?！?/em>

5月21日:"在 LMSYS最新排名中，零一萬物的最新千億參數(shù)模型 Yi-Large 總榜排名世界模型第7，中國大模型中第一，已經(jīng)超過 Llama-3-70B、Claude3Sonnet;其中文分榜更是與 GPT4o 并列世界第一。"

3月26日:"沙利文發(fā)布了《2024年中國大模型能力評測》，評測顯示，百度文心一言穩(wěn)居國產(chǎn)大模型首位，拿下數(shù)理科學(xué)、語言能力、道德責(zé)任、行業(yè)能力及綜合能力等五大評測維度的四項(xiàng)第一"

我不想說什么模型好什么模型不好，這種刷榜到底有沒有意義，我只想說，使用者一定會用腳投票的。

況且，有的排行榜，那是真的不能看，比如前段時(shí)間看到的一個(gè)權(quán)威機(jī)構(gòu)的文生視頻排行榜，用量化指標(biāo)來恒量視頻生成質(zhì)量。

別的我不說了，我就說你把智譜清影排在可靈上面，你自己去問問智譜的人，他們敢接這個(gè)第二嗎?智譜是一家很實(shí)誠的公司，所以他們品牌市場也沒拿這玩意去做宣傳，你要是一些別的公司，又得PR起飛了。

這個(gè)榜單創(chuàng)作者們看到也只會笑笑，大家不傻，真的。

在經(jīng)濟(jì)學(xué)中，有一個(gè)著名的理論，叫做古德哈特定律。

原意是:一項(xiàng)社會指標(biāo)或經(jīng)濟(jì)指標(biāo)，一旦成為一個(gè)用以指引宏觀政策制定的既定目標(biāo)，那么該指標(biāo)就會喪失其原本具有的信息價(jià)值。因?yàn)檎咧贫ㄕ邥奚渌矫鎭韽?qiáng)化這個(gè)指標(biāo)，從而使這個(gè)指標(biāo)不再具有指示整體情況的作用。

用最簡單的話來說，就是:

"當(dāng)一個(gè)指標(biāo)成為目標(biāo)時(shí)，它就不再是一個(gè)好的指標(biāo)。"

萬物皆如此。

所以這里，我想說一個(gè)暴論:現(xiàn)在的大模型榜單，還有各種亂七八糟的AI產(chǎn)品榜單，參考看看可以，但是不要奉為圣經(jīng)，更不要當(dāng)真，拿來做你跟別人吵架的憑據(jù)。

騙騙兄弟可以，別把自己也騙了。

當(dāng)所有的大模型，都用MMLU、MATH、IFEval、GSM8K之類的基準(zhǔn)測試來衡量自己模型的能力，那這些基準(zhǔn)測試，也就不再是一個(gè)好的基準(zhǔn)了。

去年一篇論文讓我印象非常的深刻，叫《Don’t Make Your LLM an Evaluation Benchmark Cheater》，來自中國人民大學(xué)。

里面詳細(xì)的闡述了因?yàn)閿?shù)據(jù)泄露而引起的整個(gè)大模型刷榜情況的虛假繁榮。

N多模型，直接把評測集的數(shù)據(jù)訓(xùn)在了模型里面，從而直接屠榜，來引起聲量和討論。

這就像學(xué)校里考試，我們每個(gè)人都公平的在考場上，一起考試答題，大家各憑本事一決勝負(fù)。

但是偏偏有個(gè)學(xué)生，平時(shí)滿分750他只能考個(gè)299，但是這次，他在考試前，已經(jīng)提前知道了所有卷子的題目和答案，都在腦子里背了下來，只有一些語文之類的主觀題沒有滿分，其他全是滿分，考了720分。

那你會覺得，他考了720分，是因?yàn)樗娴呐１茊?

傻子才會。

大模型的評測，跟這種考試，沒有任何區(qū)別。刷題而已，人類刷了幾千年的題，這點(diǎn)手段，還能難倒背后的人?開什么玩笑。

所以《Don’t Make Your LLM an Evaluation Benchmark Cheater》的作者，提出一種方法，用n-gram哈希算法在考試前對數(shù)據(jù)污染現(xiàn)象，進(jìn)行嚴(yán)格檢查，只要是作弊的，一律滾出去。

可惜，因?yàn)槲疑厦嬲f的那些亂七八糟的問題，并沒有辦法用上，現(xiàn)在所有的榜單，都還是充斥著無數(shù)的水分。

榜單不再可信，但是普通用戶和開發(fā)者，永遠(yuǎn)會用腳投票。

請?jiān)谑謾C(jī)微信登錄投票

你心中No.1的大模型是哪個(gè)?單選文心一言騰訊混元字節(jié)豆包阿里通義GPT-4oClaude3.5智譜清言KimiGemini訊飛星火

所以，真的，騙騙哥們可以，別把你自己也騙了。

AI這行里，真的充斥著各種各樣奇奇怪怪的現(xiàn)象。

腳踏實(shí)地做點(diǎn)事吧。

站在普通人的場景想想未來。

我覺得，比那一瞬的泡沫，更重要。

以上就是關(guān)于【現(xiàn)在的大模型榜單，真就沒一個(gè)可信的?！康南嚓P(guān)內(nèi)容，希望對大家有幫助！

標(biāo)簽：現(xiàn)在的大模型榜單，真就沒一個(gè)可信的。

　　免責(zé)聲明：本文由用戶上傳，與本網(wǎng)站立場無關(guān)。財(cái)經(jīng)信息僅供讀者參考，并不構(gòu)成投資建議。投資者據(jù)此操作，風(fēng)險(xiǎn)自擔(dān)。如有侵權(quán)請聯(lián)系刪除！

分享：

相關(guān)閱讀

董明珠曾喊話雷軍給股民分多少錢！格力：擬分紅超55億

Epic喜+1：動作游戲《師父》免費(fèi)領(lǐng) 立省139元

雷軍辟謠只招聘35歲以下員工：僅針對未來之星項(xiàng)目

普華永道發(fā)布2025年AI預(yù)測：AI Agents將勞動力提升1倍

雷軍回應(yīng)股價(jià)暴跌：年年難過年年過

一天100座！理想汽車第1700座超充站正式建成

《守望先鋒》國服宣布2月19日回歸：賬號數(shù)據(jù)完整保留

雷軍建議創(chuàng)業(yè)者要多留點(diǎn)錢給員工：別到山窮水盡才講問題

雷軍新年第一天收到200元紅包自侃年入百萬的開始

雷軍親自展示REDMI Turbo 4！2025年第一款新機(jī)

雷軍：小米未來10年建至少20座世界頂級工廠

雷軍辟謠只招聘35歲以下員工：只有招聘未來之星時(shí)才有年齡限制

雷軍回應(yīng)100億造車：沒有好到“封神” 不要神話我

雷軍表態(tài)：一心做好小米汽車大家可以在“許愿池”尋找商機(jī)

雷軍：中國汽車產(chǎn)業(yè)應(yīng)少些歪門邪道不要發(fā)黑稿、背后捅刀子

小米SU7選配色都是7000元為什么璀璨洋紅卻需要9000元

最新文章

空調(diào)外機(jī)聲音大是什么問題

【空調(diào)外機(jī)聲音大是什么問題】空調(diào)在使用過程中，如果發(fā)現(xiàn)外機(jī)發(fā)出異常的噪音，可能會讓人感到困擾。空調(diào)外機(jī)...瀏覽全文>>

空調(diào)外機(jī)聲音大如何解決

【空調(diào)外機(jī)聲音大如何解決】空調(diào)在使用過程中，外機(jī)發(fā)出較大的噪音是很多用戶遇到的常見問題。這不僅影響居住...瀏覽全文>>

空調(diào)外機(jī)清洗方法是什么

【空調(diào)外機(jī)清洗方法是什么】空調(diào)外機(jī)是空調(diào)系統(tǒng)中非常重要的組成部分，它的清潔程度直接影響到空調(diào)的制冷效果...瀏覽全文>>

空調(diào)突然不制冷的原因

【空調(diào)突然不制冷的原因】當(dāng)家中的空調(diào)突然不再制冷時(shí)，不僅影響使用體驗(yàn)，還可能帶來一定的安全隱患。了解空...瀏覽全文>>

空調(diào)銅管什么作用

【空調(diào)銅管什么作用】空調(diào)在現(xiàn)代生活中扮演著越來越重要的角色，尤其是在夏季高溫時(shí)，它為我們提供了舒適的室...瀏覽全文>>

空調(diào)銅管結(jié)霜怎么回事

【空調(diào)銅管結(jié)霜怎么回事】空調(diào)在使用過程中，有時(shí)會出現(xiàn)銅管結(jié)霜的現(xiàn)象，這不僅影響制冷效果，還可能對設(shè)備造...瀏覽全文>>

空調(diào)銅管結(jié)霜是什么原因

【空調(diào)銅管結(jié)霜是什么原因】當(dāng)空調(diào)運(yùn)行時(shí)，如果發(fā)現(xiàn)室內(nèi)機(jī)的銅管出現(xiàn)結(jié)霜現(xiàn)象，這不僅影響制冷效果，還可能對...瀏覽全文>>

空谷幽蘭是什么意思

【空谷幽蘭是什么意思】“空谷幽蘭”是一個(gè)富有詩意的成語，常用來形容在偏僻、冷清的地方生長的蘭花。它不僅...瀏覽全文>>

空格怎么打出來

【空格怎么打出來】在日常使用電腦或手機(jī)輸入文字時(shí)，經(jīng)常會遇到需要輸入“空格”的情況。雖然看似簡單，但很...瀏覽全文>>

空格怎么打

【空格怎么打】在日常使用電腦或手機(jī)時(shí)，很多人會遇到“空格怎么打”的問題。其實(shí)，“空格”是一個(gè)非常基礎(chǔ)的...瀏覽全文>>

大家愛看

空調(diào)銅管什么作用

空格怎么打

空格鍵是指的哪一個(gè)

可微與可導(dǎo)的關(guān)系

科技感十足的公司名稱公司起名

考研難考嗎

康復(fù)醫(yī)院是做什么的

康復(fù)學(xué)專業(yè)考研學(xué)校

開通國際漫游多少錢一個(gè)月

開通電信Volte功能免費(fèi)嗎

頻道推薦

空調(diào)銅管結(jié)霜是什么原因

空格名字怎么打

可微與可導(dǎo)之間的聯(lián)系是什么

科技工業(yè)是什么

科技發(fā)展給生活帶來的好處

考研歧視最嚴(yán)重的高校

康復(fù)理療師證書哪里頒發(fā)

康復(fù)考研最好的學(xué)校有哪些

卡姐新歌wap原版歌詞介紹

卡機(jī)嘛韓語的意思

站長推薦

空調(diào)突然不制冷的原因

空格怎么打出來

空城舊夢是情侶網(wǎng)名嗎

可吸收線是什么顏色

可微與可導(dǎo)之間有什么聯(lián)系

康復(fù)是什么意思

康復(fù)評定包括哪5個(gè)方面

開通QQ十周年黃鉆是不是可以永久使用十周年黃鉆標(biāo)志

卡路里和焦耳怎么換算

卡樂購是什么意思

卡拉瓦喬代表作

巨鱷的電影有什么

巨大的英語是什么

禁閉島的結(jié)局真相

靳東個(gè)人資料

靳東的妹妹為什么叫高露

金枝玉葉繁殖方法

金針菜和黃花菜是一種嗎

金吉鳥健身私教一般多少

戒指戴什么手指好

關(guān)于我們| 聯(lián)系方式| 版權(quán)聲明| 免責(zé)聲明|

Copyright ? 2007-2025 www.gaipa.cn All Right Reserved. 版權(quán)所有新訊網(wǎng) 工信部網(wǎng)站備案編號：閩ICP備20009419號-52

感谢您访问我们的网站，您可能还对以下资源感兴趣：
最新亚洲人成无码网站

<blockquote id="rlter"><button id="rlter"></button></blockquote>

最新亚洲人成无码网站,夜夜操夜夜操夜夜爽,中文字日产幕乱五区,在线成人看片黄a免费看,亚洲自偷自拍另类11p

現(xiàn)在的大模型榜單，真就沒一個(gè)可信的。

現(xiàn)在的大模型榜單，真就沒一個(gè)可信的。