現(xiàn)在的大模型榜單,真就沒一個(gè)可信的。
相信很多大家對現(xiàn)在的大模型榜單,真就沒一個(gè)可信的。還不知道吧,今天菲菲就帶你們一起去了解一下~.~!
現(xiàn)在的大模型榜單上,真的都是水分。
全是作弊的考生,真的。
上周,AI圈有個(gè)很炸裂的大模型發(fā)布,在全網(wǎng)引起了山呼海嘯,一眾從業(yè)者和媒體尊稱它為開源新王。
就是Reflection70B。
在每項(xiàng)基準(zhǔn)測試上都超過了 GPT-4o,還只用70B的參數(shù),就擊敗了405B的Llama3.1,模型中還有一個(gè)叫「Reflection-Tuning」的技術(shù),能讓模型能夠在最終回復(fù)之前,先識別自己有沒有錯(cuò)誤,如果有,糾正以后再回答。
其實(shí)這個(gè)東西當(dāng)時(shí)我就很存疑,因?yàn)樵谖业睦斫饫?,這玩意,就是個(gè)CoT,就是個(gè)純Prompt,一個(gè)Prompt把70B模型直接帶的螺旋升天?
你這玩意,真要是能做到,奧特曼就真的直接原地給你磕頭了。。。
最關(guān)鍵的是,還有一個(gè)很離譜的點(diǎn),這個(gè)模型就兩個(gè)人做,而且,從一拍即合、到找數(shù)據(jù)集、到模型微調(diào)完成并正式發(fā)布,一共就花了3周。
這效率,這速度,直接卷的螺旋升天,國內(nèi)大廠速度沒卷到這個(gè)地步...
于是我就觀望了幾天。
直到昨天,發(fā)現(xiàn)這模型底都快被人扒掉了。
模型結(jié)果造假,提供給開發(fā)者的API,還是造假。
先是跑分評測上面,這是他們老板Matt自己發(fā)出來的跑分結(jié)果,勇奪第一。
看這個(gè)結(jié)果,你就說屌不屌吧,拳打Claude3.5,腳踢GPT-4o,還把Gemini1.5Pro和Llama3.1405B給摁在地上摩擦。
你很難想象這只是一個(gè)兩個(gè)人花三周訓(xùn)的70B的模型能干出來的事。
直到7號,Artificial Analysis用他們自己的標(biāo)準(zhǔn)評測集跑了一通,發(fā)現(xiàn)這事不對啊,你這么多項(xiàng)評測集都登頂了,你應(yīng)該很牛逼才對啊,這得分什么情況???
他們是這么說的:
“哥們,我們測完了咋感覺你比Llama3.170B更拉了呢?老實(shí)說,你是不是在騙兄弟們?!?/p>
Matt看到了以后,開始說臥槽不對勁啊,我們內(nèi)部是好的啊,怎么你們測試結(jié)果這么爛?
花了好半天,Matt終于說,哦是Hugging Face 權(quán)重出現(xiàn)了問題,我也不知道咋回事,你們等一等。
說完還不忘凡爾賽一下,說:
翻譯一下就是:我們是在太太太太火啦,你們再等等啊,乖。
直到今天凌晨,最騷的事情來了,Matt說,我們終于解決了問題,開放了新的API。
他們提供了一個(gè)私有接口,說這個(gè)才是Reflection70B完全體。
大家一測,臥槽,果然牛逼,牛逼炸了。
真的好像比GPT4o還有那些大廠的模型強(qiáng)哎。
就差點(diǎn)直接給Reflection70B開香檳了。
2個(gè)人,3周時(shí)間,創(chuàng)了AI行業(yè)的奇跡。
但是大家香檳剛開一半,就被生生的摁回去了。
大家發(fā)現(xiàn),這個(gè)所謂的“Reflection70B”的API,怎么跟Claude3.5回復(fù)的東西,一模一樣。。。
于是有人,又做了一個(gè)驗(yàn)證測試,他把所有API的參數(shù)全部設(shè)為10個(gè)Token、0溫度、top_k1,然后讓大模型,重復(fù)entsprechend這個(gè)詞20次,因?yàn)榇竽P蛯oken的計(jì)算都不太一樣,所以其實(shí)10個(gè)token限制輸出的內(nèi)容也不太一樣,你既然說你是基于Llama3.1微調(diào)的,那你肯定得跟Llama3.1輸出內(nèi)容一樣對吧。
但是,結(jié)果直接讓人大跌眼鏡。
好兄弟,你怎么,跟Claude的長度一樣,你到底是Llama3.1生出的Reflection70B,還是披著狗皮的Claude啊???
更狗的是,他們居然,還把Claude設(shè)成了屏蔽詞,在用戶的對話中,一旦你發(fā)Claude,就直接剔除。
騷啊,實(shí)在是太騷了。。。
這下,所有AI行業(yè)的人,都知道,Reflection70B就是一場徹頭徹尾的鬧劇。
這個(gè)鬧劇背后,我覺得反應(yīng)出了現(xiàn)在整個(gè)AI領(lǐng)域,一個(gè)非常詭異的現(xiàn)象。
刷榜。
回到整個(gè)事情的起點(diǎn),就是模型能力的強(qiáng)度,和榜單。
正是因?yàn)镽eflection70B在評測集上屠榜了,秒殺Claude3.5和GPT4o,才讓大家如此興奮。
但是結(jié)果大家發(fā)現(xiàn),臥槽你怎么就做那些特定評測集的題目那么牛逼?換個(gè)別的題就直接變廢物了?不是細(xì)狗你行不行啊?
直接對著答案抄,還不行,那不扯淡嗎。
大模型目前的評測體系,從來就不復(fù)雜,就是考試,純純的考試。
評測數(shù)據(jù)集相當(dāng)于試卷,模型就是正在考試的學(xué)生,最后交卷,看誰的分高。
聽起來是不是很科學(xué)?理論上是的,但是大模型評測領(lǐng)域有一個(gè)非常嚴(yán)重的BUG,就是評測集,就是考試試卷,是公開的,所有人在考試之前,都可以看到考卷。
為什么評測機(jī)構(gòu)要公開評測集?不公開不就行了?
答案是不行。
高考和學(xué)校的考試,是權(quán)威的考試,我不差你一個(gè),你愛考不考,我就是天,我就是規(guī)則,所以,他們當(dāng)然不會公開試卷,一切以公平說話。
但是大模型領(lǐng)域,太新了,這些評測榜單,比如SuperCLUE、C-Eval、HuggingFace,話語權(quán)沒那么大,供需關(guān)系倒過來了,如果機(jī)構(gòu)在評測時(shí)用什么問題以及對應(yīng)什么答案是什么一直不公開,如果機(jī)構(gòu)的評測邏輯與工具、評分方法與過程是封閉的“黑盒子”,那一定會被招來無數(shù)質(zhì)疑,先被干躺的是這些評測機(jī)構(gòu)你信不信。
兩害相權(quán)取其輕,所以就變成了現(xiàn)在的情況了。
人們總是單純的,總是喜歡量化的,也總是喜歡用一些固定的標(biāo)準(zhǔn),來恒定一個(gè)東西的好與差。
所以在這一年半的白模大戰(zhàn)中,我們經(jīng)常能聽到各種奇奇怪怪的第一,每個(gè)模型,都說自己超越GPT4o了,把它按在腳下摩擦。
6月27日:“ 訊飛星火V4.0不僅在8個(gè)國際主流測試集中排名第一,領(lǐng)先國內(nèi)大模型,并在文本生成、語言理解、知識問答、邏輯推理、數(shù)學(xué)能力等方面實(shí)現(xiàn)了對GPT-4Turbo的整體超越?!?/em>
5月21日:"在 LMSYS最新排名中,零一萬物的最新千億參數(shù)模型 Yi-Large 總榜排名世界模型第7,中國大模型中第一,已經(jīng)超過 Llama-3-70B、Claude3Sonnet;其中文分榜更是與 GPT4o 并列世界第一。"
3月26日:"沙利文發(fā)布了《2024年中國大模型能力評測》,評測顯示,百度文心一言穩(wěn)居國產(chǎn)大模型首位,拿下數(shù)理科學(xué)、語言能力、道德責(zé)任、行業(yè)能力及綜合能力等五大評測維度的四項(xiàng)第一"
我不想說什么模型好什么模型不好,這種刷榜到底有沒有意義,我只想說,使用者一定會用腳投票的。
況且,有的排行榜,那是真的不能看,比如前段時(shí)間看到的一個(gè)權(quán)威機(jī)構(gòu)的文生視頻排行榜,用量化指標(biāo)來恒量視頻生成質(zhì)量。
別的我不說了,我就說你把智譜清影排在可靈上面,你自己去問問智譜的人,他們敢接這個(gè)第二嗎?智譜是一家很實(shí)誠的公司,所以他們品牌市場也沒拿這玩意去做宣傳,你要是一些別的公司,又得PR起飛了。
這個(gè)榜單創(chuàng)作者們看到也只會笑笑,大家不傻,真的。
在經(jīng)濟(jì)學(xué)中,有一個(gè)著名的理論,叫做古德哈特定律。
原意是:一項(xiàng)社會指標(biāo)或經(jīng)濟(jì)指標(biāo),一旦成為一個(gè)用以指引宏觀政策制定的既定目標(biāo),那么該指標(biāo)就會喪失其原本具有的信息價(jià)值。因?yàn)檎咧贫ㄕ邥奚渌矫鎭韽?qiáng)化這個(gè)指標(biāo),從而使這個(gè)指標(biāo)不再具有指示整體情況的作用。
用最簡單的話來說,就是:
"當(dāng)一個(gè)指標(biāo)成為目標(biāo)時(shí),它就不再是一個(gè)好的指標(biāo)。"
萬物皆如此。
所以這里,我想說一個(gè)暴論:現(xiàn)在的大模型榜單,還有各種亂七八糟的AI產(chǎn)品榜單,參考看看可以,但是不要奉為圣經(jīng),更不要當(dāng)真,拿來做你跟別人吵架的憑據(jù)。
騙騙兄弟可以,別把自己也騙了。
當(dāng)所有的大模型,都用MMLU、MATH、IFEval、GSM8K之類的基準(zhǔn)測試來衡量自己模型的能力,那這些基準(zhǔn)測試,也就不再是一個(gè)好的基準(zhǔn)了。
去年一篇論文讓我印象非常的深刻,叫《Don’t Make Your LLM an Evaluation Benchmark Cheater》,來自中國人民大學(xué)。
里面詳細(xì)的闡述了因?yàn)閿?shù)據(jù)泄露而引起的整個(gè)大模型刷榜情況的虛假繁榮。
N多模型,直接把評測集的數(shù)據(jù)訓(xùn)在了模型里面,從而直接屠榜,來引起聲量和討論。
這就像學(xué)校里考試,我們每個(gè)人都公平的在考場上,一起考試答題,大家各憑本事一決勝負(fù)。
但是偏偏有個(gè)學(xué)生,平時(shí)滿分750他只能考個(gè)299,但是這次,他在考試前,已經(jīng)提前知道了所有卷子的題目和答案,都在腦子里背了下來,只有一些語文之類的主觀題沒有滿分,其他全是滿分,考了720分。
那你會覺得,他考了720分,是因?yàn)樗娴呐1茊?
傻子才會。
大模型的評測,跟這種考試,沒有任何區(qū)別。刷題而已,人類刷了幾千年的題,這點(diǎn)手段,還能難倒背后的人?開什么玩笑。
所以《Don’t Make Your LLM an Evaluation Benchmark Cheater》的作者,提出一種方法,用n-gram哈希算法在考試前對數(shù)據(jù)污染現(xiàn)象,進(jìn)行嚴(yán)格檢查,只要是作弊的,一律滾出去。
可惜,因?yàn)槲疑厦嬲f的那些亂七八糟的問題,并沒有辦法用上,現(xiàn)在所有的榜單,都還是充斥著無數(shù)的水分。
榜單不再可信,但是普通用戶和開發(fā)者,永遠(yuǎn)會用腳投票。
請?jiān)谑謾C(jī)微信登錄投票
你心中No.1的大模型是哪個(gè)?單選
所以,真的,騙騙哥們可以,別把你自己也騙了。
AI這行里,真的充斥著各種各樣奇奇怪怪的現(xiàn)象。
腳踏實(shí)地做點(diǎn)事吧。
站在普通人的場景想想未來。
我覺得,比那一瞬的泡沫,更重要。
以上就是關(guān)于【現(xiàn)在的大模型榜單,真就沒一個(gè)可信的?!康南嚓P(guān)內(nèi)容,希望對大家有幫助!
免責(zé)聲明:本文由用戶上傳,與本網(wǎng)站立場無關(guān)。財(cái)經(jīng)信息僅供讀者參考,并不構(gòu)成投資建議。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。 如有侵權(quán)請聯(lián)系刪除!
-
【空調(diào)外機(jī)聲音大是什么問題】空調(diào)在使用過程中,如果發(fā)現(xiàn)外機(jī)發(fā)出異常的噪音,可能會讓人感到困擾。空調(diào)外機(jī)...瀏覽全文>>
-
【空調(diào)外機(jī)聲音大如何解決】空調(diào)在使用過程中,外機(jī)發(fā)出較大的噪音是很多用戶遇到的常見問題。這不僅影響居住...瀏覽全文>>
-
【空調(diào)外機(jī)清洗方法是什么】空調(diào)外機(jī)是空調(diào)系統(tǒng)中非常重要的組成部分,它的清潔程度直接影響到空調(diào)的制冷效果...瀏覽全文>>
-
【空調(diào)突然不制冷的原因】當(dāng)家中的空調(diào)突然不再制冷時(shí),不僅影響使用體驗(yàn),還可能帶來一定的安全隱患。了解空...瀏覽全文>>
-
【空調(diào)銅管什么作用】空調(diào)在現(xiàn)代生活中扮演著越來越重要的角色,尤其是在夏季高溫時(shí),它為我們提供了舒適的室...瀏覽全文>>
-
【空調(diào)銅管結(jié)霜怎么回事】空調(diào)在使用過程中,有時(shí)會出現(xiàn)銅管結(jié)霜的現(xiàn)象,這不僅影響制冷效果,還可能對設(shè)備造...瀏覽全文>>
-
【空調(diào)銅管結(jié)霜是什么原因】當(dāng)空調(diào)運(yùn)行時(shí),如果發(fā)現(xiàn)室內(nèi)機(jī)的銅管出現(xiàn)結(jié)霜現(xiàn)象,這不僅影響制冷效果,還可能對...瀏覽全文>>
-
【空谷幽蘭是什么意思】“空谷幽蘭”是一個(gè)富有詩意的成語,常用來形容在偏僻、冷清的地方生長的蘭花。它不僅...瀏覽全文>>
-
【空格怎么打出來】在日常使用電腦或手機(jī)輸入文字時(shí),經(jīng)常會遇到需要輸入“空格”的情況。雖然看似簡單,但很...瀏覽全文>>
-
【空格怎么打】在日常使用電腦或手機(jī)時(shí),很多人會遇到“空格怎么打”的問題。其實(shí),“空格”是一個(gè)非常基礎(chǔ)的...瀏覽全文>>