現(xiàn)在的大模型榜單,真就沒一個可信的。
相信很多大家對現(xiàn)在的大模型榜單,真就沒一個可信的。還不知道吧,今天菲菲就帶你們一起去了解一下~.~!
現(xiàn)在的大模型榜單上,真的都是水分。
全是作弊的考生,真的。
上周,AI圈有個很炸裂的大模型發(fā)布,在全網(wǎng)引起了山呼海嘯,一眾從業(yè)者和媒體尊稱它為開源新王。
就是Reflection70B。
在每項基準測試上都超過了 GPT-4o,還只用70B的參數(shù),就擊敗了405B的Llama3.1,模型中還有一個叫「Reflection-Tuning」的技術,能讓模型能夠在最終回復之前,先識別自己有沒有錯誤,如果有,糾正以后再回答。
其實這個東西當時我就很存疑,因為在我的理解里,這玩意,就是個CoT,就是個純Prompt,一個Prompt把70B模型直接帶的螺旋升天?
你這玩意,真要是能做到,奧特曼就真的直接原地給你磕頭了。。。
最關鍵的是,還有一個很離譜的點,這個模型就兩個人做,而且,從一拍即合、到找數(shù)據(jù)集、到模型微調(diào)完成并正式發(fā)布,一共就花了3周。
這效率,這速度,直接卷的螺旋升天,國內(nèi)大廠速度沒卷到這個地步...
于是我就觀望了幾天。
直到昨天,發(fā)現(xiàn)這模型底都快被人扒掉了。
模型結果造假,提供給開發(fā)者的API,還是造假。
先是跑分評測上面,這是他們老板Matt自己發(fā)出來的跑分結果,勇奪第一。
看這個結果,你就說屌不屌吧,拳打Claude3.5,腳踢GPT-4o,還把Gemini1.5Pro和Llama3.1405B給摁在地上摩擦。
你很難想象這只是一個兩個人花三周訓的70B的模型能干出來的事。
直到7號,Artificial Analysis用他們自己的標準評測集跑了一通,發(fā)現(xiàn)這事不對啊,你這么多項評測集都登頂了,你應該很牛逼才對啊,這得分什么情況???
他們是這么說的:
“哥們,我們測完了咋感覺你比Llama3.170B更拉了呢?老實說,你是不是在騙兄弟們。”
Matt看到了以后,開始說臥槽不對勁啊,我們內(nèi)部是好的啊,怎么你們測試結果這么爛?
花了好半天,Matt終于說,哦是Hugging Face 權重出現(xiàn)了問題,我也不知道咋回事,你們等一等。
說完還不忘凡爾賽一下,說:
翻譯一下就是:我們是在太太太太火啦,你們再等等啊,乖。
直到今天凌晨,最騷的事情來了,Matt說,我們終于解決了問題,開放了新的API。
他們提供了一個私有接口,說這個才是Reflection70B完全體。
大家一測,臥槽,果然牛逼,牛逼炸了。
真的好像比GPT4o還有那些大廠的模型強哎。
就差點直接給Reflection70B開香檳了。
2個人,3周時間,創(chuàng)了AI行業(yè)的奇跡。
但是大家香檳剛開一半,就被生生的摁回去了。
大家發(fā)現(xiàn),這個所謂的“Reflection70B”的API,怎么跟Claude3.5回復的東西,一模一樣。。。
于是有人,又做了一個驗證測試,他把所有API的參數(shù)全部設為10個Token、0溫度、top_k1,然后讓大模型,重復entsprechend這個詞20次,因為大模型對token的計算都不太一樣,所以其實10個token限制輸出的內(nèi)容也不太一樣,你既然說你是基于Llama3.1微調(diào)的,那你肯定得跟Llama3.1輸出內(nèi)容一樣對吧。
但是,結果直接讓人大跌眼鏡。
好兄弟,你怎么,跟Claude的長度一樣,你到底是Llama3.1生出的Reflection70B,還是披著狗皮的Claude啊???
更狗的是,他們居然,還把Claude設成了屏蔽詞,在用戶的對話中,一旦你發(fā)Claude,就直接剔除。
騷啊,實在是太騷了。。。
這下,所有AI行業(yè)的人,都知道,Reflection70B就是一場徹頭徹尾的鬧劇。
這個鬧劇背后,我覺得反應出了現(xiàn)在整個AI領域,一個非常詭異的現(xiàn)象。
刷榜。
回到整個事情的起點,就是模型能力的強度,和榜單。
正是因為Reflection70B在評測集上屠榜了,秒殺Claude3.5和GPT4o,才讓大家如此興奮。
但是結果大家發(fā)現(xiàn),臥槽你怎么就做那些特定評測集的題目那么牛逼?換個別的題就直接變廢物了?不是細狗你行不行啊?
直接對著答案抄,還不行,那不扯淡嗎。
大模型目前的評測體系,從來就不復雜,就是考試,純純的考試。
評測數(shù)據(jù)集相當于試卷,模型就是正在考試的學生,最后交卷,看誰的分高。
聽起來是不是很科學?理論上是的,但是大模型評測領域有一個非常嚴重的BUG,就是評測集,就是考試試卷,是公開的,所有人在考試之前,都可以看到考卷。
為什么評測機構要公開評測集?不公開不就行了?
答案是不行。
高考和學校的考試,是權威的考試,我不差你一個,你愛考不考,我就是天,我就是規(guī)則,所以,他們當然不會公開試卷,一切以公平說話。
但是大模型領域,太新了,這些評測榜單,比如SuperCLUE、C-Eval、HuggingFace,話語權沒那么大,供需關系倒過來了,如果機構在評測時用什么問題以及對應什么答案是什么一直不公開,如果機構的評測邏輯與工具、評分方法與過程是封閉的“黑盒子”,那一定會被招來無數(shù)質(zhì)疑,先被干躺的是這些評測機構你信不信。
兩害相權取其輕,所以就變成了現(xiàn)在的情況了。
人們總是單純的,總是喜歡量化的,也總是喜歡用一些固定的標準,來恒定一個東西的好與差。
所以在這一年半的白模大戰(zhàn)中,我們經(jīng)常能聽到各種奇奇怪怪的第一,每個模型,都說自己超越GPT4o了,把它按在腳下摩擦。
6月27日:“ 訊飛星火V4.0不僅在8個國際主流測試集中排名第一,領先國內(nèi)大模型,并在文本生成、語言理解、知識問答、邏輯推理、數(shù)學能力等方面實現(xiàn)了對GPT-4Turbo的整體超越?!?/em>
5月21日:"在 LMSYS最新排名中,零一萬物的最新千億參數(shù)模型 Yi-Large 總榜排名世界模型第7,中國大模型中第一,已經(jīng)超過 Llama-3-70B、Claude3Sonnet;其中文分榜更是與 GPT4o 并列世界第一。"
3月26日:"沙利文發(fā)布了《2024年中國大模型能力評測》,評測顯示,百度文心一言穩(wěn)居國產(chǎn)大模型首位,拿下數(shù)理科學、語言能力、道德責任、行業(yè)能力及綜合能力等五大評測維度的四項第一"
我不想說什么模型好什么模型不好,這種刷榜到底有沒有意義,我只想說,使用者一定會用腳投票的。
況且,有的排行榜,那是真的不能看,比如前段時間看到的一個權威機構的文生視頻排行榜,用量化指標來恒量視頻生成質(zhì)量。
別的我不說了,我就說你把智譜清影排在可靈上面,你自己去問問智譜的人,他們敢接這個第二嗎?智譜是一家很實誠的公司,所以他們品牌市場也沒拿這玩意去做宣傳,你要是一些別的公司,又得PR起飛了。
這個榜單創(chuàng)作者們看到也只會笑笑,大家不傻,真的。
在經(jīng)濟學中,有一個著名的理論,叫做古德哈特定律。
原意是:一項社會指標或經(jīng)濟指標,一旦成為一個用以指引宏觀政策制定的既定目標,那么該指標就會喪失其原本具有的信息價值。因為政策制定者會犧牲其他方面來強化這個指標,從而使這個指標不再具有指示整體情況的作用。
用最簡單的話來說,就是:
"當一個指標成為目標時,它就不再是一個好的指標。"
萬物皆如此。
所以這里,我想說一個暴論:現(xiàn)在的大模型榜單,還有各種亂七八糟的AI產(chǎn)品榜單,參考看看可以,但是不要奉為圣經(jīng),更不要當真,拿來做你跟別人吵架的憑據(jù)。
騙騙兄弟可以,別把自己也騙了。
當所有的大模型,都用MMLU、MATH、IFEval、GSM8K之類的基準測試來衡量自己模型的能力,那這些基準測試,也就不再是一個好的基準了。
去年一篇論文讓我印象非常的深刻,叫《Don’t Make Your LLM an Evaluation Benchmark Cheater》,來自中國人民大學。
里面詳細的闡述了因為數(shù)據(jù)泄露而引起的整個大模型刷榜情況的虛假繁榮。
N多模型,直接把評測集的數(shù)據(jù)訓在了模型里面,從而直接屠榜,來引起聲量和討論。
這就像學校里考試,我們每個人都公平的在考場上,一起考試答題,大家各憑本事一決勝負。
但是偏偏有個學生,平時滿分750他只能考個299,但是這次,他在考試前,已經(jīng)提前知道了所有卷子的題目和答案,都在腦子里背了下來,只有一些語文之類的主觀題沒有滿分,其他全是滿分,考了720分。
那你會覺得,他考了720分,是因為他真的牛逼嗎?
傻子才會。
大模型的評測,跟這種考試,沒有任何區(qū)別。刷題而已,人類刷了幾千年的題,這點手段,還能難倒背后的人?開什么玩笑。
所以《Don’t Make Your LLM an Evaluation Benchmark Cheater》的作者,提出一種方法,用n-gram哈希算法在考試前對數(shù)據(jù)污染現(xiàn)象,進行嚴格檢查,只要是作弊的,一律滾出去。
可惜,因為我上面說的那些亂七八糟的問題,并沒有辦法用上,現(xiàn)在所有的榜單,都還是充斥著無數(shù)的水分。
榜單不再可信,但是普通用戶和開發(fā)者,永遠會用腳投票。
請在手機微信登錄投票
你心中No.1的大模型是哪個?單選
所以,真的,騙騙哥們可以,別把你自己也騙了。
AI這行里,真的充斥著各種各樣奇奇怪怪的現(xiàn)象。
腳踏實地做點事吧。
站在普通人的場景想想未來。
我覺得,比那一瞬的泡沫,更重要。
以上就是關于【現(xiàn)在的大模型榜單,真就沒一個可信的?!康南嚓P內(nèi)容,希望對大家有幫助!
免責聲明:本文由用戶上傳,與本網(wǎng)站立場無關。財經(jīng)信息僅供讀者參考,并不構成投資建議。投資者據(jù)此操作,風險自擔。 如有侵權請聯(lián)系刪除!
-
奔馳GLE作為豪華SUV市場中的佼佼者,憑借其卓越的性能、豪華的內(nèi)飾以及寬敞的空間,吸引了眾多消費者的關注。...瀏覽全文>>
-
在2025年,安徽阜陽地區(qū)的帕薩特新能源汽車市場表現(xiàn)非常活躍。作為一款備受關注的新能源車型,帕薩特新能源憑...瀏覽全文>>
-
近日,滁州地區(qū)的大眾汽車經(jīng)銷商傳來好消息:備受矚目的2025款T-ROC探歌正式上市,并且以極具競爭力的價格吸引...瀏覽全文>>
-
在選擇一款新能源汽車時,了解其價格和配置是非常重要的一步。安徽淮南地區(qū)的長安啟源E07作為2024款的新車型,...瀏覽全文>>
-
阜陽長安啟源A05作為長安汽車旗下的全新車型,自推出以來便憑借其獨特的設計風格和豐富的配置吸引了眾多消費者...瀏覽全文>>
-
阜陽長安啟源A07作為一款備受矚目的新能源車型,以其豪華配置和親民的價格在市場上引起了廣泛關注。這款車型不...瀏覽全文>>
-
安徽淮南威然2024款價格及配置詳解隨著汽車市場的不斷更新?lián)Q代,上汽大眾旗下的MPV車型——威然(Viloran)憑...瀏覽全文>>
-
QQ多米新車報價2025款,買車省錢秘籍隨著汽車市場的不斷發(fā)展,消費者在選購車輛時不僅關注車型的性能和配置,...瀏覽全文>>
-
滁州途觀X 2024款最新價格及買車省錢秘籍隨著汽車市場的不斷發(fā)展,大眾途觀X作為一款兼具時尚與性能的中型SUV...瀏覽全文>>
-
隨著汽車市場的不斷發(fā)展,大眾蔚攬以其優(yōu)雅的設計和卓越的性能贏得了眾多消費者的青睞。作為一款兼具實用性和...瀏覽全文>>
- Nvidia DLSS 4 有望將游戲性能提高 8 倍
- 人工智能在預測自身免疫性疾病進展方面顯示出良好的前景
- 心理物理實驗揭示皮膚水分感知是如何改變的
- 科茨沃爾德公司慶祝圣誕節(jié)圓滿成功
- 南法納姆學校被評為薩里郡表現(xiàn)最好的小學
- 約克區(qū)九所小學將削減招生人數(shù)
- 松下新款電動汽車電池為 Lucid Gravity 帶來 450 英里續(xù)航里程
- 泰國旅游呈現(xiàn)新趨勢
- 研究人員找到在細胞水平上餓死前列腺癌腫瘤的新方法
- 領先的人工智能聊天機器人在測試中表現(xiàn)出類似癡呆癥的認知能力下降
- 龐大的 Project Zomboid build 42 終于可以玩了
- Steam Replay 回歸向您展示 2024 年您玩得最多的 PC 游戲
- Jollyes 推出強化的人才支持和招聘措施
- Karen Millen 與 Simon Harrison 共同推出全新高級珠寶系列
- 奇瑞風云A8L電動轎車刷新續(xù)航里程世界紀錄
- 虛擬藝術家將別克 Cascada 帶回 2026 款車型
- OnePlus 宣布推出新計劃解決綠線問題
- OnePlus Watch 3 將擁有更大的電池和更薄的機身
- 研究人員發(fā)現(xiàn)可變剪接與自身免疫性疾病遺傳之間的細胞類型特異性聯(lián)系
- 科學家確定腦細胞類型是排尿的主要控制者