最新亚洲人成无码网站,夜夜操夜夜操夜夜爽,中文字日产幕乱五区,在线成人看片黄a免费看,亚洲自偷自拍另类11p

首頁 >> 今日更新 >

現(xiàn)在的大模型榜單,真就沒一個可信的。

2024-09-10 09:00:58 來源: 用戶: 

相信很多大家對現(xiàn)在的大模型榜單,真就沒一個可信的。還不知道吧,今天菲菲就帶你們一起去了解一下~.~!

現(xiàn)在的大模型榜單上,真的都是水分。

全是作弊的考生,真的。

上周,AI圈有個很炸裂的大模型發(fā)布,在全網(wǎng)引起了山呼海嘯,一眾從業(yè)者和媒體尊稱它為開源新王。

就是Reflection70B。

在每項基準測試上都超過了 GPT-4o,還只用70B的參數(shù),就擊敗了405B的Llama3.1,模型中還有一個叫「Reflection-Tuning」的技術,能讓模型能夠在最終回復之前,先識別自己有沒有錯誤,如果有,糾正以后再回答。

其實這個東西當時我就很存疑,因為在我的理解里,這玩意,就是個CoT,就是個純Prompt,一個Prompt把70B模型直接帶的螺旋升天?

你這玩意,真要是能做到,奧特曼就真的直接原地給你磕頭了。。。

最關鍵的是,還有一個很離譜的點,這個模型就兩個人做,而且,從一拍即合、到找數(shù)據(jù)集、到模型微調(diào)完成并正式發(fā)布,一共就花了3周。

這效率,這速度,直接卷的螺旋升天,國內(nèi)大廠速度沒卷到這個地步...

于是我就觀望了幾天。

直到昨天,發(fā)現(xiàn)這模型底都快被人扒掉了。

模型結果造假,提供給開發(fā)者的API,還是造假。

先是跑分評測上面,這是他們老板Matt自己發(fā)出來的跑分結果,勇奪第一。

看這個結果,你就說屌不屌吧,拳打Claude3.5,腳踢GPT-4o,還把Gemini1.5Pro和Llama3.1405B給摁在地上摩擦。

你很難想象這只是一個兩個人花三周訓的70B的模型能干出來的事。

直到7號,Artificial Analysis用他們自己的標準評測集跑了一通,發(fā)現(xiàn)這事不對啊,你這么多項評測集都登頂了,你應該很牛逼才對啊,這得分什么情況???

他們是這么說的:

“哥們,我們測完了咋感覺你比Llama3.170B更拉了呢?老實說,你是不是在騙兄弟們。”

Matt看到了以后,開始說臥槽不對勁啊,我們內(nèi)部是好的啊,怎么你們測試結果這么爛?

花了好半天,Matt終于說,哦是Hugging Face 權重出現(xiàn)了問題,我也不知道咋回事,你們等一等。

說完還不忘凡爾賽一下,說:

翻譯一下就是:我們是在太太太太火啦,你們再等等啊,乖。

直到今天凌晨,最騷的事情來了,Matt說,我們終于解決了問題,開放了新的API。

他們提供了一個私有接口,說這個才是Reflection70B完全體。

大家一測,臥槽,果然牛逼,牛逼炸了。

真的好像比GPT4o還有那些大廠的模型強哎。

就差點直接給Reflection70B開香檳了。

2個人,3周時間,創(chuàng)了AI行業(yè)的奇跡。

但是大家香檳剛開一半,就被生生的摁回去了。

大家發(fā)現(xiàn),這個所謂的“Reflection70B”的API,怎么跟Claude3.5回復的東西,一模一樣。。。

于是有人,又做了一個驗證測試,他把所有API的參數(shù)全部設為10個Token、0溫度、top_k1,然后讓大模型,重復entsprechend這個詞20次,因為大模型對token的計算都不太一樣,所以其實10個token限制輸出的內(nèi)容也不太一樣,你既然說你是基于Llama3.1微調(diào)的,那你肯定得跟Llama3.1輸出內(nèi)容一樣對吧。

但是,結果直接讓人大跌眼鏡。

好兄弟,你怎么,跟Claude的長度一樣,你到底是Llama3.1生出的Reflection70B,還是披著狗皮的Claude啊???

更狗的是,他們居然,還把Claude設成了屏蔽詞,在用戶的對話中,一旦你發(fā)Claude,就直接剔除。

騷啊,實在是太騷了。。。

這下,所有AI行業(yè)的人,都知道,Reflection70B就是一場徹頭徹尾的鬧劇。

這個鬧劇背后,我覺得反應出了現(xiàn)在整個AI領域,一個非常詭異的現(xiàn)象。

刷榜。

回到整個事情的起點,就是模型能力的強度,和榜單。

正是因為Reflection70B在評測集上屠榜了,秒殺Claude3.5和GPT4o,才讓大家如此興奮。

但是結果大家發(fā)現(xiàn),臥槽你怎么就做那些特定評測集的題目那么牛逼?換個別的題就直接變廢物了?不是細狗你行不行啊?

直接對著答案抄,還不行,那不扯淡嗎。

大模型目前的評測體系,從來就不復雜,就是考試,純純的考試。

評測數(shù)據(jù)集相當于試卷,模型就是正在考試的學生,最后交卷,看誰的分高。

聽起來是不是很科學?理論上是的,但是大模型評測領域有一個非常嚴重的BUG,就是評測集,就是考試試卷,是公開的,所有人在考試之前,都可以看到考卷。

為什么評測機構要公開評測集?不公開不就行了?

答案是不行。

高考和學校的考試,是權威的考試,我不差你一個,你愛考不考,我就是天,我就是規(guī)則,所以,他們當然不會公開試卷,一切以公平說話。

但是大模型領域,太新了,這些評測榜單,比如SuperCLUE、C-Eval、HuggingFace,話語權沒那么大,供需關系倒過來了,如果機構在評測時用什么問題以及對應什么答案是什么一直不公開,如果機構的評測邏輯與工具、評分方法與過程是封閉的“黑盒子”,那一定會被招來無數(shù)質(zhì)疑,先被干躺的是這些評測機構你信不信。

兩害相權取其輕,所以就變成了現(xiàn)在的情況了。

人們總是單純的,總是喜歡量化的,也總是喜歡用一些固定的標準,來恒定一個東西的好與差。

所以在這一年半的白模大戰(zhàn)中,我們經(jīng)常能聽到各種奇奇怪怪的第一,每個模型,都說自己超越GPT4o了,把它按在腳下摩擦。

6月27日:“ 訊飛星火V4.0不僅在8個國際主流測試集中排名第一,領先國內(nèi)大模型,并在文本生成、語言理解、知識問答、邏輯推理、數(shù)學能力等方面實現(xiàn)了對GPT-4Turbo的整體超越?!?/em>

5月21日:"在 LMSYS最新排名中,零一萬物的最新千億參數(shù)模型 Yi-Large 總榜排名世界模型第7,中國大模型中第一,已經(jīng)超過 Llama-3-70B、Claude3Sonnet;其中文分榜更是與 GPT4o 并列世界第一。"

3月26日:"沙利文發(fā)布了《2024年中國大模型能力評測》,評測顯示,百度文心一言穩(wěn)居國產(chǎn)大模型首位,拿下數(shù)理科學、語言能力、道德責任、行業(yè)能力及綜合能力等五大評測維度的四項第一"

我不想說什么模型好什么模型不好,這種刷榜到底有沒有意義,我只想說,使用者一定會用腳投票的。

況且,有的排行榜,那是真的不能看,比如前段時間看到的一個權威機構的文生視頻排行榜,用量化指標來恒量視頻生成質(zhì)量。

別的我不說了,我就說你把智譜清影排在可靈上面,你自己去問問智譜的人,他們敢接這個第二嗎?智譜是一家很實誠的公司,所以他們品牌市場也沒拿這玩意去做宣傳,你要是一些別的公司,又得PR起飛了。

這個榜單創(chuàng)作者們看到也只會笑笑,大家不傻,真的。

在經(jīng)濟學中,有一個著名的理論,叫做古德哈特定律。

原意是:一項社會指標或經(jīng)濟指標,一旦成為一個用以指引宏觀政策制定的既定目標,那么該指標就會喪失其原本具有的信息價值。因為政策制定者會犧牲其他方面來強化這個指標,從而使這個指標不再具有指示整體情況的作用。

用最簡單的話來說,就是:

"當一個指標成為目標時,它就不再是一個好的指標。"

萬物皆如此。

所以這里,我想說一個暴論:現(xiàn)在的大模型榜單,還有各種亂七八糟的AI產(chǎn)品榜單,參考看看可以,但是不要奉為圣經(jīng),更不要當真,拿來做你跟別人吵架的憑據(jù)。

騙騙兄弟可以,別把自己也騙了。

當所有的大模型,都用MMLU、MATH、IFEval、GSM8K之類的基準測試來衡量自己模型的能力,那這些基準測試,也就不再是一個好的基準了。

去年一篇論文讓我印象非常的深刻,叫《Don’t Make Your LLM an Evaluation Benchmark Cheater》,來自中國人民大學。

里面詳細的闡述了因為數(shù)據(jù)泄露而引起的整個大模型刷榜情況的虛假繁榮。

N多模型,直接把評測集的數(shù)據(jù)訓在了模型里面,從而直接屠榜,來引起聲量和討論。

這就像學校里考試,我們每個人都公平的在考場上,一起考試答題,大家各憑本事一決勝負。

但是偏偏有個學生,平時滿分750他只能考個299,但是這次,他在考試前,已經(jīng)提前知道了所有卷子的題目和答案,都在腦子里背了下來,只有一些語文之類的主觀題沒有滿分,其他全是滿分,考了720分。

那你會覺得,他考了720分,是因為他真的牛逼嗎?

傻子才會。

大模型的評測,跟這種考試,沒有任何區(qū)別。刷題而已,人類刷了幾千年的題,這點手段,還能難倒背后的人?開什么玩笑。

所以《Don’t Make Your LLM an Evaluation Benchmark Cheater》的作者,提出一種方法,用n-gram哈希算法在考試前對數(shù)據(jù)污染現(xiàn)象,進行嚴格檢查,只要是作弊的,一律滾出去。

可惜,因為我上面說的那些亂七八糟的問題,并沒有辦法用上,現(xiàn)在所有的榜單,都還是充斥著無數(shù)的水分。

榜單不再可信,但是普通用戶和開發(fā)者,永遠會用腳投票。

請在手機微信登錄投票

你心中No.1的大模型是哪個?單選

所以,真的,騙騙哥們可以,別把你自己也騙了。

AI這行里,真的充斥著各種各樣奇奇怪怪的現(xiàn)象。

腳踏實地做點事吧。

站在普通人的場景想想未來。

我覺得,比那一瞬的泡沫,更重要。

以上就是關于【現(xiàn)在的大模型榜單,真就沒一個可信的?!康南嚓P內(nèi)容,希望對大家有幫助!

  免責聲明:本文由用戶上傳,與本網(wǎng)站立場無關。財經(jīng)信息僅供讀者參考,并不構成投資建議。投資者據(jù)此操作,風險自擔。 如有侵權請聯(lián)系刪除!

 
分享:
最新文章