最新亚洲人成无码网站,夜夜操夜夜操夜夜爽,中文字日产幕乱五区,在线成人看片黄a免费看,亚洲自偷自拍另类11p

首頁 >> 今日更新 >

原作親自下場!Mistral首款開源7B Mamba模型「埃及艷后」效果驚艷

2024-07-17 14:30:27 來源: 用戶: 

相信很多大家對原作親自下場!Mistral首款開源7B Mamba模型「埃及艷后」效果驚艷還不知道吧,今天菲菲就帶你們一起去了解一下~.~!

【新智元導(dǎo)讀】最近,7B小模型又成為了AI巨頭們競相追趕的潮流。繼谷歌的Gemma27B后,Mistral今天又發(fā)布了兩個7B模型,分別是針對STEM學(xué)科的Mathstral,以及使用Mamaba架構(gòu)的代碼模型Codestral Mamba。

Mistral又驚喜上新了!

就在今天,Mistral發(fā)布了兩款小模型:Mathstral7B和Codestral Mamba7B。

首先是專為數(shù)學(xué)推理和科學(xué)發(fā)現(xiàn)設(shè)計的Mathstral7B。

在MATH基準(zhǔn)測試中,它獲得了56.6% pass@1的成績,比Minerva540B提高了20%以上。Mathstral在MATH上的得分為68.4%,使用獎勵模型得分為74.6%。

而代碼模型Codestral Mamba,是首批采用Mamba2架構(gòu)的開源模型之一。

它是可用的7B代碼模型中最佳的,使用256k token的上下文長度進(jìn)行訓(xùn)練。

兩款模型均在Apache2.0許可證下發(fā)布,目前權(quán)重都已上傳HuggingFace倉庫。

Hugging Face地址:https://huggingface.co/mistralai

Mathstral

有趣的是,根據(jù)官宣文章,Mathstral的發(fā)布恰好慶祝了阿基米德2311周年誕辰。

Mathstral專為STEM學(xué)科設(shè)計,以解決需要復(fù)雜、多步驟推理的高級數(shù)學(xué)問題。參數(shù)僅有7B,上下文窗口為32k。

而且,Mathstral的研發(fā)還有一個重量級的合作伙伴——上周剛剛在Kaggle第一屆AI奧數(shù)競賽中得到冠軍寶座的Numina。

而且,有推特網(wǎng)友發(fā)現(xiàn),Mathstral可以正確回答「9.·11和9.9哪個更大」這個難倒一眾大模型的問題。

整數(shù)、小數(shù)分開比較,思維鏈清清楚楚,可以說是數(shù)學(xué)模型優(yōu)秀作業(yè)的典范了。

基于Mistral7B的語言能力,Mathstral進(jìn)一步聚焦STEM學(xué)科。根據(jù)MMLU的學(xué)科分解結(jié)果,數(shù)學(xué)、物理、生物、化學(xué)、統(tǒng)計學(xué)、計算機科學(xué)等領(lǐng)域都是Mathstral的絕對優(yōu)勢項目。

根據(jù)官方博客文章的透露,Mathstral似乎犧牲了一些推理速度以換取模型性能,但從測評結(jié)果來看,這種權(quán)衡是值得的。

在多個數(shù)學(xué)、推理領(lǐng)域的基準(zhǔn)測試中,Mathstral打敗了Llama38B、Gemma29B等流行的小模型,特別是在AMC2023、AIME2024這類數(shù)學(xué)競賽題上達(dá)到了SOTA。

而且,還可以進(jìn)一步增加推理時間以取得更好的模型效果。

如果對64個候選使用多數(shù)投票(majority voting),Mathstral在MATH上的分?jǐn)?shù)可以達(dá)到68.37%,進(jìn)一步添加額外的獎勵模型,還能取得74.59%的高分。

除了HuggingFace和la Plateforme平臺,還可以調(diào)用官方發(fā)布的Mistral-finetune和Mistral Inference兩個開源SDK,使用或微調(diào)模型。

Codestral Mamba

繼沿用Transformer架構(gòu)的Mixtral系列發(fā)布后,第一個采用Mamba2架構(gòu)的代碼生成模型Codestral Mamba也問世了。

而且,研發(fā)過程也得到了Mamba原作者Albert Gu和Tri Dao的協(xié)助。

有趣的是,官宣文章專門cue到了和

  免責(zé)聲明:本文由用戶上傳,與本網(wǎng)站立場無關(guān)。財經(jīng)信息僅供讀者參考,并不構(gòu)成投資建議。投資者據(jù)此操作,風(fēng)險自擔(dān)。 如有侵權(quán)請聯(lián)系刪除!

 
分享:
最新文章