OpenAI掀小模型血戰(zhàn)!蘋果DCLM強(qiáng)勢登場,碾壓Mistral 7B全開源
相信很多大家對OpenAI掀小模型血戰(zhàn)!蘋果DCLM強(qiáng)勢登場,碾壓Mistral 7B全開源還不知道吧,今天菲菲就帶你們一起去了解一下~.~!
【新智元導(dǎo)讀】小模型時(shí)代來了?OpenAI帶著GPT-4o mini首次入局小模型戰(zhàn)場,Mistral AI、HuggingFace本周接連發(fā)布了小模型。如今,蘋果也發(fā)布了70億參數(shù)小模型DCLM,性能碾壓Mistral-7B。
小模型的戰(zhàn)場,打起來了!
繼GPT-4o mini、Mistral NeMo發(fā)布之后,蘋果也入局了。
DCLM小模型包含兩種參數(shù)規(guī)?!?0億和14億,發(fā)布即開源。最大70億參數(shù)超越了Mistral-7B ,性能接近Llama3、Gemma。
根據(jù)蘋果ML小組研究科學(xué)家Vaishaal Shankar(也是DCLM研發(fā)人員)的說法,這是迄今為止性能最好的「真正開源」的模型,不僅有權(quán)重和訓(xùn)練代碼,而且是基于開放數(shù)據(jù)集DCLM-Baseline。
相比模型性能,DCLM做出的「真正開源」的典范更加引人關(guān)注。
對比大部分科技巨頭只搞閉源模型,或「猶抱琵琶半遮面」,只開源代碼或權(quán)重的做法,大方的蘋果獲得了網(wǎng)友的好評。
此外,Shankar還預(yù)告說,之后會繼續(xù)上線模型中間檢查點(diǎn)和優(yōu)化器狀態(tài)。
難道,這就是LLM開源社區(qū)的春天了嗎?
DCLM系列全開源
目前,HuggingFace上已經(jīng)發(fā)布了全部模型權(quán)重,其中的模型卡已經(jīng)基本涵蓋了關(guān)鍵信息。
https://huggingface.co/apple/DCLM-7B
DCLM-7B同樣采用了decoder-only的架構(gòu),使用PyTorch和OpenLM框架進(jìn)行預(yù)訓(xùn)練。
總共4T token的DCLM-baseline數(shù)據(jù)集來自于總量240T的DCLM,DCLM-7B模型又進(jìn)一步過濾出其中的2.5T用于訓(xùn)練。
上下文長度為2048,小于Mistral7B和Gemma29B的8k長度。
性能方面,作者直接使用評估套件LLM Foundry,測試了模型在53個(gè)基準(zhǔn)任務(wù)上的分?jǐn)?shù)。
與其他模型進(jìn)行比較時(shí),除了MMLU分?jǐn)?shù),作者還自定義了兩個(gè)指標(biāo)——「核心準(zhǔn)確率」(core)和「擴(kuò)展準(zhǔn)確率」(extended)。
前者是包括HellaSwag和ARC-E在內(nèi)的22個(gè)任務(wù)中心準(zhǔn)確率的均值,后者則涵蓋全部53個(gè)任務(wù)。
與雖然使用的數(shù)據(jù)不是最多,但與其他同等大小的開放數(shù)據(jù)模型(權(quán)重與數(shù)據(jù)集都開源)相比,DCLM在全部3個(gè)指標(biāo)上的性能都達(dá)到了最佳。
三列基準(zhǔn)分?jǐn)?shù)從左到右分別是:核心、MMLU、擴(kuò)展
相比之前的SOTA MAP-Neo模型,DCLM-7B在5-shot的MMLU任務(wù)準(zhǔn)確率達(dá)到63.7%,提升了6.6個(gè)百分點(diǎn),同時(shí)訓(xùn)練所需的計(jì)算量減少了40%。
然而,如果和權(quán)重開源、數(shù)據(jù)集閉源的模型相比,效果就不盡如人意了。
DCLM在各個(gè)指標(biāo)上都與Phi-3存在不小差距,與Mistral-7B-v0.3或Gemma8B的分?jǐn)?shù)大致相當(dāng)。
研究人員發(fā)現(xiàn),如果使用同一數(shù)據(jù)集中額外的100B數(shù)據(jù)進(jìn)行訓(xùn)練,并將上下文長度擴(kuò)展到8k時(shí),模型在核心和擴(kuò)展基準(zhǔn)上的分?jǐn)?shù)還會進(jìn)一步提升,但MMLU結(jié)果沒有變化。
這個(gè)結(jié)果,就全面超過了Mistral7B-v0.3的分?jǐn)?shù)。
此外,HuggingFace上還發(fā)布了7B模型的指令微調(diào)版本,在數(shù)學(xué)推理任務(wù)GSM8K上的性能實(shí)現(xiàn)大規(guī)模提升,分?jǐn)?shù)由原來的2.1直接飆到52.5。
https://huggingface.co/apple/DCLM-7B-8k
除了7B版本,1.4B版本也同步上線。神奇的是,訓(xùn)練數(shù)據(jù)量相比7B版本不降反增,多了0.1T。
https://huggingface.co/TRI-ML/DCLM-1B
相比HuggingFace最近發(fā)布的SmolLM,DCLM-1B的性能顯著更優(yōu),尤其是5-shot MMLU分?jǐn)?shù),比SmolLM提升了11.9%。
不僅如此,DCLM-1B在MMLU上41.9的得分也同樣高于Qwen-1.5B的37.87和Phi-1.5B的35.90。
7B模型落后的事情,反而讓1.4B模型反超了,果然小模型才是蘋果的看家本領(lǐng)。
值得注意的是,7B模型僅能在Appl240萬億巨量數(shù)據(jù)被洗出,足夠訓(xùn)出18個(gè)GPT-4!全球23所機(jī)構(gòu)聯(lián)手,清洗秘籍公開e的示例代碼許可(ASCL)下使用,但1.4B版本在Apache2.0下發(fā)布,允許商業(yè)使用、分發(fā)和修改。
既然說到這次發(fā)布的DCLM系列模型,就不得不提它們的重要基礎(chǔ)——DataComp基準(zhǔn)。
論文地址:https://arxiv.org/pdf/2406.11794
DataComp這篇論文首發(fā)于6月17日,共同一作Jeffrey Li、Alex Fang和共同最后作者Vaishaal Shankar,也同樣都是蘋果DCLM的研發(fā)人員。
文章不僅對數(shù)據(jù)集的構(gòu)建過程進(jìn)行了詳細(xì)闡述,也提到了關(guān)于DCLM模型的部分內(nèi)容。
Vaishaal Shankar表示,將很快發(fā)布這篇論文的更新版,提供更多有關(guān)模型預(yù)訓(xùn)練的技術(shù)細(xì)節(jié)。
相比于對同一數(shù)據(jù)集修改模型,DataComp的思路反其道而行之——測評所用的模型是固定的,任務(wù)是在總共240T的數(shù)據(jù)池中過濾、處理出最好的數(shù)據(jù)。
可以說,這種做法與科技巨頭們的研發(fā)思路非常一致——對于LLM的性能而言,預(yù)訓(xùn)練數(shù)據(jù)正在成為比模型架構(gòu)和權(quán)重更重要的因素。
畢竟,Llama、Gemma、Phi等一系列「開源」模型都是只放權(quán)重、不公布數(shù)據(jù)。
既要Scaling Law,又要SLM
對于AI科技巨頭來說,有時(shí)模型不是越大越好。
其實(shí)一直以來,AI社區(qū)中,并不缺少小模型,比如微軟Phi系列模型多次迭代,以及6月末谷歌剛剛更新的Gemma27B。
這周,OpenAI突然發(fā)布GPT-4o mini,Mistral AI聯(lián)手英偉達(dá)發(fā)布Mistral NeMo,HuggingFace的SmoLLM等小模型的發(fā)布,為小模型的領(lǐng)域再次添了一把火。
正如OpenAI研究員所言,「雖然我們比任何人都更喜歡訓(xùn)練大模型,但OpenAI也知道如何訓(xùn)練小模型」。
小模型,優(yōu)勢在于成本低、速度快、更專業(yè),通常只使用少量數(shù)據(jù)訓(xùn)練,為特定任務(wù)而設(shè)計(jì)。
大模型變小,再擴(kuò)大規(guī)模,可能是未來發(fā)展的趨勢之一。
前兩天,在GPT-4o mini發(fā)布時(shí),Andrej Karpathy也發(fā)表長推表達(dá)了類似的觀點(diǎn)。
他認(rèn)為,模型尺寸的競爭將會「反向加劇」,不是越來越大,反而是比誰更小更輕巧。
當(dāng)前的LLM之所以逐漸變成「巨獸」,是因?yàn)橛?xùn)練過程仍然非常浪費(fèi),我們基本上是在要求模型記住整個(gè)互聯(lián)網(wǎng)的內(nèi)容(而且實(shí)際上,LLM的記憶能力還相當(dāng)不錯(cuò),質(zhì)量上比人類好很多)。
但對于小模型來說,訓(xùn)練目標(biāo)已經(jīng)改變。關(guān)鍵問題是,AI系統(tǒng)如何從更少的數(shù)據(jù)中學(xué)到更多。
我們需要模型先變得更大,再變得更小,因?yàn)槲覀冃枰妇瞢F」將數(shù)據(jù)重構(gòu)、塑造為理想的合成形式,逐漸得到「完美的訓(xùn)練集」,再喂給小模型。
馬斯克也表示同意這個(gè)觀點(diǎn)。Karpathy所描述的這個(gè)模型改進(jìn)階梯,正是現(xiàn)實(shí)中特斯拉曾走過的路。
23年4月,Sam Altman曾宣布了AI大模型時(shí)代終結(jié)。最近采訪中,他還確認(rèn)了數(shù)據(jù)質(zhì)量是進(jìn)一步AI訓(xùn)練的關(guān)鍵成功因素。
微軟研究人員在開發(fā)Phi模型時(shí),就提出了這樣的假設(shè)。Hugging Face的AI研究人員最近也證實(shí)了這一假設(shè),并發(fā)布了一個(gè)高質(zhì)量的訓(xùn)練數(shù)據(jù)集。
就以GPT-4為例,開發(fā)和使用超一萬億參數(shù)的成本超過了1億美元。
而小模型,比如專在法律數(shù)據(jù)集上完成訓(xùn)練,可能使用不到100億參數(shù),成本不到1000萬美元,使用更少算力響應(yīng)每個(gè)查詢,因此成本較低。
納德拉曾表示,Phi?型模型系列規(guī)模僅為OpenAI背后免費(fèi)模型1/100,而且在許多任務(wù)上的表現(xiàn)幾乎同樣出色。
除此以外,谷歌以及AI初創(chuàng)公司Mistral、Anthropic、Cohere今年也發(fā)布了規(guī)模較小的模型。
6月,蘋果曾公布了自己的AI發(fā)展路線圖,計(jì)劃使用小型模型,這樣就可以完全在手機(jī)上運(yùn)行軟件,使其更快速和更安全。
對于許多任務(wù)來說,比如總蘋果為什么要用「小模型」?結(jié)文檔或生成圖像,大模型可能有點(diǎn)大材小用。
Transformer開山之作背后作者Illia Polosukhin表示,計(jì)算2+2不應(yīng)該需要進(jìn)?千萬億次運(yùn)算。
不過,科技巨頭們也并沒有放棄大模型。蘋果在今年WWDC大會上,曾宣布了在Siri助手中植入ChatGPT,以執(zhí)行撰寫電子郵件等復(fù)雜任務(wù)。
畢竟通往終極AGI/ASI,參數(shù)規(guī)模的擴(kuò)大和智能的增長成正比。
以上就是關(guān)于【OpenAI掀小模型血戰(zhàn)!蘋果DCLM強(qiáng)勢登場,碾壓Mistral 7B全開源】的相關(guān)內(nèi)容,希望對大家有幫助!
免責(zé)聲明:本文由用戶上傳,與本網(wǎng)站立場無關(guān)。財(cái)經(jīng)信息僅供讀者參考,并不構(gòu)成投資建議。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。 如有侵權(quán)請聯(lián)系刪除!
-
奔馳GLE作為豪華SUV市場中的佼佼者,憑借其卓越的性能、豪華的內(nèi)飾以及寬敞的空間,吸引了眾多消費(fèi)者的關(guān)注。...瀏覽全文>>
-
在2025年,安徽阜陽地區(qū)的帕薩特新能源汽車市場表現(xiàn)非常活躍。作為一款備受關(guān)注的新能源車型,帕薩特新能源憑...瀏覽全文>>
-
近日,滁州地區(qū)的大眾汽車經(jīng)銷商傳來好消息:備受矚目的2025款T-ROC探歌正式上市,并且以極具競爭力的價(jià)格吸引...瀏覽全文>>
-
在選擇一款新能源汽車時(shí),了解其價(jià)格和配置是非常重要的一步。安徽淮南地區(qū)的長安啟源E07作為2024款的新車型,...瀏覽全文>>
-
阜陽長安啟源A05作為長安汽車旗下的全新車型,自推出以來便憑借其獨(dú)特的設(shè)計(jì)風(fēng)格和豐富的配置吸引了眾多消費(fèi)者...瀏覽全文>>
-
阜陽長安啟源A07作為一款備受矚目的新能源車型,以其豪華配置和親民的價(jià)格在市場上引起了廣泛關(guān)注。這款車型不...瀏覽全文>>
-
安徽淮南威然2024款價(jià)格及配置詳解隨著汽車市場的不斷更新?lián)Q代,上汽大眾旗下的MPV車型——威然(Viloran)憑...瀏覽全文>>
-
QQ多米新車報(bào)價(jià)2025款,買車省錢秘籍隨著汽車市場的不斷發(fā)展,消費(fèi)者在選購車輛時(shí)不僅關(guān)注車型的性能和配置,...瀏覽全文>>
-
滁州途觀X 2024款最新價(jià)格及買車省錢秘籍隨著汽車市場的不斷發(fā)展,大眾途觀X作為一款兼具時(shí)尚與性能的中型SUV...瀏覽全文>>
-
隨著汽車市場的不斷發(fā)展,大眾蔚攬以其優(yōu)雅的設(shè)計(jì)和卓越的性能贏得了眾多消費(fèi)者的青睞。作為一款兼具實(shí)用性和...瀏覽全文>>
- Alienware 在 2025 年 CES 上展示了一些超凡脫俗的技術(shù)
- Wickes 任命首席零售和分銷官
- 分析師稱GTA 6或?qū)淞⑿袠I(yè)新標(biāo)準(zhǔn)
- 索尼和本田在拉斯維加斯推出售價(jià) 89,900 美元的 Afeela 1
- 日本 11 月游客人數(shù)創(chuàng)月度新高
- 神經(jīng)認(rèn)知測試在 3 歲兒童白血病治療期間可行
- 牛津郡小學(xué)支持圣誕毛衣日
- S?strene Grene 投資歐洲物流中心
- 有人已經(jīng)在電視上直播 BNMC 打造的 1967 年福特野馬 Restomod
- 潛在的分子療法可以逆轉(zhuǎn)小鼠的胎盤發(fā)育問題
- 奔馳GLE預(yù)約試駕,新手必看的詳細(xì)流程
- 滁州T-ROC探歌 2025新款價(jià)格,最低售價(jià)15.89萬起,趕緊行動
- 安徽淮南威然最新價(jià)格2024款,各配置車型售價(jià)全知曉
- 滁州途觀X最新價(jià)格2024款,買車省錢秘籍
- 淮南長安啟源Q05 2025新款價(jià)格,最低售價(jià)9.69萬起,入手正當(dāng)時(shí)
- 安徽淮南探影多少錢 2023款落地價(jià),各配置車型售價(jià)一目了然
- 淮南途觀X價(jià)格大揭秘,買車前必看
- 安徽淮南長安獵手K50新款價(jià)格2025款多少錢?買車攻略一網(wǎng)打盡
- 滁州ID.4 X新款價(jià)格2025款多少錢?買車攻略一網(wǎng)打盡
- QQ多米落地價(jià),購車前必看的費(fèi)用明細(xì)
- Nvidia DLSS 4 有望將游戲性能提高 8 倍
- 人工智能在預(yù)測自身免疫性疾病進(jìn)展方面顯示出良好的前景
- 心理物理實(shí)驗(yàn)揭示皮膚水分感知是如何改變的
- 科茨沃爾德公司慶祝圣誕節(jié)圓滿成功
- 南法納姆學(xué)校被評為薩里郡表現(xiàn)最好的小學(xué)
- 約克區(qū)九所小學(xué)將削減招生人數(shù)
- 松下新款電動汽車電池為 Lucid Gravity 帶來 450 英里續(xù)航里程
- 泰國旅游呈現(xiàn)新趨勢
- 研究人員找到在細(xì)胞水平上餓死前列腺癌腫瘤的新方法
- 領(lǐng)先的人工智能聊天機(jī)器人在測試中表現(xiàn)出類似癡呆癥的認(rèn)知能力下降
- 龐大的 Project Zomboid build 42 終于可以玩了
- Steam Replay 回歸向您展示 2024 年您玩得最多的 PC 游戲
- Jollyes 推出強(qiáng)化的人才支持和招聘措施
- Karen Millen 與 Simon Harrison 共同推出全新高級珠寶系列
- 奇瑞風(fēng)云A8L電動轎車刷新續(xù)航里程世界紀(jì)錄
- 虛擬藝術(shù)家將別克 Cascada 帶回 2026 款車型
- OnePlus 宣布推出新計(jì)劃解決綠線問題
- OnePlus Watch 3 將擁有更大的電池和更薄的機(jī)身
- 研究人員發(fā)現(xiàn)可變剪接與自身免疫性疾病遺傳之間的細(xì)胞類型特異性聯(lián)系
- 科學(xué)家確定腦細(xì)胞類型是排尿的主要控制者