蘋果開源7B大模型,訓(xùn)練過(guò)程數(shù)據(jù)集一口氣全給了,網(wǎng)友:開放得不像蘋果
相信很多大家對(duì)蘋果開源7B大模型,訓(xùn)練過(guò)程數(shù)據(jù)集一口氣全給了,網(wǎng)友:開放得不像蘋果還不知道吧,今天菲菲就帶你們一起去了解一下~.~!
蘋果最新殺入開源大模型戰(zhàn)場(chǎng),而且比其他公司更開放。
推出7B模型,不僅效果與Llama38B相當(dāng),而且一次性開源了全部訓(xùn)練過(guò)程和資源。
要知道,不久前Nature雜志編輯Elizabeth Gibney還撰文批評(píng):
而蘋果這次竟然來(lái)真的!!
就連NLP科學(xué)家、AutoAWQ創(chuàng)建者也發(fā)出驚嘆:
也引來(lái)網(wǎng)友在線調(diào)侃:
至于這次開源的意義,有熱心網(wǎng)友也幫忙總結(jié)了:
當(dāng)然,除了OpenAI和蘋果,上周Mistral AI聯(lián)合英偉達(dá)也發(fā)布了一個(gè)12B參數(shù)小模型。
HuggingFace創(chuàng)始人表示,「小模型周」來(lái)了!
卷!繼續(xù)卷!所以蘋果這次發(fā)布的小模型究竟有多能打?
效果直逼Llama38B
有多能打先不說(shuō),先來(lái)看Hugging Face技術(shù)主管剛“拆箱”的模型基礎(chǔ)配置。
總結(jié)下來(lái)就是:
7B基礎(chǔ)模型,在開放數(shù)據(jù)集上使用2.5T tokens進(jìn)行訓(xùn)練
主要是英文數(shù)據(jù),擁有2048tokens上下文窗口
數(shù)據(jù)集包括DCLM-BASELINE、StarCoder和ProofPile2
MMLU得分接近Llama38B
使用PyTorch和OpenLM框架進(jìn)行訓(xùn)練
具體而言,研究團(tuán)隊(duì)先是提出了一個(gè)語(yǔ)言模型數(shù)據(jù)比較新基準(zhǔn)——DCLM。
之所以提出這一基準(zhǔn),是因?yàn)閳F(tuán)隊(duì)發(fā)現(xiàn):
因此,團(tuán)隊(duì)使用DCLM來(lái)設(shè)計(jì)高質(zhì)量數(shù)據(jù)集從而提高模型性能,尤其是在多模態(tài)領(lǐng)域。
其思路很簡(jiǎn)單:使用一個(gè)標(biāo)準(zhǔn)化的框架來(lái)進(jìn)行實(shí)驗(yàn),包括固定的模型架構(gòu)、訓(xùn)練代碼、超參數(shù)和評(píng)估,最終找出哪種數(shù)據(jù)整理策略最適合訓(xùn)練出高性能的模型。
基于上述思路,團(tuán)隊(duì)構(gòu)建了一個(gè)高質(zhì)量數(shù)據(jù)集DCLM-BASELINE,并用它從頭訓(xùn)練了一個(gè)7B參數(shù)模型——DCLM-7B。
DCLM-7B具體表現(xiàn)如何呢?
結(jié)果顯示,它在MMLU基準(zhǔn)上5-shot準(zhǔn)確率達(dá)64%,可與Mistral-7B-v0.3(63%)和Llama38B(66%)相媲美;并且在53個(gè)自然語(yǔ)言理解任務(wù)上的平均表現(xiàn)也可與Llama38B相媲美,而所需計(jì)算量?jī)H為后者的1/6。
與其他同等大小模型相比,DCLM-7B的MMLU得分超越Mistral-7B,接近Llama38B。
最后,為了測(cè)試新數(shù)據(jù)集效果,有業(yè)內(nèi)人士用卡帕西的llm.c訓(xùn)練了GPT-21.5B,來(lái)比較DCLM-Baseline與FineWeb-Edu這兩個(gè)數(shù)據(jù)集。
結(jié)果顯示DCLM-Baseline取得了更高的平均分,且在ARC(小學(xué)生科學(xué)問(wèn)題推理)、HellaSwag(常識(shí)推理)、MMLU等任務(wù)上表現(xiàn)更好。
“小”模型成新趨勢(shì)
回到開頭,“小”模型最近已成新趨勢(shì)。
先是HuggingFace推出了小模型家族“SmolLM”,其中包含135M、360M和1.7B型號(hào)模型。
它們?cè)趶V泛的推理和常識(shí)基準(zhǔn)上優(yōu)于類似大小的模型。
然后OpenAI突然發(fā)布了GPT-4o mini,不僅能力接近GPT-4,而且價(jià)格大幅下降。
就在GPT-4o mini發(fā)布同日,Mistral AI聯(lián)合英偉達(dá)發(fā)布了12B參數(shù)小模型——Mistral NeMo。
從整體性能上看,Mistral NeMo在多項(xiàng)基準(zhǔn)測(cè)試中,擊敗了Gemma29B和Llama38B。
所以,為啥大家都開始卷小模型了?
原因嘛可能正如smol AI創(chuàng)始人提醒的,雖然模型變小了,但在能力相近的情況下,小模型大大降低了成本。
就像他提供的這張圖,以GPT-4o mini為代表的小模型整體比右側(cè)價(jià)格更低。
對(duì)此,我等吃瓜群眾be like:
所以,你更看好哪家呢?(歡迎評(píng)論區(qū)討論留言)
模型地址:
https://huggingface.co/apple/DCLM-7B
GitHub:
https://github.com/mlfoundations/dclm
數(shù)據(jù)集地址:
https://huggingface.co/datasets/mlfoundations/dclm-baseline-1.0
參考鏈接:
[1]https://x.com/Yuchenj_UW/status/1813260100192334108
[2]https://x.com/casper_hansen_/status/1814269340100751382
[3]https://x.com/_philschmid/status/1814274909775995087
[4]https://x.com/LoubnaBenAllal1/status/1813252390692303069
以上就是關(guān)于【蘋果開源7B大模型,訓(xùn)練過(guò)程數(shù)據(jù)集一口氣全給了,網(wǎng)友:開放得不像蘋果】的相關(guān)內(nèi)容,希望對(duì)大家有幫助!
免責(zé)聲明:本文由用戶上傳,與本網(wǎng)站立場(chǎng)無(wú)關(guān)。財(cái)經(jīng)信息僅供讀者參考,并不構(gòu)成投資建議。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。 如有侵權(quán)請(qǐng)聯(lián)系刪除!
- 董明珠曾喊話雷軍給股民分多少錢!格力:擬分紅超55億
- Epic喜+1:動(dòng)作游戲《師父》免費(fèi)領(lǐng) 立省139元
- 雷軍辟謠只招聘35歲以下員工:僅針對(duì)未來(lái)之星項(xiàng)目
- 普華永道發(fā)布2025年AI預(yù)測(cè):AI Agents將勞動(dòng)力提升1倍
- 雷軍回應(yīng)股價(jià)暴跌:年年難過(guò)年年過(guò)
- 一天100座!理想汽車第1700座超充站正式建成
- 《守望先鋒》國(guó)服宣布2月19日回歸:賬號(hào)數(shù)據(jù)完整保留
- 雷軍建議創(chuàng)業(yè)者要多留點(diǎn)錢給員工:別到山窮水盡才講問(wèn)題
-
【空調(diào)外機(jī)聲音大是什么問(wèn)題】空調(diào)在使用過(guò)程中,如果發(fā)現(xiàn)外機(jī)發(fā)出異常的噪音,可能會(huì)讓人感到困擾。空調(diào)外機(jī)...瀏覽全文>>
-
【空調(diào)外機(jī)聲音大如何解決】空調(diào)在使用過(guò)程中,外機(jī)發(fā)出較大的噪音是很多用戶遇到的常見問(wèn)題。這不僅影響居住...瀏覽全文>>
-
【空調(diào)外機(jī)清洗方法是什么】空調(diào)外機(jī)是空調(diào)系統(tǒng)中非常重要的組成部分,它的清潔程度直接影響到空調(diào)的制冷效果...瀏覽全文>>
-
【空調(diào)突然不制冷的原因】當(dāng)家中的空調(diào)突然不再制冷時(shí),不僅影響使用體驗(yàn),還可能帶來(lái)一定的安全隱患。了解空...瀏覽全文>>
-
【空調(diào)銅管什么作用】空調(diào)在現(xiàn)代生活中扮演著越來(lái)越重要的角色,尤其是在夏季高溫時(shí),它為我們提供了舒適的室...瀏覽全文>>
-
【空調(diào)銅管結(jié)霜怎么回事】空調(diào)在使用過(guò)程中,有時(shí)會(huì)出現(xiàn)銅管結(jié)霜的現(xiàn)象,這不僅影響制冷效果,還可能對(duì)設(shè)備造...瀏覽全文>>
-
【空調(diào)銅管結(jié)霜是什么原因】當(dāng)空調(diào)運(yùn)行時(shí),如果發(fā)現(xiàn)室內(nèi)機(jī)的銅管出現(xiàn)結(jié)霜現(xiàn)象,這不僅影響制冷效果,還可能對(duì)...瀏覽全文>>
-
【空谷幽蘭是什么意思】“空谷幽蘭”是一個(gè)富有詩(shī)意的成語(yǔ),常用來(lái)形容在偏僻、冷清的地方生長(zhǎng)的蘭花。它不僅...瀏覽全文>>
-
【空格怎么打出來(lái)】在日常使用電腦或手機(jī)輸入文字時(shí),經(jīng)常會(huì)遇到需要輸入“空格”的情況。雖然看似簡(jiǎn)單,但很...瀏覽全文>>
-
【空格怎么打】在日常使用電腦或手機(jī)時(shí),很多人會(huì)遇到“空格怎么打”的問(wèn)題。其實(shí),“空格”是一個(gè)非?;A(chǔ)的...瀏覽全文>>