破解ChatGPT驚人耗電!DeepMind新算法訓(xùn)練提效13倍,能耗暴降10倍
相信很多大家對(duì)破解ChatGPT驚人耗電!DeepMind新算法訓(xùn)練提效13倍,能耗暴降10倍還不知道吧,今天菲菲就帶你們一起去了解一下~.~!
【新智元導(dǎo)讀】ChatGPT能耗驚人,該怎么解?谷歌DeepMind新算法JEST問世,讓LLM訓(xùn)練的迭代次數(shù)降低13倍,計(jì)算量減少10倍,或?qū)⒅厮蹵I未來(lái)。
ChatGPT早已成為世界耗能大戶:一天用掉超50萬(wàn)度電,相當(dāng)于1.7萬(wàn)個(gè)美國(guó)家庭的用電量!
然而,大模型對(duì)能源的吞噬,遠(yuǎn)不僅如此。
國(guó)際能源署(IEA)預(yù)測(cè),從2022年到2026年,數(shù)據(jù)中心的用電量將翻一番。
圖源備注:圖片由AI生成,圖片授權(quán)服務(wù)商Midjourney
隨著AI計(jì)算需求的膨脹,還需要用水來(lái)冷卻計(jì)算系統(tǒng)。研究稱,微軟用水量從2021年到22年飆升了34%,ChatGPT每處理5-50個(gè)提示就會(huì)消耗接近半升水。
針對(duì)這種現(xiàn)狀,我們有更好的解決策略嗎?
最近,谷歌DeepMind研究團(tuán)隊(duì)提出了一種加快AI訓(xùn)練的新方法——多模態(tài)對(duì)比學(xué)習(xí)與聯(lián)合示例選擇(JEST),大大減少了所需的計(jì)算資源和時(shí)間。
JEST以13倍更少的迭代次數(shù),以及10倍更少的計(jì)算量,超越了最先進(jìn)的模型!
論文地址:https://arxiv.org/pdf/2406.17711
預(yù)訓(xùn)練的參考模型,已經(jīng)學(xué)習(xí)了什么樣的數(shù)據(jù)是有「優(yōu)質(zhì)的」或「有用的」。然后通過模型,來(lái)引導(dǎo)數(shù)據(jù)選擇那些精心篩選過的小型數(shù)據(jù)集。
這一發(fā)現(xiàn)揭示了,數(shù)據(jù)篩選水平可以作為評(píng)判Scaling Law的一個(gè)新維度。
網(wǎng)友激動(dòng)表示,「我沒想到這么快就會(huì)發(fā)生。模型能夠自主選擇訓(xùn)練數(shù)據(jù)的能力是巨大的,因?yàn)樗褂?xùn)練變得顯著更容易,你不再需要猜測(cè)什么是高質(zhì)量的訓(xùn)練數(shù)據(jù),你有一個(gè)能夠『理解』什么樣的數(shù)據(jù)對(duì)自身學(xué)習(xí)最有價(jià)值的模型」。
前谷歌、蘋果軟件工程師稱贊道,這項(xiàng)研究非常令人印象深刻。
從「超級(jí)batch」中篩選數(shù)據(jù)
無(wú)論是語(yǔ)言、視覺還是多模態(tài)模型,數(shù)據(jù)質(zhì)量是預(yù)訓(xùn)練性能的重要驅(qū)動(dòng)因素。比如Phi-3、Gemma2等模型的成功讓我們看到了,更少、更高質(zhì)量的數(shù)據(jù)有可能實(shí)現(xiàn)更強(qiáng)大的性能。
要篩選出高質(zhì)量的數(shù)據(jù),數(shù)據(jù)管道的建立就成為重要的工作。現(xiàn)有的方法大體可以分為兩種:1)手動(dòng)管理2)基于模型的數(shù)據(jù)管理,用正在訓(xùn)練模型的特征選擇高質(zhì)量數(shù)據(jù)。
前者成本高昂且難以擴(kuò)展,后者則有望為多模態(tài)LLM實(shí)現(xiàn)Scaling Law。
然而,現(xiàn)有方法忽略了一個(gè)事實(shí)。
如果僅在單個(gè)數(shù)據(jù)點(diǎn)的層面進(jìn)行篩選,就沒有考慮到數(shù)據(jù)集以及batch的總體組成。畢竟,訓(xùn)練數(shù)據(jù)是以batch為單位,數(shù)據(jù)點(diǎn)之間的依賴性不可忽視。
許多計(jì)算機(jī)視覺的研究都曾表明,hard negatives(表達(dá)空間中相近但標(biāo)簽不同的樣本)相比可被平凡解的數(shù)據(jù)簇,能提供更有效的學(xué)習(xí)信號(hào)。
那么如何讓模型以batch為單位篩選數(shù)據(jù)呢?
論文提出的JEST算法正是要解決這個(gè)問題,原理很好理解:就是直接從「超級(jí)batch」中篩選出「子batch」。
技術(shù)介紹
用數(shù)學(xué)語(yǔ)言來(lái)描述這個(gè)問題,就是從大小為B的「超級(jí)batch」
免責(zé)聲明:本文由用戶上傳,與本網(wǎng)站立場(chǎng)無(wú)關(guān)。財(cái)經(jīng)信息僅供讀者參考,并不構(gòu)成投資建議。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。 如有侵權(quán)請(qǐng)聯(lián)系刪除!
- 董明珠曾喊話雷軍給股民分多少錢!格力:擬分紅超55億
- Epic喜+1:動(dòng)作游戲《師父》免費(fèi)領(lǐng) 立省139元
- 雷軍辟謠只招聘35歲以下員工:僅針對(duì)未來(lái)之星項(xiàng)目
- 普華永道發(fā)布2025年AI預(yù)測(cè):AI Agents將勞動(dòng)力提升1倍
- 雷軍回應(yīng)股價(jià)暴跌:年年難過年年過
- 一天100座!理想汽車第1700座超充站正式建成
- 《守望先鋒》國(guó)服宣布2月19日回歸:賬號(hào)數(shù)據(jù)完整保留
- 雷軍建議創(chuàng)業(yè)者要多留點(diǎn)錢給員工:別到山窮水盡才講問題
-
【空調(diào)外機(jī)聲音大是什么問題】空調(diào)在使用過程中,如果發(fā)現(xiàn)外機(jī)發(fā)出異常的噪音,可能會(huì)讓人感到困擾??照{(diào)外機(jī)...瀏覽全文>>
-
【空調(diào)外機(jī)聲音大如何解決】空調(diào)在使用過程中,外機(jī)發(fā)出較大的噪音是很多用戶遇到的常見問題。這不僅影響居住...瀏覽全文>>
-
【空調(diào)外機(jī)清洗方法是什么】空調(diào)外機(jī)是空調(diào)系統(tǒng)中非常重要的組成部分,它的清潔程度直接影響到空調(diào)的制冷效果...瀏覽全文>>
-
【空調(diào)突然不制冷的原因】當(dāng)家中的空調(diào)突然不再制冷時(shí),不僅影響使用體驗(yàn),還可能帶來(lái)一定的安全隱患。了解空...瀏覽全文>>
-
【空調(diào)銅管什么作用】空調(diào)在現(xiàn)代生活中扮演著越來(lái)越重要的角色,尤其是在夏季高溫時(shí),它為我們提供了舒適的室...瀏覽全文>>
-
【空調(diào)銅管結(jié)霜怎么回事】空調(diào)在使用過程中,有時(shí)會(huì)出現(xiàn)銅管結(jié)霜的現(xiàn)象,這不僅影響制冷效果,還可能對(duì)設(shè)備造...瀏覽全文>>
-
【空調(diào)銅管結(jié)霜是什么原因】當(dāng)空調(diào)運(yùn)行時(shí),如果發(fā)現(xiàn)室內(nèi)機(jī)的銅管出現(xiàn)結(jié)霜現(xiàn)象,這不僅影響制冷效果,還可能對(duì)...瀏覽全文>>
-
【空谷幽蘭是什么意思】“空谷幽蘭”是一個(gè)富有詩(shī)意的成語(yǔ),常用來(lái)形容在偏僻、冷清的地方生長(zhǎng)的蘭花。它不僅...瀏覽全文>>
-
【空格怎么打出來(lái)】在日常使用電腦或手機(jī)輸入文字時(shí),經(jīng)常會(huì)遇到需要輸入“空格”的情況。雖然看似簡(jiǎn)單,但很...瀏覽全文>>
-
【空格怎么打】在日常使用電腦或手機(jī)時(shí),很多人會(huì)遇到“空格怎么打”的問題。其實(shí),“空格”是一個(gè)非?;A(chǔ)的...瀏覽全文>>