最新亚洲人成无码网站,夜夜操夜夜操夜夜爽,中文字日产幕乱五区,在线成人看片黄a免费看,亚洲自偷自拍另类11p

首頁(yè) >> 今日更新 >

o3并非獨(dú)門(mén)秘技,谷歌已發(fā)背后關(guān)鍵機(jī)制,方法更簡(jiǎn)單、成本更低

2024-12-24 09:30:16 來(lái)源: 用戶(hù): 

相信很多大家對(duì)o3并非獨(dú)門(mén)秘技,谷歌已發(fā)背后關(guān)鍵機(jī)制,方法更簡(jiǎn)單、成本更低還不知道吧,今天菲菲就帶你們一起去了解一下~.~!

o1/o3帶火的推理計(jì)算Scaling,原來(lái)谷歌早在今年8月就曾探討過(guò)。

當(dāng)時(shí),來(lái)自斯坦福、牛津以及谷歌DeepMind的團(tuán)隊(duì)提出通過(guò)重復(fù)采樣來(lái)擴(kuò)展推理計(jì)算量——

結(jié)果在編碼任務(wù)中將性能最多提高40%。

他們發(fā)現(xiàn)小模型通過(guò)生成多種答案/樣本,其任務(wù)表現(xiàn)可能比一些大型模型單次嘗試還要好。

比如,DeepSeek-Coder通過(guò)重復(fù)采集5個(gè)樣本,性能優(yōu)于GPT-4o,而成本卻僅為后者的三分之一。

這篇論文講了什么?

這篇論文取名Monkey,靈感來(lái)自于無(wú)限猴子定理。

一只猴子在打字機(jī)鍵盤(pán)上隨機(jī)敲擊鍵盤(pán)無(wú)限長(zhǎng)的時(shí)間,幾乎肯定會(huì)打出任何給定的文本。

而在大模型的語(yǔ)境下,只要采的樣夠多,那么大模型總能找到正確解。

本文遵循的重復(fù)采樣程序,首先通過(guò)大模型中采樣,為給定的問(wèn)題生成許多候選解。

其次再選擇特定領(lǐng)域的驗(yàn)證器Verifier(比如代碼的unittests),從生成的樣本中選擇最終答案。

重復(fù)采樣的有效性取決于兩個(gè)關(guān)鍵特性。

覆蓋率,隨著樣本數(shù)量的增加,我們可以利用生成的任何樣本解決多少問(wèn)題。

精確度,在從生成的樣本集合中選擇最終答案的情況下,我們能否識(shí)別出正確的樣本?

他們關(guān)注的是yes or no的任務(wù),在這些任務(wù)中,答案可以直接被打分為對(duì)或者錯(cuò),主要指標(biāo)是成功率——即能夠解決問(wèn)題的比例。

通過(guò)重復(fù)采樣,考慮這樣一種設(shè)置,即模型在嘗試解決問(wèn)題時(shí)可以生成許多候選解。

因此,成功率既受到為許多問(wèn)題生成正確樣本的能力(即覆蓋率)的影響,也受到識(shí)別這些正確樣本的能力(即精確度)的影響。

基于此,確定了五種數(shù)學(xué)和編程任務(wù):GSM8K、MATH、MiniF2F-MATH、CodeContests、SWE-benchLite。

結(jié)果顯示,在多個(gè)任務(wù)和模型中,覆蓋率隨樣本數(shù)量增加而提升,在某些情況下,重復(fù)采樣可使較弱模型超越單樣本性能更好的強(qiáng)模型,且成本效益更高

比如在使用Gemma-2B解決CodeContests編程問(wèn)題時(shí)。隨著樣本數(shù)量的增加,覆蓋率提高了300倍以上,從一次嘗試的0.02%提高到10000次嘗試的7.1%。解決來(lái)自GSM8K和MATH的數(shù)學(xué)單詞問(wèn)題時(shí),Llama-3模型的覆蓋率在10,000個(gè)樣本的情況下增長(zhǎng)到95%以上。

有趣的是,log(覆蓋率)與樣本數(shù)之間的關(guān)系往往遵循近似的冪律。

在Llama-3和Gemma模型中,可以觀察到覆蓋率與樣本數(shù)呈近似對(duì)數(shù)線(xiàn)性增長(zhǎng),超過(guò)幾個(gè)數(shù)量級(jí)。

在不同參數(shù)量、不同模型以及后訓(xùn)練水平(基礎(chǔ)模型和微調(diào)模型)下,都顯示通過(guò)重復(fù)采樣Scaling推理時(shí)間計(jì)算,覆蓋率都有一致的提升。

此外,他們還證明了這種Scaling還能降本增效,以FLOPs作為成本指標(biāo),以LIama-3為例。

計(jì)算公式如下:

比較 Llama-3-8B-Instruct 和 Llama3-70B-Instruct 的成本(以推理 FLOPs 數(shù)量衡量)和覆蓋率。當(dāng)FLOPs預(yù)算固定時(shí),在 MiniF2F、GSM8K和 MATH 上,Llama-3-8B-Instruct的覆蓋率總是高于更大(更貴)的70B 模型。然而,在 CodeContests 中,70B 模型幾乎總是更具成本效益。

對(duì)比API成本,當(dāng)采樣較多時(shí),開(kāi)源 DeepSeek-Coder-V2-Instruct 模型可以達(dá)到與閉源模型GPT-4o相同的問(wèn)題解決率,而價(jià)格僅為后者的三分之一。

有趣的是,他們發(fā)現(xiàn)對(duì)于大多數(shù)任務(wù)和模型,覆蓋率與樣本數(shù)之間的關(guān)系可以用指數(shù)冪律來(lái)模擬。

因此總結(jié),這篇文章以重復(fù)采樣為軸心,在推理時(shí)擴(kuò)展計(jì)算量,從而提高模型性能。

在一系列模型和任務(wù)中,重復(fù)采樣可以顯著提高使用任何生成樣本解決問(wèn)題的比例(即覆蓋率)。當(dāng)可以識(shí)別出正確的解決方案時(shí)(通過(guò)自動(dòng)驗(yàn)證工具或其他驗(yàn)證算法),重復(fù)采樣可以在推理過(guò)程中放大模型的能力。

與使用較強(qiáng)、較昂貴的模型進(jìn)行較少的嘗試相比,這種放大作用可使較弱的模型與大量樣本的組合更具性能和成本效益。

來(lái)自斯坦福牛津谷歌

這篇論文是來(lái)自斯坦福、牛津大學(xué)以及谷歌DeepMind團(tuán)隊(duì)。TogetherAI提供計(jì)算支持。

其中可以看到有谷歌杰出科學(xué)家Quoc V. Le。

有網(wǎng)友表示,這有點(diǎn)像更簡(jiǎn)單的靜態(tài)版o3。

不過(guò)也有網(wǎng)友指出了背后的局限性。

以上就是關(guān)于【o3并非獨(dú)門(mén)秘技,谷歌已發(fā)背后關(guān)鍵機(jī)制,方法更簡(jiǎn)單、成本更低】的相關(guān)內(nèi)容,希望對(duì)大家有幫助!

  免責(zé)聲明:本文由用戶(hù)上傳,與本網(wǎng)站立場(chǎng)無(wú)關(guān)。財(cái)經(jīng)信息僅供讀者參考,并不構(gòu)成投資建議。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。 如有侵權(quán)請(qǐng)聯(lián)系刪除!

 
分享:
最新文章
站長(zhǎng)推薦