首頁 >> 今日更新 >

o3并非獨門秘技，谷歌已發(fā)背后關(guān)鍵機(jī)制，方法更簡單、成本更低

2024-12-24 09:30:16 來源：用戶：

相信很多大家對o3并非獨門秘技，谷歌已發(fā)背后關(guān)鍵機(jī)制，方法更簡單、成本更低還不知道吧，今天菲菲就帶你們一起去了解一下~.~！

o1/o3帶火的推理計算Scaling，原來谷歌早在今年8月就曾探討過。

當(dāng)時，來自斯坦福、牛津以及谷歌DeepMind的團(tuán)隊提出通過重復(fù)采樣來擴(kuò)展推理計算量——

結(jié)果在編碼任務(wù)中將性能最多提高40%。

他們發(fā)現(xiàn)小模型通過生成多種答案/樣本，其任務(wù)表現(xiàn)可能比一些大型模型單次嘗試還要好。

比如，DeepSeek-Coder通過重復(fù)采集5個樣本，性能優(yōu)于GPT-4o，而成本卻僅為后者的三分之一。

這篇論文講了什么?

這篇論文取名Monkey，靈感來自于無限猴子定理。

一只猴子在打字機(jī)鍵盤上隨機(jī)敲擊鍵盤無限長的時間，幾乎肯定會打出任何給定的文本。

而在大模型的語境下，只要采的樣夠多，那么大模型總能找到正確解。

本文遵循的重復(fù)采樣程序，首先通過大模型中采樣，為給定的問題生成許多候選解。

其次再選擇特定領(lǐng)域的驗證器Verifier（比如代碼的unittests），從生成的樣本中選擇最終答案。

重復(fù)采樣的有效性取決于兩個關(guān)鍵特性。

覆蓋率，隨著樣本數(shù)量的增加，我們可以利用生成的任何樣本解決多少問題。

精確度，在從生成的樣本集合中選擇最終答案的情況下，我們能否識別出正確的樣本?

他們關(guān)注的是yes or no的任務(wù)，在這些任務(wù)中，答案可以直接被打分為對或者錯，主要指標(biāo)是成功率——即能夠解決問題的比例。

通過重復(fù)采樣，考慮這樣一種設(shè)置，即模型在嘗試解決問題時可以生成許多候選解。

因此，成功率既受到為許多問題生成正確樣本的能力（即覆蓋率）的影響，也受到識別這些正確樣本的能力(即精確度)的影響。

基于此，確定了五種數(shù)學(xué)和編程任務(wù):GSM8K、MATH、MiniF2F-MATH、CodeContests、SWE-benchLite。

結(jié)果顯示，在多個任務(wù)和模型中，覆蓋率隨樣本數(shù)量增加而提升，在某些情況下，重復(fù)采樣可使較弱模型超越單樣本性能更好的強(qiáng)模型，且成本效益更高

比如在使用Gemma-2B解決CodeContests編程問題時。隨著樣本數(shù)量的增加，覆蓋率提高了300倍以上，從一次嘗試的0.02%提高到10000次嘗試的7.1%。解決來自GSM8K和MATH的數(shù)學(xué)單詞問題時，Llama-3模型的覆蓋率在10，000個樣本的情況下增長到95%以上。

有趣的是，log（覆蓋率）與樣本數(shù)之間的關(guān)系往往遵循近似的冪律。

在Llama-3和Gemma模型中，可以觀察到覆蓋率與樣本數(shù)呈近似對數(shù)線性增長，超過幾個數(shù)量級。

在不同參數(shù)量、不同模型以及后訓(xùn)練水平（基礎(chǔ)模型和微調(diào)模型）下，都顯示通過重復(fù)采樣Scaling推理時間計算，覆蓋率都有一致的提升。

此外，他們還證明了這種Scaling還能降本增效，以FLOPs作為成本指標(biāo)，以LIama-3為例。

計算公式如下:

比較 Llama-3-8B-Instruct 和 Llama3-70B-Instruct 的成本（以推理 FLOPs 數(shù)量衡量）和覆蓋率。當(dāng)FLOPs預(yù)算固定時，在 MiniF2F、GSM8K和 MATH 上，Llama-3-8B-Instruct的覆蓋率總是高于更大(更貴)的70B 模型。然而，在 CodeContests 中，70B 模型幾乎總是更具成本效益。

對比API成本，當(dāng)采樣較多時，開源 DeepSeek-Coder-V2-Instruct 模型可以達(dá)到與閉源模型GPT-4o相同的問題解決率，而價格僅為后者的三分之一。

有趣的是，他們發(fā)現(xiàn)對于大多數(shù)任務(wù)和模型，覆蓋率與樣本數(shù)之間的關(guān)系可以用指數(shù)冪律來模擬。

因此總結(jié)，這篇文章以重復(fù)采樣為軸心，在推理時擴(kuò)展計算量，從而提高模型性能。

在一系列模型和任務(wù)中，重復(fù)采樣可以顯著提高使用任何生成樣本解決問題的比例（即覆蓋率）。當(dāng)可以識別出正確的解決方案時(通過自動驗證工具或其他驗證算法)，重復(fù)采樣可以在推理過程中放大模型的能力。

與使用較強(qiáng)、較昂貴的模型進(jìn)行較少的嘗試相比，這種放大作用可使較弱的模型與大量樣本的組合更具性能和成本效益。

來自斯坦福牛津谷歌

這篇論文是來自斯坦福、牛津大學(xué)以及谷歌DeepMind團(tuán)隊。TogetherAI提供計算支持。

其中可以看到有谷歌杰出科學(xué)家Quoc V. Le。

有網(wǎng)友表示，這有點像更簡單的靜態(tài)版o3。

不過也有網(wǎng)友指出了背后的局限性。

以上就是關(guān)于【o3并非獨門秘技，谷歌已發(fā)背后關(guān)鍵機(jī)制，方法更簡單、成本更低】的相關(guān)內(nèi)容，希望對大家有幫助！

標(biāo)簽： o3并非獨門秘技，谷歌已發(fā)背后關(guān)鍵機(jī)制，方法更簡單、成本更低

　　免責(zé)聲明：本文由用戶上傳，與本網(wǎng)站立場無關(guān)。財經(jīng)信息僅供讀者參考，并不構(gòu)成投資建議。投資者據(jù)此操作，風(fēng)險自擔(dān)。如有侵權(quán)請聯(lián)系刪除！

相關(guān)閱讀

最新亚洲人成无码网站,夜夜操夜夜操夜夜爽,中文字日产幕乱五区,在线成人看片黄a免费看,亚洲自偷自拍另类11p

o3并非獨門秘技，谷歌已發(fā)背后關(guān)鍵機(jī)制，方法更簡單、成本更低

o3并非獨門秘技，谷歌已發(fā)背后關(guān)鍵機(jī)制，方法更簡單、成本更低