OpenAI秘密武器「草莓」計(jì)劃曝光！Q*推理能力大爆發(fā)，逼近AGI L2里程碑

2024-07-14 11:30:01 來源：用戶：

相信很多大家對(duì)OpenAI秘密武器「草莓」計(jì)劃曝光！Q*推理能力大爆發(fā)，逼近AGI L2里程碑還不知道吧，今天菲菲就帶你們一起去了解一下~.~！

【新智元導(dǎo)讀】OpenAI被曝出了新項(xiàng)目「草莓」，據(jù)悉能提前計(jì)劃，自主瀏覽網(wǎng)頁，還能進(jìn)行深度研究。草莓由大量通用數(shù)據(jù)上后訓(xùn)練而成，推理能力顯著提高。根據(jù)OpenAI最近的AGI路線圖，草莓疑似已達(dá)Level2。

昨天剛剛被曝出AGI五級(jí)路線圖，今天OpenAI的新項(xiàng)目Strawberry也被曝出了。

不過，大家其實(shí)對(duì)它都很熟悉——就是曾經(jīng)的Q*。

聽聞消息的馬斯克，也補(bǔ)上這么一句評(píng)論——「以前的說法是，AI末日是回形針災(zāi)難，沒想到是永遠(yuǎn)的草莓田?！?/p>

根據(jù)路透社在5月份看到的內(nèi)部文件，OpenAI團(tuán)隊(duì)正在全力研究Strawberry項(xiàng)目。

Strawberry具體是如何運(yùn)作，即使在OpenAI內(nèi)部也是高度保密的。

因此，何時(shí)公開發(fā)布，時(shí)間也是未知。

從AGI五級(jí)路線圖來看，具有推理能力還能自主可靠瀏覽網(wǎng)頁的Strawberry，可能已經(jīng)到了L2的級(jí)別

而就在本周，OpenAI剛在內(nèi)部會(huì)議上展示了某個(gè)demo，據(jù)稱推理能力接近人類水平。

結(jié)合路線圖的曝光，一切都太巧了。

對(duì)此，網(wǎng)友們紛紛猜測(cè)，OpenAI一定還在憋個(gè)大的。

顯著提高AI模型的推理能力

文件顯示，Strawberry模型的目的，是為了使公司的AI不僅能生成查詢答案，還能提前計(jì)劃，足夠自主且可靠地瀏覽互聯(lián)網(wǎng)，進(jìn)行OpenAI所稱的「深度研究」。

而這個(gè)目標(biāo)，根據(jù)對(duì)十多位AI研究人員的采訪，目前尚未有任何AI模型實(shí)現(xiàn)。

路透社表示，Strawberry就是去年的Q*，后者在OpenAI內(nèi)部已經(jīng)實(shí)現(xiàn)突破。

當(dāng)被問詢到Strawberry的更多細(xì)節(jié)時(shí)，OpenAI發(fā)言人表示——

知情人士表示，OpenAI希望Strawberry的創(chuàng)新能顯著提高其AI模型的推理能力，并補(bǔ)充說，Strawberry涉及了一種AI模型在經(jīng)過非常大的數(shù)據(jù)集預(yù)訓(xùn)練后的一種特殊處理方式。

而路透社采訪的研究人員表示，推理是AI達(dá)到人類或超人類智能的關(guān)鍵。

雖然LLM可以飛速總結(jié)密集文本、撰寫優(yōu)美文章，但在解決對(duì)人類很直觀的常識(shí)性問題時(shí)，如識(shí)別邏輯謬誤和玩井字棋時(shí)，表現(xiàn)并不佳，常常出現(xiàn)幻覺。

研究者表示，在AI背景下的推理，就需要一個(gè)模型讓AI能提前計(jì)劃，反映物理世界的運(yùn)作，并且可靠地解決復(fù)雜的多步驟問題。

改進(jìn)AI模型的推理能力，被認(rèn)為是解鎖這些模型潛力的關(guān)鍵。有了推理能力，模型在進(jìn)行重大科學(xué)發(fā)現(xiàn)、規(guī)劃構(gòu)建新的軟件應(yīng)用上，都會(huì)有可觀的提升。

Sam Altman此前也曾表示，今后AI領(lǐng)域最重要的進(jìn)展，將「圍繞推理能力展開」。

而其他巨頭，如谷歌、Meta、微軟等，都在嘗試不同技術(shù)，來改進(jìn)AI模型的推理能力。

沿著目前的路線，有可能實(shí)現(xiàn)讓LLM將想法和長(zhǎng)期規(guī)劃納入其預(yù)測(cè)方式嗎?圖靈三巨頭之一的LeCun對(duì)此持唱衰態(tài)度。

他堅(jiān)決認(rèn)為，LLM不具備類人的推理能力。

后訓(xùn)練，能讓LLM學(xué)會(huì)推理嗎

要克服這些挑戰(zhàn)，對(duì)OpenAI來說Strawberry就是關(guān)鍵。最近幾個(gè)月，OpenAI曾私下向開發(fā)者和外部人士暗示過，即將發(fā)布具有顯著先進(jìn)推理能力的技術(shù)。

據(jù)悉，Strawberry包括一種被稱為「后訓(xùn)練」的特殊方法，即在OpenAI的生成式AI模型已經(jīng)在大量通用數(shù)據(jù)上「訓(xùn)練」后，調(diào)整基礎(chǔ)模型以特定方式優(yōu)化其性能。

模型開發(fā)的后訓(xùn)練階段涉及「微調(diào)」等方法，這一過程幾乎如今所有的LLM都在用，比如RLHF。

知情人士表示，Strawberry類似于斯坦福大學(xué)在2022年開發(fā)的一種方法——「自我教導(dǎo)推理者」（Self-Taught Reasoner，簡(jiǎn)稱STaR）。

論文地址:https://arxiv.org/abs/2203.14465

論文作者之一，斯坦福教授Noah Goodman表示，STaR使AI模型能夠通過迭代創(chuàng)建自己的訓(xùn)練數(shù)據(jù)，來「自我提升」到更高的智能水平。

理論上，可以讓語言模型實(shí)現(xiàn)超越人類水平的智能。

另一項(xiàng)OpenAI希望讓Strawberry具備的能力之一，是執(zhí)行長(zhǎng)時(shí)間任務(wù)（LHT），這指的是需要模型提前計(jì)劃，并在較長(zhǎng)時(shí)間內(nèi)執(zhí)行一系列動(dòng)作的復(fù)雜任務(wù)。

文件顯示，為了實(shí)現(xiàn)這一目標(biāo)，OpenAI正在創(chuàng)建、訓(xùn)練和評(píng)估被稱為「深度研究」數(shù)據(jù)集的模型。

OpenAI非常希望模型能夠利用這些能力，通過一個(gè)稱為「CUA」的計(jì)算機(jī)使用Agent來自主瀏覽網(wǎng)絡(luò)，并根據(jù)其發(fā)現(xiàn)采取行動(dòng)來進(jìn)行研究。

此外，OpenAI還計(jì)劃測(cè)試其在軟件和機(jī)器學(xué)習(xí)工程師工作中的應(yīng)用能力。

神秘項(xiàng)目疑似Strawberry加持

就在2024年7月初的一次全員會(huì)議上，OpenAI內(nèi)部曾對(duì)一個(gè)神秘研究項(xiàng)目做了展示。

據(jù)稱，它所展現(xiàn)出的推理能力，已經(jīng)達(dá)到了類人的水平。

結(jié)合前文的信息，路透懷疑這可能與Strawberry有關(guān)，但目前還無法確定。

而同一時(shí)間曝光出的這張通往AGI的路線圖，似乎也印證了OpenAI即將會(huì)有新的進(jìn)展。

可以看到，OpenAI將最終抵達(dá)AGI終點(diǎn)，劃分了五大等級(jí):

OpenAI表示，我們目前正處在第一級(jí)別，不過很快會(huì)達(dá)到第二個(gè)級(jí)別，即推理者。

所謂推理者，也就是指可以解決博士水平的基本問題的系統(tǒng)。

OpenAI CTO曾透露，OpenAI接下來將致力于研究在特定任務(wù)上博士級(jí)別的智能，也許就在一年或一年半之后實(shí)現(xiàn)。

也就是說，我們還有18月的時(shí)間，即將看到級(jí)別二的下一代模型。

Q*重出江湖

2023年11月，OpenAI的神秘Q*項(xiàng)目，引爆整個(gè)AI社區(qū)。

泄露出來的信息，Q*的能力，是能夠解決小學(xué)階段的數(shù)學(xué)問題。

雖然在大多數(shù)人看來，這并不是什么令人印象深刻的事，但這的確是朝向AGI邁出的一大步，堪稱重要的技術(shù)里程碑。

因?yàn)镼*解決的，是以前從未見過的數(shù)學(xué)題。

Ilya做出的突破，使OpenAI不再受限于獲取足夠的高質(zhì)量數(shù)據(jù)來訓(xùn)練新模型，而這，正是開發(fā)下一代模型的主要障礙。

那幾周內(nèi)，Q*的演示一直在OpenAI內(nèi)部流傳，所有人都很震驚。

據(jù)悉，OpenAI的一些人認(rèn)為Q*可能是OpenAI在AGI上取得的一個(gè)突破。AGI的定義是:「在最具經(jīng)濟(jì)價(jià)值的任務(wù)中，超越人類的自主系統(tǒng)」

所以，Q*究竟是啥呢?

這要從一項(xiàng)1992年的技術(shù)Q-learning說起。

簡(jiǎn)單來說，Q-learning是一種無模型的強(qiáng)化學(xué)習(xí)算法，旨在學(xué)習(xí)特定狀態(tài)下某個(gè)動(dòng)作的價(jià)值。其最終目標(biāo)是找到最佳策略，即在每個(gè)狀態(tài)下采取最佳動(dòng)作，以最大化隨時(shí)間累積的獎(jiǎng)勵(lì)。

斯坦福博士Silas Alberti由此猜測(cè)，Q*很可能是基于AlphaGo式蒙特卡羅樹搜索token軌跡。下一個(gè)合乎邏輯的步驟是以更有原則的方式搜索token樹。這在編碼和數(shù)學(xué)等環(huán)境中尤為合理。

隨著幾位AI大佬的下場(chǎng)，大家的觀點(diǎn)，愈發(fā)不謀而合了。

AI2研究科學(xué)家Nathan激動(dòng)地寫出一篇長(zhǎng)文，猜測(cè)Q假說應(yīng)該是關(guān)于思想樹+過程獎(jiǎng)勵(lì)模型。并且認(rèn)為Q*假說很可能和世界模型有關(guān)!

文章地址:https://www.interconnects.ai/p/q-star

他猜測(cè)，如果Q*（Q-Star）是真的，那么它顯然是RL文獻(xiàn)中的兩個(gè)核心主題的合成:Q值和A*(一種經(jīng)典的圖搜索算法)。

A*算法的一個(gè)例子

GPT-4o放出新演示

話說，OpenAI最近似乎沒有多大動(dòng)靜了。

最近的技術(shù)進(jìn)步，我們可以從OpenAI開發(fā)者體驗(yàn)主管Romain Huet在舊金山人工智能工程師世界博覽會(huì)上的分享中感受一下。

這些分享主要是產(chǎn)品演示，包括GPT-4o Voice、ChatGPT桌面版、Sora和Voice Engine（未發(fā)布），

雖然示例有所不同，但用到的模型能力，與5月份在巴黎VivaTech活動(dòng)上所展示的基本一致。

在這個(gè)演示中，主管讓GPT-4o表演了多種語調(diào)，比如激情四射版、悄悄話版等。

GPT-4o可以即時(shí)聽懂Huet的命令，立馬做出正確的反應(yīng)，在場(chǎng)觀眾給出歡呼。

接下來，Huet向ChatGPT出示了金門大橋的手繪圖，讓它猜猜自己在哪里。

ChatGPT馬上猜出來這是哪個(gè)大橋，并說出Huet在舊金山，還認(rèn)出了他在紙上的手寫字——「Bonjour Developer」!

隨后，Huet又迅速給了它一堆任務(wù)，比如認(rèn)出查理芒格的書，隨機(jī)翻一頁后迅速總結(jié)書頁大意等等，ChatGPT沒有任何遲疑，迅速給出了正確答案，效率令人驚嘆。

下一步，Huet把prompt發(fā)給Sora，Sora立馬就生成的符合要求的視頻——自然紀(jì)錄片風(fēng)格的叢林中的樹蛙。

隨后，Huet從視頻中提取了6幀，然后把這6幀發(fā)給了GPT-4o Vision，讓它描述自己看到了什么。

很快，一段內(nèi)容詳實(shí)的故事就被創(chuàng)作了出來:

最后，Huet展示了voice engine的神奇功能。

他先錄了一段自己的語音，然后把剛才Sora生成的樹蛙視頻發(fā)給voice engine，下一秒，上面那段樹蛙視頻的長(zhǎng)故事，就用他的聲音被讀了出來!觀眾們掌聲雷動(dòng)。

然后，這段故事又被Voice Engine用法語、日語重新讀了一遍（感覺翻譯的淘汰又近了一步）。

在產(chǎn)品層面，OpenAI已經(jīng)做到了如此先進(jìn)的地步，如果再加上Strawberry的推理能力，OpenAI離AGI的實(shí)現(xiàn)，恐怕是要很近了。

參考資料:

https://www.reuters.com/technology/artificial-intelligence/openai-working-new-reasoning-technology-under-code-name-strawberry-2024-07-12/

https://www.youtube.com/watch?v=yJHw33cVeHo

以上就是關(guān)于【OpenAI秘密武器「草莓」計(jì)劃曝光！Q*推理能力大爆發(fā)，逼近AGI L2里程碑】的相關(guān)內(nèi)容，希望對(duì)大家有幫助！

標(biāo)簽： OpenAI秘密武器「草莓」計(jì)劃曝光！Q*推理能力大爆發(fā)，逼近AGI L2里程碑

　　免責(zé)聲明：本文由用戶上傳，與本網(wǎng)站立場(chǎng)無關(guān)。財(cái)經(jīng)信息僅供讀者參考，并不構(gòu)成投資建議。投資者據(jù)此操作，風(fēng)險(xiǎn)自擔(dān)。如有侵權(quán)請(qǐng)聯(lián)系刪除！

相關(guān)閱讀

最新亚洲人成无码网站,夜夜操夜夜操夜夜爽,中文字日产幕乱五区,在线成人看片黄a免费看,亚洲自偷自拍另类11p

OpenAI秘密武器「草莓」計(jì)劃曝光！Q*推理能力大爆發(fā)，逼近AGI L2里程碑

OpenAI秘密武器「草莓」計(jì)劃曝光！Q*推理能力大爆發(fā)，逼近AGI L2里程碑