OpenAI秘密武器「草莓」計(jì)劃曝光!Q*推理能力大爆發(fā),逼近AGI L2里程碑
相信很多大家對(duì)OpenAI秘密武器「草莓」計(jì)劃曝光!Q*推理能力大爆發(fā),逼近AGI L2里程碑還不知道吧,今天菲菲就帶你們一起去了解一下~.~!
【新智元導(dǎo)讀】OpenAI被曝出了新項(xiàng)目「草莓」,據(jù)悉能提前計(jì)劃,自主瀏覽網(wǎng)頁,還能進(jìn)行深度研究。草莓由大量通用數(shù)據(jù)上后訓(xùn)練而成,推理能力顯著提高。根據(jù)OpenAI最近的AGI路線圖,草莓疑似已達(dá)Level2。
昨天剛剛被曝出AGI五級(jí)路線圖,今天OpenAI的新項(xiàng)目Strawberry也被曝出了。
不過,大家其實(shí)對(duì)它都很熟悉——就是曾經(jīng)的Q*。
聽聞消息的馬斯克,也補(bǔ)上這么一句評(píng)論——「以前的說法是,AI末日是回形針災(zāi)難,沒想到是永遠(yuǎn)的草莓田?!?/p>
根據(jù)路透社在5月份看到的內(nèi)部文件,OpenAI團(tuán)隊(duì)正在全力研究Strawberry項(xiàng)目。
Strawberry具體是如何運(yùn)作,即使在OpenAI內(nèi)部也是高度保密的。
因此,何時(shí)公開發(fā)布,時(shí)間也是未知。
從AGI五級(jí)路線圖來看,具有推理能力還能自主可靠瀏覽網(wǎng)頁的Strawberry,可能已經(jīng)到了L2的級(jí)別
而就在本周,OpenAI剛在內(nèi)部會(huì)議上展示了某個(gè)demo,據(jù)稱推理能力接近人類水平。
結(jié)合路線圖的曝光,一切都太巧了。
對(duì)此,網(wǎng)友們紛紛猜測(cè),OpenAI一定還在憋個(gè)大的。
顯著提高AI模型的推理能力
文件顯示,Strawberry模型的目的,是為了使公司的AI不僅能生成查詢答案,還能提前計(jì)劃,足夠自主且可靠地瀏覽互聯(lián)網(wǎng),進(jìn)行OpenAI所稱的「深度研究」。
而這個(gè)目標(biāo),根據(jù)對(duì)十多位AI研究人員的采訪,目前尚未有任何AI模型實(shí)現(xiàn)。
路透社表示,Strawberry就是去年的Q*,后者在OpenAI內(nèi)部已經(jīng)實(shí)現(xiàn)突破。
當(dāng)被問詢到Strawberry的更多細(xì)節(jié)時(shí),OpenAI發(fā)言人表示——
知情人士表示,OpenAI希望Strawberry的創(chuàng)新能顯著提高其AI模型的推理能力,并補(bǔ)充說,Strawberry涉及了一種AI模型在經(jīng)過非常大的數(shù)據(jù)集預(yù)訓(xùn)練后的一種特殊處理方式。
而路透社采訪的研究人員表示,推理是AI達(dá)到人類或超人類智能的關(guān)鍵。
雖然LLM可以飛速總結(jié)密集文本、撰寫優(yōu)美文章,但在解決對(duì)人類很直觀的常識(shí)性問題時(shí),如識(shí)別邏輯謬誤和玩井字棋時(shí),表現(xiàn)并不佳,常常出現(xiàn)幻覺。
研究者表示,在AI背景下的推理,就需要一個(gè)模型讓AI能提前計(jì)劃,反映物理世界的運(yùn)作,并且可靠地解決復(fù)雜的多步驟問題。
改進(jìn)AI模型的推理能力,被認(rèn)為是解鎖這些模型潛力的關(guān)鍵。有了推理能力,模型在進(jìn)行重大科學(xué)發(fā)現(xiàn)、規(guī)劃構(gòu)建新的軟件應(yīng)用上,都會(huì)有可觀的提升。
Sam Altman此前也曾表示,今后AI領(lǐng)域最重要的進(jìn)展,將「圍繞推理能力展開」。
而其他巨頭,如谷歌、Meta、微軟等,都在嘗試不同技術(shù),來改進(jìn)AI模型的推理能力。
沿著目前的路線,有可能實(shí)現(xiàn)讓LLM將想法和長(zhǎng)期規(guī)劃納入其預(yù)測(cè)方式嗎?圖靈三巨頭之一的LeCun對(duì)此持唱衰態(tài)度。
他堅(jiān)決認(rèn)為,LLM不具備類人的推理能力。
后訓(xùn)練,能讓LLM學(xué)會(huì)推理嗎
要克服這些挑戰(zhàn),對(duì)OpenAI來說Strawberry就是關(guān)鍵。最近幾個(gè)月,OpenAI曾私下向開發(fā)者和外部人士暗示過,即將發(fā)布具有顯著先進(jìn)推理能力的技術(shù)。
據(jù)悉,Strawberry包括一種被稱為「后訓(xùn)練」的特殊方法,即在OpenAI的生成式AI模型已經(jīng)在大量通用數(shù)據(jù)上「訓(xùn)練」后,調(diào)整基礎(chǔ)模型以特定方式優(yōu)化其性能。
模型開發(fā)的后訓(xùn)練階段涉及「微調(diào)」等方法,這一過程幾乎如今所有的LLM都在用,比如RLHF。
知情人士表示,Strawberry類似于斯坦福大學(xué)在2022年開發(fā)的一種方法——「自我教導(dǎo)推理者」(Self-Taught Reasoner,簡(jiǎn)稱STaR)。
論文地址:https://arxiv.org/abs/2203.14465
論文作者之一,斯坦福教授Noah Goodman表示,STaR使AI模型能夠通過迭代創(chuàng)建自己的訓(xùn)練數(shù)據(jù),來「自我提升」到更高的智能水平。
理論上,可以讓語言模型實(shí)現(xiàn)超越人類水平的智能。
另一項(xiàng)OpenAI希望讓Strawberry具備的能力之一,是執(zhí)行長(zhǎng)時(shí)間任務(wù)(LHT),這指的是需要模型提前計(jì)劃,并在較長(zhǎng)時(shí)間內(nèi)執(zhí)行一系列動(dòng)作的復(fù)雜任務(wù)。
文件顯示,為了實(shí)現(xiàn)這一目標(biāo),OpenAI正在創(chuàng)建、訓(xùn)練和評(píng)估被稱為「深度研究」數(shù)據(jù)集的模型。
OpenAI非常希望模型能夠利用這些能力,通過一個(gè)稱為「CUA」的計(jì)算機(jī)使用Agent來自主瀏覽網(wǎng)絡(luò),并根據(jù)其發(fā)現(xiàn)采取行動(dòng)來進(jìn)行研究。
此外,OpenAI還計(jì)劃測(cè)試其在軟件和機(jī)器學(xué)習(xí)工程師工作中的應(yīng)用能力。
神秘項(xiàng)目疑似Strawberry加持
就在2024年7月初的一次全員會(huì)議上,OpenAI內(nèi)部曾對(duì)一個(gè)神秘研究項(xiàng)目做了展示。
據(jù)稱,它所展現(xiàn)出的推理能力,已經(jīng)達(dá)到了類人的水平。
結(jié)合前文的信息,路透懷疑這可能與Strawberry有關(guān),但目前還無法確定。
而同一時(shí)間曝光出的這張通往AGI的路線圖,似乎也印證了OpenAI即將會(huì)有新的進(jìn)展。
可以看到,OpenAI將最終抵達(dá)AGI終點(diǎn),劃分了五大等級(jí):
OpenAI表示,我們目前正處在第一級(jí)別,不過很快會(huì)達(dá)到第二個(gè)級(jí)別,即推理者。
所謂推理者,也就是指可以解決博士水平的基本問題的系統(tǒng)。
OpenAI CTO曾透露,OpenAI接下來將致力于研究在特定任務(wù)上博士級(jí)別的智能,也許就在一年或一年半之后實(shí)現(xiàn)。
也就是說,我們還有18月的時(shí)間,即將看到級(jí)別二的下一代模型。
Q*重出江湖
2023年11月,OpenAI的神秘Q*項(xiàng)目,引爆整個(gè)AI社區(qū)。
泄露出來的信息,Q*的能力,是能夠解決小學(xué)階段的數(shù)學(xué)問題。
雖然在大多數(shù)人看來,這并不是什么令人印象深刻的事,但這的確是朝向AGI邁出的一大步,堪稱重要的技術(shù)里程碑。
因?yàn)镼*解決的,是以前從未見過的數(shù)學(xué)題。
Ilya做出的突破,使OpenAI不再受限于獲取足夠的高質(zhì)量數(shù)據(jù)來訓(xùn)練新模型,而這,正是開發(fā)下一代模型的主要障礙。
那幾周內(nèi),Q*的演示一直在OpenAI內(nèi)部流傳,所有人都很震驚。
據(jù)悉,OpenAI的一些人認(rèn)為Q*可能是OpenAI在AGI上取得的一個(gè)突破。AGI的定義是:「在最具經(jīng)濟(jì)價(jià)值的任務(wù)中,超越人類的自主系統(tǒng)」
所以,Q*究竟是啥呢?
這要從一項(xiàng)1992年的技術(shù)Q-learning說起。
簡(jiǎn)單來說,Q-learning是一種無模型的強(qiáng)化學(xué)習(xí)算法,旨在學(xué)習(xí)特定狀態(tài)下某個(gè)動(dòng)作的價(jià)值。其最終目標(biāo)是找到最佳策略,即在每個(gè)狀態(tài)下采取最佳動(dòng)作,以最大化隨時(shí)間累積的獎(jiǎng)勵(lì)。
斯坦福博士Silas Alberti由此猜測(cè),Q*很可能是基于AlphaGo式蒙特卡羅樹搜索token軌跡。下一個(gè)合乎邏輯的步驟是以更有原則的方式搜索token樹。這在編碼和數(shù)學(xué)等環(huán)境中尤為合理。
隨著幾位AI大佬的下場(chǎng),大家的觀點(diǎn),愈發(fā)不謀而合了。
AI2研究科學(xué)家Nathan激動(dòng)地寫出一篇長(zhǎng)文,猜測(cè)Q假說應(yīng)該是關(guān)于思想樹+過程獎(jiǎng)勵(lì)模型。并且認(rèn)為Q*假說很可能和世界模型有關(guān)!
文章地址:https://www.interconnects.ai/p/q-star
他猜測(cè),如果Q*(Q-Star)是真的,那么它顯然是RL文獻(xiàn)中的兩個(gè)核心主題的合成:Q值和A*(一種經(jīng)典的圖搜索算法)。
A*算法的一個(gè)例子
GPT-4o放出新演示
話說,OpenAI最近似乎沒有多大動(dòng)靜了。
最近的技術(shù)進(jìn)步,我們可以從OpenAI開發(fā)者體驗(yàn)主管Romain Huet在舊金山人工智能工程師世界博覽會(huì)上的分享中感受一下。
這些分享主要是產(chǎn)品演示,包括GPT-4o Voice、ChatGPT桌面版、Sora和Voice Engine(未發(fā)布),
雖然示例有所不同,但用到的模型能力,與5月份在巴黎VivaTech活動(dòng)上所展示的基本一致。
在這個(gè)演示中,主管讓GPT-4o表演了多種語調(diào),比如激情四射版、悄悄話版等。
GPT-4o可以即時(shí)聽懂Huet的命令,立馬做出正確的反應(yīng),在場(chǎng)觀眾給出歡呼。
接下來,Huet向ChatGPT出示了金門大橋的手繪圖,讓它猜猜自己在哪里。
ChatGPT馬上猜出來這是哪個(gè)大橋,并說出Huet在舊金山,還認(rèn)出了他在紙上的手寫字——「Bonjour Developer」!
隨后,Huet又迅速給了它一堆任務(wù),比如認(rèn)出查理芒格的書,隨機(jī)翻一頁后迅速總結(jié)書頁大意等等,ChatGPT沒有任何遲疑,迅速給出了正確答案,效率令人驚嘆。
下一步,Huet把prompt發(fā)給Sora,Sora立馬就生成的符合要求的視頻——自然紀(jì)錄片風(fēng)格的叢林中的樹蛙。
隨后,Huet從視頻中提取了6幀,然后把這6幀發(fā)給了GPT-4o Vision,讓它描述自己看到了什么。
很快,一段內(nèi)容詳實(shí)的故事就被創(chuàng)作了出來:
最后,Huet展示了voice engine的神奇功能。
他先錄了一段自己的語音,然后把剛才Sora生成的樹蛙視頻發(fā)給voice engine,下一秒,上面那段樹蛙視頻的長(zhǎng)故事,就用他的聲音被讀了出來!觀眾們掌聲雷動(dòng)。
然后,這段故事又被Voice Engine用法語、日語重新讀了一遍(感覺翻譯的淘汰又近了一步)。
在產(chǎn)品層面,OpenAI已經(jīng)做到了如此先進(jìn)的地步,如果再加上Strawberry的推理能力,OpenAI離AGI的實(shí)現(xiàn),恐怕是要很近了。
參考資料:
https://www.reuters.com/technology/artificial-intelligence/openai-working-new-reasoning-technology-under-code-name-strawberry-2024-07-12/
https://www.youtube.com/watch?v=yJHw33cVeHo
以上就是關(guān)于【OpenAI秘密武器「草莓」計(jì)劃曝光!Q*推理能力大爆發(fā),逼近AGI L2里程碑】的相關(guān)內(nèi)容,希望對(duì)大家有幫助!
免責(zé)聲明:本文由用戶上傳,與本網(wǎng)站立場(chǎng)無關(guān)。財(cái)經(jīng)信息僅供讀者參考,并不構(gòu)成投資建議。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。 如有侵權(quán)請(qǐng)聯(lián)系刪除!
- 董明珠曾喊話雷軍給股民分多少錢!格力:擬分紅超55億
- Epic喜+1:動(dòng)作游戲《師父》免費(fèi)領(lǐng) 立省139元
- 雷軍辟謠只招聘35歲以下員工:僅針對(duì)未來之星項(xiàng)目
- 普華永道發(fā)布2025年AI預(yù)測(cè):AI Agents將勞動(dòng)力提升1倍
- 雷軍回應(yīng)股價(jià)暴跌:年年難過年年過
- 一天100座!理想汽車第1700座超充站正式建成
- 《守望先鋒》國(guó)服宣布2月19日回歸:賬號(hào)數(shù)據(jù)完整保留
- 雷軍建議創(chuàng)業(yè)者要多留點(diǎn)錢給員工:別到山窮水盡才講問題
-
【空調(diào)外機(jī)聲音大是什么問題】空調(diào)在使用過程中,如果發(fā)現(xiàn)外機(jī)發(fā)出異常的噪音,可能會(huì)讓人感到困擾??照{(diào)外機(jī)...瀏覽全文>>
-
【空調(diào)外機(jī)聲音大如何解決】空調(diào)在使用過程中,外機(jī)發(fā)出較大的噪音是很多用戶遇到的常見問題。這不僅影響居住...瀏覽全文>>
-
【空調(diào)外機(jī)清洗方法是什么】空調(diào)外機(jī)是空調(diào)系統(tǒng)中非常重要的組成部分,它的清潔程度直接影響到空調(diào)的制冷效果...瀏覽全文>>
-
【空調(diào)突然不制冷的原因】當(dāng)家中的空調(diào)突然不再制冷時(shí),不僅影響使用體驗(yàn),還可能帶來一定的安全隱患。了解空...瀏覽全文>>
-
【空調(diào)銅管什么作用】空調(diào)在現(xiàn)代生活中扮演著越來越重要的角色,尤其是在夏季高溫時(shí),它為我們提供了舒適的室...瀏覽全文>>
-
【空調(diào)銅管結(jié)霜怎么回事】空調(diào)在使用過程中,有時(shí)會(huì)出現(xiàn)銅管結(jié)霜的現(xiàn)象,這不僅影響制冷效果,還可能對(duì)設(shè)備造...瀏覽全文>>
-
【空調(diào)銅管結(jié)霜是什么原因】當(dāng)空調(diào)運(yùn)行時(shí),如果發(fā)現(xiàn)室內(nèi)機(jī)的銅管出現(xiàn)結(jié)霜現(xiàn)象,這不僅影響制冷效果,還可能對(duì)...瀏覽全文>>
-
【空谷幽蘭是什么意思】“空谷幽蘭”是一個(gè)富有詩意的成語,常用來形容在偏僻、冷清的地方生長(zhǎng)的蘭花。它不僅...瀏覽全文>>
-
【空格怎么打出來】在日常使用電腦或手機(jī)輸入文字時(shí),經(jīng)常會(huì)遇到需要輸入“空格”的情況。雖然看似簡(jiǎn)單,但很...瀏覽全文>>
-
【空格怎么打】在日常使用電腦或手機(jī)時(shí),很多人會(huì)遇到“空格怎么打”的問題。其實(shí),“空格”是一個(gè)非?;A(chǔ)的...瀏覽全文>>