16年老程序員當(dāng)場“退休”，OpenAI o1這么強(qiáng)嗎？

2024-09-14 09:00:12 來源：用戶：

相信很多大家對16年老程序員當(dāng)場“退休”，OpenAI o1這么強(qiáng)嗎？還不知道吧，今天菲菲就帶你們一起去了解一下~.~！

誰能想到，o1剛出來工作，就被吐槽“懶惰”。

9月13日，OpenAI創(chuàng)始成員、AI大牛Andrej Karpathy發(fā)文吐槽OpenAI剛發(fā)布的最新模型:“o1-mini一直拒絕為我解決黎曼猜想，模型懶惰還是主要問題，很悲傷?！?/p>

9月13日凌晨，OpenAI突然發(fā)布了一款o1-preview模型，這也是之前被大肆宣揚(yáng)的“Strawberry（草莓）”模型。據(jù)介紹，該模型能夠推理復(fù)雜任務(wù)，解決科學(xué)、編程、數(shù)學(xué)等領(lǐng)域更難的問題。

與此同時，另一款更小、更高效、成本更低的版本o1mini也同步上線。

除了o1-mini，OpenAI今天還發(fā)布了另一款新模型:o1-preview。也就是這段時間吊足了胃口的“Strawberry（草莓）”模型。據(jù)介紹，該模型能夠推理復(fù)雜任務(wù)，解決科學(xué)、編程、數(shù)學(xué)等領(lǐng)域更難的問題。

相較而言，o1mini則是更小、更高效、成本更低的版本。

在性能上，o1系列模型主要通過強(qiáng)化學(xué)習(xí)的方式訓(xùn)練，幻覺頻率上低于GPT-4o，數(shù)學(xué)能力提升了6倍，代碼能力提升了8倍。

在一系列高難度基準(zhǔn)測試中，o1都展現(xiàn)出了超強(qiáng)實力，甚至能在物理、生物等領(lǐng)域問答環(huán)節(jié)中，超過人類博士水平。

模型一經(jīng)上線，OpenAI CEO Sam Altman在X上發(fā)文稱，Jimmy們，耐心等待時刻結(jié)束了。

目前，o1-preview已面向ChatGPT Plus、Team用戶開放，企業(yè)用戶將在下周獲得訪問權(quán)限。o1mini計劃向所有免費(fèi)用戶開放。

今天被同行們夸爆了的o1，是否真的能帶來GPT-4o剛面世時的驚艷感受?我們也來上手試試，另外也看看圍繞o1，海內(nèi)外玩家們都在玩些什么和聊些什么。

新的AI模型天花板，復(fù)雜推理是舒適區(qū)

有意思的是，新模型被OpenAI視為AI能力的重大進(jìn)步，因此被命名為o1，表示“將計數(shù)器重置為1”，而不是GPT系列的延續(xù)。基于此，也有一些玩家開始擔(dān)心:GPT-5恐怕是沒戲了。

據(jù)“AI新榜”觀察，無論是從OpenAI官方發(fā)布的Blog、Demo還是網(wǎng)友實測來看，復(fù)雜推理簡直是o1的舒適區(qū)，在編程能力、數(shù)學(xué)計算上幾乎碾壓其他模型。

現(xiàn)在，ChatGPT Plus和Team用戶可以在對話時手動選擇o1-preview和o1-mini模型。

值得一提的是，o1-preview每周的消息限制為30條，o1-mini的周上限為50條。

在復(fù)雜邏輯推理方面，OpenAI讓GPT-4o和o1同時參加了國際數(shù)學(xué)奧林匹克競賽資格選拔的AIME考試。結(jié)果顯示，GPT-4o僅能正確解答13%的問題，而o1的準(zhǔn)確率則高達(dá)83%，是4o的近8倍。

在官方Demo中，o1在面對下面這個難題時，只思考了約30秒的時間，就給出了正確的答案。

更關(guān)鍵的是，o1還會通過“我很好奇”、“我正在思考”和“好的，讓我看看”等語句，給人一種它正在一步一步思考的過程，很像人類做題時的推理步驟。

我們也丟了個復(fù)雜的邏輯問題給o1:

同樣是用了約30s的時間，o1就給出了滴水不漏的分析和正確答案。

有網(wǎng)友跟o1玩24點(diǎn)游戲，發(fā)現(xiàn)它可以十分穩(wěn)定準(zhǔn)確地求解。相比之下，GPT-4o則表現(xiàn)得一塌糊涂。

你甚至可以讓它幫忙出考研高數(shù)題，從而實現(xiàn)舉一反三，觸類旁通:

圖源即刻“希漢同學(xué)”

不過，雖然o1數(shù)學(xué)計算和邏輯推理能力很強(qiáng)，卻偶爾會在一些相對簡單的問題上栽跟頭。

比如這道“平方數(shù)在7和17間的最小整數(shù)是多少?”就沒能給出正確答案。

再來看看它的編程能力。

一位有著16年全棧經(jīng)驗的程序員，在試過用o1寫代碼后，直接宣告自己的編程生涯結(jié)束了。

只見他的電腦屏幕上，o1正在快速生成一個全棧原生應(yīng)用程序的代碼。

在OpenAI發(fā)布的視頻演示里，演示者先是讓o1寫一個貪吃蛇網(wǎng)頁游戲，這種小case可能不算什么，緊接著演示者提升難度，讓它在網(wǎng)格中添加障礙物，并且使障礙物連成“AI”的形狀，照樣沒能難倒它。

還有網(wǎng)友將o1和前不久爆火的編程神器Cursor結(jié)合，在10分鐘內(nèi)創(chuàng)建了一個iOS天氣應(yīng)用程序。

而在此之前，Claude Sonnet3.5通常被很多人當(dāng)作Cursor的強(qiáng)力搭檔。

還是那道經(jīng)典的“單詞Strawberry里有幾個r”，這個簡單的問題曾難倒包括GPT-4o在內(nèi)的不少大模型，但在o1面前已然成了小兒科。

不過，o1的發(fā)揮看起來不是那么穩(wěn)定，也有數(shù)錯的情況。

o1很強(qiáng)，但純文本模型還吸引人嗎?

在各家卷多模態(tài)模型的時候，OpenAI既沒有兌付自己的語音功能，更是將Sora早早拋在腦后了。眼下，還發(fā)了一款純文本模型。

相信上述的實測和玩法，已經(jīng)為大家解答了“OpenAI o1模型究竟強(qiáng)在哪”這個問題。

o1模型不需要額外提示，它就能自行推理和反思自己的解答過程，將復(fù)雜問題一步步拆解開來，清晰地展示了自己思考的過程。

比如，o1在寫代碼前會梳理一遍問題，列出相關(guān)知識點(diǎn)和步驟，然后開始逐行寫代碼，并完成代碼測試。

有網(wǎng)友調(diào)侃，OpenAI o1來了，Claude3.5、Cursor等以編程能力見長的熱門AI工具可以放一邊了。

Jimmy Apples發(fā)文表示，OpenAI故事第二章Straberry Fields終于開啟。

英偉達(dá)首席研究員Jim Fan認(rèn)為，o1的意義在于，AI團(tuán)隊不再只是通過增加模型規(guī)模來提升模型表現(xiàn)，而是通過優(yōu)化推理過程。

全網(wǎng)的科技大佬們面對新模型，都是興奮難抑的狀態(tài)，但對于我們普通人的日常使用來說，o1的作用其實不是特別明顯。

科技博主“特工宇宙”提到，客觀來講，o1的科研價值遠(yuǎn)大于當(dāng)下的使用價值。我們也許會更受益于OpenAI o1開發(fā)的新軟件、新藥物，而不是o1本身。

可以說，o1的意義更像是展現(xiàn)AI變強(qiáng)的可能性，但對于大多數(shù)用戶來說，o1的更新僅僅是在底層模型上進(jìn)行優(yōu)化迭代，實際好用好玩的AI工具會更吸引人。

所以，也架不住大多數(shù)網(wǎng)友在評論區(qū)在線開催Sam Altman:“我們什么時候能得到新的語音功能??”

另外，目前的o1系列模型還只是預(yù)覽版本，像GPT-4o擁有的長文本、網(wǎng)絡(luò)插件、生成圖片等功能，均未集成到o1中。

在定價上，o1也并不是經(jīng)濟(jì)適用的選擇。對于開發(fā)者而言，o1-preview 的定價為15美元/百萬輸入token，60美元/百萬輸出token，遠(yuǎn)高于GPT-4o（5美元/百萬輸入token，15美元/百萬輸出token）的定價。

總的來說，GPT-4o依舊是OpenAI能力最強(qiáng)的模型。也有博主在X上提到:“普通人根本不理解大象的推理和邏輯能力。GPT-5還要比o1模型更強(qiáng)大69倍?！?/p>

這也讓人好奇，即將到來的OpenAI開發(fā)者日會帶來怎樣的更新，遲遲未來的“GPT-5”是否還會制造驚喜?

以上就是關(guān)于【16年老程序員當(dāng)場“退休”，OpenAI o1這么強(qiáng)嗎？】的相關(guān)內(nèi)容，希望對大家有幫助！

標(biāo)簽： 16年老程序員當(dāng)場“退休”，OpenAI o1這么強(qiáng)嗎？

　　免責(zé)聲明：本文由用戶上傳，與本網(wǎng)站立場無關(guān)。財經(jīng)信息僅供讀者參考，并不構(gòu)成投資建議。投資者據(jù)此操作，風(fēng)險自擔(dān)。如有侵權(quán)請聯(lián)系刪除！

相關(guān)閱讀

最新亚洲人成无码网站,夜夜操夜夜操夜夜爽,中文字日产幕乱五区,在线成人看片黄a免费看,亚洲自偷自拍另类11p

16年老程序員當(dāng)場“退休”，OpenAI o1這么強(qiáng)嗎？

16年老程序員當(dāng)場“退休”，OpenAI o1這么強(qiáng)嗎？