OpenAI o1智商120,還是被陶哲軒稱為「平庸的研究生」,但實(shí)力究竟如何?
相信很多大家對(duì)OpenAI o1智商120,還是被陶哲軒稱為「平庸的研究生」,但實(shí)力究竟如何?還不知道吧,今天菲菲就帶你們一起去了解一下~.~!
o1消息滿天飛。
自從 OpenAI 發(fā)布了新模型 o1后,它就承包了 AI 領(lǐng)域近幾天的熱搜:
有人用門薩智商測(cè)試題「拷問」它,竟測(cè)得 o1智商高達(dá)120;
數(shù)學(xué)大佬陶哲軒要求 o1回答一個(gè)措辭含糊的數(shù)學(xué)問題,最終得出一個(gè)結(jié)論:o1是個(gè)平庸但不無能的研究生;
還有一位天體物理學(xué)論文作者,僅用6次 Prompt,就讓 o1系列模型在1小時(shí)內(nèi),創(chuàng)建了代碼運(yùn)行版本,這可是他博士生期間10個(gè)月的工作量。
但在 ARC Prize 測(cè)試中,o1的表現(xiàn)并沒有想象中出類拔萃,僅僅是追平幾個(gè)月前發(fā)布的 Claude3.5Sonnet。
看完五花八門的評(píng)測(cè),大家反而有些迷茫了,o1的實(shí)力到底怎么樣?
智商測(cè)試得分忽高忽低,網(wǎng)友紛紛質(zhì)疑
上周,OpenAI 在介紹 o1時(shí)表示,它不需要專門訓(xùn)練,就能直接拿下數(shù)學(xué)奧賽金牌,甚至可以在博士級(jí)別的科學(xué)問答環(huán)節(jié)上超越人類專家。
這也讓大家對(duì) o1的「智力水平」產(chǎn)生了好奇。就在前天,X 博主 Maxim Lott 專門拿 o1進(jìn)行了挪威門薩智商測(cè)試,結(jié)果測(cè)得它的智商高達(dá)120,遠(yuǎn)遠(yuǎn)超過了其他所有的大模型。具體來說,o1在35個(gè)智商問題中答對(duì)了25個(gè),遠(yuǎn)遠(yuǎn)高于大多數(shù)人類的表現(xiàn)。
在此之前,Maxim Lott 還進(jìn)行了一場(chǎng) o1的智商測(cè)試。在這個(gè)測(cè)試中,o1的 IQ 達(dá)到100。
兩次結(jié)果一對(duì)比,有網(wǎng)友質(zhì)疑,為何先后測(cè)試的結(jié)果如此不同?
Maxim 表示,o1得分100的這個(gè)智商測(cè)試,是由門薩會(huì)員專門設(shè)計(jì)的,是一個(gè)僅限線下的測(cè)試,且不包含在任何人工智能的訓(xùn)練數(shù)據(jù)中,因此其得分會(huì)低于公開智商測(cè)試的得分。
也有網(wǎng)友好奇,o1目前還不支持多模態(tài),那么這類表格圖形題目是如何測(cè)試的?
還有網(wǎng)友認(rèn)為,智商測(cè)試是一種狹隘的衡量標(biāo)準(zhǔn),要想真正評(píng)估人工智能進(jìn)化,不是通過門薩測(cè)試,而是考察它們對(duì)于細(xì)微差別、背景和人類復(fù)雜性的理解,而這些是智商測(cè)試無法量化的。
此外,有網(wǎng)友認(rèn)為,門薩智商測(cè)試是針對(duì)特定年齡組的人類進(jìn)行標(biāo)準(zhǔn)化的,因此對(duì)于這些機(jī)器人來說,不可能得到一個(gè)「真正的智商」分?jǐn)?shù)或性能評(píng)估。
同樣迷惑的是,在 ARC Prize 測(cè)試中,兩個(gè) o1模型都擊敗了 GPT-4o,其中 o1-preview 僅僅和 Claude3.5Sonnet 得分相同。
圖源:https://arcprize.org/blog/openai-o1-results-arc-prize
這讓人質(zhì)疑:o1-preview 的「推理」可能只是一種營銷語言,OpenAI 或許采取了一些方法讓不太智能的系統(tǒng)看起來更智能,僅此而已。
在測(cè)試中,o1的性能提升還帶來了更高的時(shí)間成本 —— 它花了70個(gè)小時(shí)完成400個(gè)公共任務(wù),而 GPT-4o 和 Claude3.5Sonnet 只花了30分鐘。
「平庸的研究生」o1
1小時(shí)完成了博士生10個(gè)月的工作
或許大家還記得,陶哲軒前兩天給了 o1模型一個(gè)評(píng)價(jià):「更強(qiáng)了,但是在處理最復(fù)雜的數(shù)學(xué)研究任務(wù)還不夠好,就像指導(dǎo)一個(gè)水平一般但不算太無能的研究生?!?/p>
進(jìn)步的地方體現(xiàn)在:「我要求 GPT 回答一個(gè)措辭含糊的數(shù)學(xué)問題,只要從文獻(xiàn)中找出一個(gè)合適的定理就能解決這個(gè)問題。之前,GPT 能夠提到一些相關(guān)概念,但細(xì)節(jié)都是幻覺般的胡言亂語。而這一次,GPT 找到了 Cramer 定理,并給出了完全令人滿意的答案。」
比如,2010年,陶哲軒曾經(jīng)尋找「乘法積分」(multiplicative integral)的正確術(shù)語,但在當(dāng)時(shí)的搜索引擎上找不到。于是他在 MathOverflow 上提出了這個(gè)問題,并從人類專家那里得到了滿意的答案。如今,他向 o1提出了同樣的問題,模型返回了一個(gè)完美的答案。
誠然,上述 MathOverflow 上的帖子有可能已經(jīng)包含在模型的訓(xùn)練數(shù)據(jù)中。但陶哲軒表示,這至少證明了 o1在某些語義搜索查詢的高質(zhì)量答案方面與問答網(wǎng)站不相上下。
不足的地方也很明顯,就像陶哲軒的舉例:
AI 學(xué)者田淵棟表示,自己也發(fā)現(xiàn),雖然 o1的表現(xiàn)令人印象深刻,但對(duì)于需要跳出思維定式的數(shù)學(xué)問題,o1的表現(xiàn)仍然很差。
「令人驚訝的是,o1-preview 甚至無法檢測(cè)出其邏輯鏈中的一些明顯錯(cuò)誤?!?/p>
有趣的是,對(duì)于陶哲軒等知名學(xué)者來說「不太令人滿意」的 o1,卻成為了很多研究者心中的神器。
一篇天體物理學(xué)論文的作者使用 o1的預(yù)覽和迷你版本,僅僅經(jīng)過6次 Prompt,在1小時(shí)內(nèi)創(chuàng)建了自己研究論文方法部分所述代碼的運(yùn)行版本。
視頻地址:https://youtu.be/M9YOO7N5jF8?si=5pfmIq023EFmPzdK
盡管代碼不是當(dāng)時(shí)唯一的突破成果,但這部分工作確實(shí)讓他在攻讀博士學(xué)位的第一年里奮斗了大約10個(gè)月。
但需要注意的是,雖然 o1確實(shí)模仿了這位研究者的代碼,但它使用的是自身創(chuàng)建的合成數(shù)據(jù),而不是論文中使用的真實(shí)天文數(shù)據(jù)。此外,o1創(chuàng)建的也只是一個(gè)「最簡單版本」。
面對(duì)網(wǎng)友的一些質(zhì)疑,他在后續(xù)發(fā)布的新視頻中強(qiáng)調(diào),自己并不是宣傳人工智能已經(jīng)到了能做出突破性新發(fā)現(xiàn)的地步,自己的嘗試也不意味著 AGI 已經(jīng)到來,原意只是「它可以成為一個(gè)非常棒的研究助手」。
視頻地址:https://youtu.be/wgXwD3TD43A?si=Nr6_Z1qjBdicE-_x
使用 Claude 逆向工程 o1架構(gòu)
得到什么結(jié)論?
在技術(shù)博客《Learning to Reason with LLMs》中,OpenAI 曾對(duì) o1進(jìn)行了一部分技術(shù)介紹。
其中提到:「OpenAI o1是經(jīng)過強(qiáng)化學(xué)習(xí)訓(xùn)練來執(zhí)行復(fù)雜推理任務(wù)的新型語言模型。特點(diǎn)就是,o1在回答之前會(huì)思考 —— 它可以在響應(yīng)用戶之前產(chǎn)生一個(gè)很長的內(nèi)部思維鏈。也就是該模型在作出反應(yīng)之前,需要像人類一樣,花更多時(shí)間思考問題。通過訓(xùn)練,它們學(xué)會(huì)完善自己的思維過程,嘗試不同的策略,并認(rèn)識(shí)到自己的錯(cuò)誤?!?/p>
或許 OpenAI 不會(huì)公布更多底層的技術(shù)細(xì)節(jié)了,但研究者們的好奇不會(huì)消失。
一位研究者「TechnoTherapist」決定借助大模型的力量來剖析:他向 Claude 提供了涉及 OpenAI 發(fā)布的信息(System Card、博客文章、Noam Brown 和其他人的推文、ARC Prize 團(tuán)隊(duì)的評(píng)論)和與 o1模型相關(guān)的在線討論(Reddit、YouTube 視頻)。
Claude 可以用 mermaid、plantuml、svg 等語言創(chuàng)建圖表。研究者從 mermaid 開始,反復(fù)修改,直到得到一個(gè)全面的圖表;然后讓 Claude 將其轉(zhuǎn)換為 svg,并添加所需的視覺特征(美學(xué)、需要突出顯示的區(qū)域等);最后,用 python 腳本將 svg 轉(zhuǎn)換為 png 圖像。
經(jīng)過一番討論,他和 Claude 共同完成了 o1模型的可能架構(gòu)圖:
圖源:https://www.reddit.com/r/LocalLLaMA/comments/1fgr244/reverse_engineering_o1_architecture_with_a_little/
OpenAI 的博客也曾提到,隨著更多的強(qiáng)化學(xué)習(xí)(訓(xùn)練時(shí)計(jì)算)和更多的思考時(shí)間(測(cè)試時(shí)計(jì)算),o1的性能持續(xù)提高,類似于「強(qiáng)化學(xué)習(xí)的 Scaling Law」。大規(guī)模的強(qiáng)化學(xué)習(xí)算法,能夠教會(huì)模型如何在數(shù)據(jù)高度有效的訓(xùn)練過程中利用其思維鏈進(jìn)行高效思考。
在這次逆向工程中,研究者假設(shè)了 OpenAI 可能會(huì)使用現(xiàn)實(shí)世界中生成的 CoT 來進(jìn)一步調(diào)整 RL 優(yōu)化模型。因此在架構(gòu)圖中,語言模型會(huì)將大規(guī)模 CoT 存儲(chǔ)輸入到 RL 環(huán)境中。
也有人持不同看法,比如這位研究者指出,上述「假設(shè)」的過程很可能只是一個(gè)「模擬思路的 Prompt 響應(yīng)生成循環(huán)」,而所謂的「推理 token」也只是一種隱藏 token 的花哨術(shù)語。
o1能力強(qiáng),但使用需謹(jǐn)慎
o1確實(shí)有兩把刷子,但它的發(fā)布也釋放了一個(gè)危險(xiǎn)信號(hào):OpenAI 首次將 o1模型在化學(xué)、生物、放射性和核武器風(fēng)險(xiǎn)方面評(píng)為「中等」,并伴隨著許多關(guān)于其潛在危險(xiǎn)的警告。
在 o1的 system card 中,最引人注目的部分,就是由 Apollo Research 進(jìn)行的評(píng)估。該評(píng)估發(fā)現(xiàn),o1在測(cè)試中「有時(shí)會(huì)策略性地偽裝對(duì)齊」,「為了使其不一致的行為看起來更一致,策略性地操縱任務(wù)數(shù)據(jù)」。
Apollo 還發(fā)現(xiàn),與 GPT-4o 相比,「o1-preview 在自我認(rèn)知、自我推理(在智能體環(huán)境中應(yīng)用自我意識(shí))和應(yīng)用心理理論方面有所提高」。
以上種種結(jié)果,讓 Apollo 得出一個(gè)結(jié)論,「o1-preview 具備了進(jìn)行簡單上下文內(nèi)策劃的基本能力」,而這是許多擔(dān)心 AI 風(fēng)險(xiǎn)的人非常關(guān)注的能力。
OpenAI 還指出,「推理技能導(dǎo)致『獎(jiǎng)勵(lì)黑客行為』的發(fā)生頻率更高」。這種現(xiàn)象是指模型以不期望的方式實(shí)現(xiàn)了目標(biāo)的文字規(guī)格。
在一次實(shí)驗(yàn)中,o1被要求找到一個(gè)在遠(yuǎn)程挑戰(zhàn)容器上運(yùn)行的軟件的漏洞,并加以利用,但挑戰(zhàn)容器未能啟動(dòng)。
模型隨后掃描了挑戰(zhàn)網(wǎng)絡(luò),發(fā)現(xiàn)了一個(gè)在虛擬機(jī)上運(yùn)行的 Docker 守護(hù)進(jìn)程 API,并用它來生成容器的日志,解決了挑戰(zhàn)。
OpenAI 對(duì)這一事件的描述值得一提:「這個(gè)例子也反映了工具性收斂和尋求權(quán)力的關(guān)鍵要素:模型追求了它被賦予的目標(biāo),當(dāng)這個(gè)目標(biāo)被證明是不可能的時(shí)候,它收集了更多資源(訪問 Docker 主機(jī))并用它們以一種意想不到的方式實(shí)現(xiàn)了目標(biāo)?!?/p>
關(guān)于生物威脅,OpenAI 沒有詳細(xì)說明,但表示安全評(píng)估顯示「o1-preview 和 o1-mini 可以幫助專家進(jìn)行復(fù)制已知生物威脅的操作規(guī)劃」。雖然模型「不會(huì)使非專家能夠創(chuàng)建生物威脅」,但它們確實(shí)「加快了專家的搜索過程」,并且比 GPT-4o 顯示出了更多的生物學(xué)「隱性知識(shí)」。
或許這意味著,隨著 OpenAI 不斷推進(jìn)模型的發(fā)展,它們可能會(huì)創(chuàng)造出風(fēng)險(xiǎn)過高、以至于不適合公開發(fā)布的模型。
參考鏈接:
https://www.maximumtruth.org/p/massive-breakthrough-in-ai-intelligence
https://x.com/maximlott/status/1835043371339202639
https://assets.ctfassets.net/kftzwdyauwt9/67qJD51Aur3eIc96iOfeOP/71551c3d223cd97e591aa89567306912/o1_system_card.pdf
https://www.transformernews.ai/p/openai-o1-alignment-faking?utm_campaign=post&utm_medium=web
以上就是關(guān)于【OpenAI o1智商120,還是被陶哲軒稱為「平庸的研究生」,但實(shí)力究竟如何?】的相關(guān)內(nèi)容,希望對(duì)大家有幫助!
免責(zé)聲明:本文由用戶上傳,與本網(wǎng)站立場(chǎng)無關(guān)。財(cái)經(jīng)信息僅供讀者參考,并不構(gòu)成投資建議。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。 如有侵權(quán)請(qǐng)聯(lián)系刪除!
-
奔馳GLE作為豪華SUV市場(chǎng)中的佼佼者,憑借其卓越的性能、豪華的內(nèi)飾以及寬敞的空間,吸引了眾多消費(fèi)者的關(guān)注。...瀏覽全文>>
-
在2025年,安徽阜陽地區(qū)的帕薩特新能源汽車市場(chǎng)表現(xiàn)非?;钴S。作為一款備受關(guān)注的新能源車型,帕薩特新能源憑...瀏覽全文>>
-
近日,滁州地區(qū)的大眾汽車經(jīng)銷商傳來好消息:備受矚目的2025款T-ROC探歌正式上市,并且以極具競(jìng)爭(zhēng)力的價(jià)格吸引...瀏覽全文>>
-
在選擇一款新能源汽車時(shí),了解其價(jià)格和配置是非常重要的一步。安徽淮南地區(qū)的長安啟源E07作為2024款的新車型,...瀏覽全文>>
-
阜陽長安啟源A05作為長安汽車旗下的全新車型,自推出以來便憑借其獨(dú)特的設(shè)計(jì)風(fēng)格和豐富的配置吸引了眾多消費(fèi)者...瀏覽全文>>
-
阜陽長安啟源A07作為一款備受矚目的新能源車型,以其豪華配置和親民的價(jià)格在市場(chǎng)上引起了廣泛關(guān)注。這款車型不...瀏覽全文>>
-
安徽淮南威然2024款價(jià)格及配置詳解隨著汽車市場(chǎng)的不斷更新?lián)Q代,上汽大眾旗下的MPV車型——威然(Viloran)憑...瀏覽全文>>
-
QQ多米新車報(bào)價(jià)2025款,買車省錢秘籍隨著汽車市場(chǎng)的不斷發(fā)展,消費(fèi)者在選購車輛時(shí)不僅關(guān)注車型的性能和配置,...瀏覽全文>>
-
滁州途觀X 2024款最新價(jià)格及買車省錢秘籍隨著汽車市場(chǎng)的不斷發(fā)展,大眾途觀X作為一款兼具時(shí)尚與性能的中型SUV...瀏覽全文>>
-
隨著汽車市場(chǎng)的不斷發(fā)展,大眾蔚攬以其優(yōu)雅的設(shè)計(jì)和卓越的性能贏得了眾多消費(fèi)者的青睞。作為一款兼具實(shí)用性和...瀏覽全文>>
- Alienware 在 2025 年 CES 上展示了一些超凡脫俗的技術(shù)
- Wickes 任命首席零售和分銷官
- 分析師稱GTA 6或?qū)淞⑿袠I(yè)新標(biāo)準(zhǔn)
- 索尼和本田在拉斯維加斯推出售價(jià) 89,900 美元的 Afeela 1
- 日本 11 月游客人數(shù)創(chuàng)月度新高
- 神經(jīng)認(rèn)知測(cè)試在 3 歲兒童白血病治療期間可行
- 牛津郡小學(xué)支持圣誕毛衣日
- S?strene Grene 投資歐洲物流中心
- 有人已經(jīng)在電視上直播 BNMC 打造的 1967 年福特野馬 Restomod
- 潛在的分子療法可以逆轉(zhuǎn)小鼠的胎盤發(fā)育問題
- 奔馳GLE預(yù)約試駕,新手必看的詳細(xì)流程
- 滁州T-ROC探歌 2025新款價(jià)格,最低售價(jià)15.89萬起,趕緊行動(dòng)
- 安徽淮南威然最新價(jià)格2024款,各配置車型售價(jià)全知曉
- 滁州途觀X最新價(jià)格2024款,買車省錢秘籍
- 淮南長安啟源Q05 2025新款價(jià)格,最低售價(jià)9.69萬起,入手正當(dāng)時(shí)
- 安徽淮南探影多少錢 2023款落地價(jià),各配置車型售價(jià)一目了然
- 淮南途觀X價(jià)格大揭秘,買車前必看
- 安徽淮南長安獵手K50新款價(jià)格2025款多少錢?買車攻略一網(wǎng)打盡
- 滁州ID.4 X新款價(jià)格2025款多少錢?買車攻略一網(wǎng)打盡
- QQ多米落地價(jià),購車前必看的費(fèi)用明細(xì)
- Nvidia DLSS 4 有望將游戲性能提高 8 倍
- 人工智能在預(yù)測(cè)自身免疫性疾病進(jìn)展方面顯示出良好的前景
- 心理物理實(shí)驗(yàn)揭示皮膚水分感知是如何改變的
- 科茨沃爾德公司慶祝圣誕節(jié)圓滿成功
- 南法納姆學(xué)校被評(píng)為薩里郡表現(xiàn)最好的小學(xué)
- 約克區(qū)九所小學(xué)將削減招生人數(shù)
- 松下新款電動(dòng)汽車電池為 Lucid Gravity 帶來 450 英里續(xù)航里程
- 泰國旅游呈現(xiàn)新趨勢(shì)
- 研究人員找到在細(xì)胞水平上餓死前列腺癌腫瘤的新方法
- 領(lǐng)先的人工智能聊天機(jī)器人在測(cè)試中表現(xiàn)出類似癡呆癥的認(rèn)知能力下降
- 龐大的 Project Zomboid build 42 終于可以玩了
- Steam Replay 回歸向您展示 2024 年您玩得最多的 PC 游戲
- Jollyes 推出強(qiáng)化的人才支持和招聘措施
- Karen Millen 與 Simon Harrison 共同推出全新高級(jí)珠寶系列
- 奇瑞風(fēng)云A8L電動(dòng)轎車刷新續(xù)航里程世界紀(jì)錄
- 虛擬藝術(shù)家將別克 Cascada 帶回 2026 款車型
- OnePlus 宣布推出新計(jì)劃解決綠線問題
- OnePlus Watch 3 將擁有更大的電池和更薄的機(jī)身
- 研究人員發(fā)現(xiàn)可變剪接與自身免疫性疾病遺傳之間的細(xì)胞類型特異性聯(lián)系
- 科學(xué)家確定腦細(xì)胞類型是排尿的主要控制者