首頁(yè) >> 今日更新 >

OpenAI o1智商120，還是被陶哲軒稱為「平庸的研究生」，但實(shí)力究竟如何？

2024-09-18 09:00:11 來(lái)源：用戶：

相信很多大家對(duì)OpenAI o1智商120，還是被陶哲軒稱為「平庸的研究生」，但實(shí)力究竟如何？還不知道吧，今天菲菲就帶你們一起去了解一下~.~！

o1消息滿天飛。

自從 OpenAI 發(fā)布了新模型 o1后，它就承包了 AI 領(lǐng)域近幾天的熱搜:

有人用門薩智商測(cè)試題「拷問」它，竟測(cè)得 o1智商高達(dá)120;

數(shù)學(xué)大佬陶哲軒要求 o1回答一個(gè)措辭含糊的數(shù)學(xué)問題，最終得出一個(gè)結(jié)論:o1是個(gè)平庸但不無(wú)能的研究生;

還有一位天體物理學(xué)論文作者，僅用6次 Prompt，就讓 o1系列模型在1小時(shí)內(nèi)，創(chuàng)建了代碼運(yùn)行版本，這可是他博士生期間10個(gè)月的工作量。

但在 ARC Prize 測(cè)試中，o1的表現(xiàn)并沒有想象中出類拔萃，僅僅是追平幾個(gè)月前發(fā)布的 Claude3.5Sonnet。

看完五花八門的評(píng)測(cè)，大家反而有些迷茫了，o1的實(shí)力到底怎么樣?

智商測(cè)試得分忽高忽低，網(wǎng)友紛紛質(zhì)疑

上周，OpenAI 在介紹 o1時(shí)表示，它不需要專門訓(xùn)練，就能直接拿下數(shù)學(xué)奧賽金牌，甚至可以在博士級(jí)別的科學(xué)問答環(huán)節(jié)上超越人類專家。

這也讓大家對(duì) o1的「智力水平」產(chǎn)生了好奇。就在前天，X 博主 Maxim Lott 專門拿 o1進(jìn)行了挪威門薩智商測(cè)試，結(jié)果測(cè)得它的智商高達(dá)120，遠(yuǎn)遠(yuǎn)超過了其他所有的大模型。具體來(lái)說(shuō)，o1在35個(gè)智商問題中答對(duì)了25個(gè)，遠(yuǎn)遠(yuǎn)高于大多數(shù)人類的表現(xiàn)。

在此之前，Maxim Lott 還進(jìn)行了一場(chǎng) o1的智商測(cè)試。在這個(gè)測(cè)試中，o1的 IQ 達(dá)到100。

兩次結(jié)果一對(duì)比，有網(wǎng)友質(zhì)疑，為何先后測(cè)試的結(jié)果如此不同?

Maxim 表示，o1得分100的這個(gè)智商測(cè)試，是由門薩會(huì)員專門設(shè)計(jì)的，是一個(gè)僅限線下的測(cè)試，且不包含在任何人工智能的訓(xùn)練數(shù)據(jù)中，因此其得分會(huì)低于公開智商測(cè)試的得分。

也有網(wǎng)友好奇，o1目前還不支持多模態(tài)，那么這類表格圖形題目是如何測(cè)試的?

還有網(wǎng)友認(rèn)為，智商測(cè)試是一種狹隘的衡量標(biāo)準(zhǔn)，要想真正評(píng)估人工智能進(jìn)化，不是通過門薩測(cè)試，而是考察它們對(duì)于細(xì)微差別、背景和人類復(fù)雜性的理解，而這些是智商測(cè)試無(wú)法量化的。

此外，有網(wǎng)友認(rèn)為，門薩智商測(cè)試是針對(duì)特定年齡組的人類進(jìn)行標(biāo)準(zhǔn)化的，因此對(duì)于這些機(jī)器人來(lái)說(shuō)，不可能得到一個(gè)「真正的智商」分?jǐn)?shù)或性能評(píng)估。

同樣迷惑的是，在 ARC Prize 測(cè)試中，兩個(gè) o1模型都擊敗了 GPT-4o，其中 o1-preview 僅僅和 Claude3.5Sonnet 得分相同。

圖源:https://arcprize.org/blog/openai-o1-results-arc-prize

這讓人質(zhì)疑:o1-preview 的「推理」可能只是一種營(yíng)銷語(yǔ)言，OpenAI 或許采取了一些方法讓不太智能的系統(tǒng)看起來(lái)更智能，僅此而已。

在測(cè)試中，o1的性能提升還帶來(lái)了更高的時(shí)間成本 —— 它花了70個(gè)小時(shí)完成400個(gè)公共任務(wù)，而 GPT-4o 和 Claude3.5Sonnet 只花了30分鐘。

「平庸的研究生」o1

1小時(shí)完成了博士生10個(gè)月的工作

或許大家還記得，陶哲軒前兩天給了 o1模型一個(gè)評(píng)價(jià):「更強(qiáng)了，但是在處理最復(fù)雜的數(shù)學(xué)研究任務(wù)還不夠好，就像指導(dǎo)一個(gè)水平一般但不算太無(wú)能的研究生?！?/p>

進(jìn)步的地方體現(xiàn)在:「我要求 GPT 回答一個(gè)措辭含糊的數(shù)學(xué)問題，只要從文獻(xiàn)中找出一個(gè)合適的定理就能解決這個(gè)問題。之前，GPT 能夠提到一些相關(guān)概念，但細(xì)節(jié)都是幻覺般的胡言亂語(yǔ)。而這一次，GPT 找到了 Cramer 定理，并給出了完全令人滿意的答案?！?/p>

比如，2010年，陶哲軒曾經(jīng)尋找「乘法積分」（multiplicative integral）的正確術(shù)語(yǔ)，但在當(dāng)時(shí)的搜索引擎上找不到。于是他在 MathOverflow 上提出了這個(gè)問題，并從人類專家那里得到了滿意的答案。如今，他向 o1提出了同樣的問題，模型返回了一個(gè)完美的答案。

誠(chéng)然，上述 MathOverflow 上的帖子有可能已經(jīng)包含在模型的訓(xùn)練數(shù)據(jù)中。但陶哲軒表示，這至少證明了 o1在某些語(yǔ)義搜索查詢的高質(zhì)量答案方面與問答網(wǎng)站不相上下。

不足的地方也很明顯，就像陶哲軒的舉例:

AI 學(xué)者田淵棟表示，自己也發(fā)現(xiàn)，雖然 o1的表現(xiàn)令人印象深刻，但對(duì)于需要跳出思維定式的數(shù)學(xué)問題，o1的表現(xiàn)仍然很差。

「令人驚訝的是，o1-preview 甚至無(wú)法檢測(cè)出其邏輯鏈中的一些明顯錯(cuò)誤?！?/p>

有趣的是，對(duì)于陶哲軒等知名學(xué)者來(lái)說(shuō)「不太令人滿意」的 o1，卻成為了很多研究者心中的神器。

一篇天體物理學(xué)論文的作者使用 o1的預(yù)覽和迷你版本，僅僅經(jīng)過6次 Prompt，在1小時(shí)內(nèi)創(chuàng)建了自己研究論文方法部分所述代碼的運(yùn)行版本。

視頻地址:https://youtu.be/M9YOO7N5jF8?si=5pfmIq023EFmPzdK

盡管代碼不是當(dāng)時(shí)唯一的突破成果，但這部分工作確實(shí)讓他在攻讀博士學(xué)位的第一年里奮斗了大約10個(gè)月。

但需要注意的是，雖然 o1確實(shí)模仿了這位研究者的代碼，但它使用的是自身創(chuàng)建的合成數(shù)據(jù)，而不是論文中使用的真實(shí)天文數(shù)據(jù)。此外，o1創(chuàng)建的也只是一個(gè)「最簡(jiǎn)單版本」。

面對(duì)網(wǎng)友的一些質(zhì)疑，他在后續(xù)發(fā)布的新視頻中強(qiáng)調(diào)，自己并不是宣傳人工智能已經(jīng)到了能做出突破性新發(fā)現(xiàn)的地步，自己的嘗試也不意味著 AGI 已經(jīng)到來(lái)，原意只是「它可以成為一個(gè)非常棒的研究助手」。

視頻地址:https://youtu.be/wgXwD3TD43A?si=Nr6_Z1qjBdicE-_x

使用 Claude 逆向工程 o1架構(gòu)

得到什么結(jié)論?

在技術(shù)博客《Learning to Reason with LLMs》中，OpenAI 曾對(duì) o1進(jìn)行了一部分技術(shù)介紹。

其中提到:「OpenAI o1是經(jīng)過強(qiáng)化學(xué)習(xí)訓(xùn)練來(lái)執(zhí)行復(fù)雜推理任務(wù)的新型語(yǔ)言模型。特點(diǎn)就是，o1在回答之前會(huì)思考 —— 它可以在響應(yīng)用戶之前產(chǎn)生一個(gè)很長(zhǎng)的內(nèi)部思維鏈。也就是該模型在作出反應(yīng)之前，需要像人類一樣，花更多時(shí)間思考問題。通過訓(xùn)練，它們學(xué)會(huì)完善自己的思維過程，嘗試不同的策略，并認(rèn)識(shí)到自己的錯(cuò)誤。」

或許 OpenAI 不會(huì)公布更多底層的技術(shù)細(xì)節(jié)了，但研究者們的好奇不會(huì)消失。

一位研究者「TechnoTherapist」決定借助大模型的力量來(lái)剖析:他向 Claude 提供了涉及 OpenAI 發(fā)布的信息（System Card、博客文章、Noam Brown 和其他人的推文、ARC Prize 團(tuán)隊(duì)的評(píng)論）和與 o1模型相關(guān)的在線討論(Reddit、YouTube 視頻)。

Claude 可以用 mermaid、plantuml、svg 等語(yǔ)言創(chuàng)建圖表。研究者從 mermaid 開始，反復(fù)修改，直到得到一個(gè)全面的圖表;然后讓 Claude 將其轉(zhuǎn)換為 svg，并添加所需的視覺特征（美學(xué)、需要突出顯示的區(qū)域等）;最后，用 python 腳本將 svg 轉(zhuǎn)換為 png 圖像。

經(jīng)過一番討論，他和 Claude 共同完成了 o1模型的可能架構(gòu)圖:

圖源:https://www.reddit.com/r/LocalLLaMA/comments/1fgr244/reverse_engineering_o1_architecture_with_a_little/

OpenAI 的博客也曾提到，隨著更多的強(qiáng)化學(xué)習(xí)（訓(xùn)練時(shí)計(jì)算）和更多的思考時(shí)間(測(cè)試時(shí)計(jì)算)，o1的性能持續(xù)提高，類似于「強(qiáng)化學(xué)習(xí)的 Scaling Law」。大規(guī)模的強(qiáng)化學(xué)習(xí)算法，能夠教會(huì)模型如何在數(shù)據(jù)高度有效的訓(xùn)練過程中利用其思維鏈進(jìn)行高效思考。

在這次逆向工程中，研究者假設(shè)了 OpenAI 可能會(huì)使用現(xiàn)實(shí)世界中生成的 CoT 來(lái)進(jìn)一步調(diào)整 RL 優(yōu)化模型。因此在架構(gòu)圖中，語(yǔ)言模型會(huì)將大規(guī)模 CoT 存儲(chǔ)輸入到 RL 環(huán)境中。

也有人持不同看法，比如這位研究者指出，上述「假設(shè)」的過程很可能只是一個(gè)「模擬思路的 Prompt 響應(yīng)生成循環(huán)」，而所謂的「推理 token」也只是一種隱藏 token 的花哨術(shù)語(yǔ)。

o1能力強(qiáng)，但使用需謹(jǐn)慎

o1確實(shí)有兩把刷子，但它的發(fā)布也釋放了一個(gè)危險(xiǎn)信號(hào):OpenAI 首次將 o1模型在化學(xué)、生物、放射性和核武器風(fēng)險(xiǎn)方面評(píng)為「中等」，并伴隨著許多關(guān)于其潛在危險(xiǎn)的警告。

在 o1的 system card 中，最引人注目的部分，就是由 Apollo Research 進(jìn)行的評(píng)估。該評(píng)估發(fā)現(xiàn)，o1在測(cè)試中「有時(shí)會(huì)策略性地偽裝對(duì)齊」，「為了使其不一致的行為看起來(lái)更一致，策略性地操縱任務(wù)數(shù)據(jù)」。

Apollo 還發(fā)現(xiàn)，與 GPT-4o 相比，「o1-preview 在自我認(rèn)知、自我推理（在智能體環(huán)境中應(yīng)用自我意識(shí)）和應(yīng)用心理理論方面有所提高」。

以上種種結(jié)果，讓 Apollo 得出一個(gè)結(jié)論，「o1-preview 具備了進(jìn)行簡(jiǎn)單上下文內(nèi)策劃的基本能力」，而這是許多擔(dān)心 AI 風(fēng)險(xiǎn)的人非常關(guān)注的能力。

OpenAI 還指出，「推理技能導(dǎo)致『獎(jiǎng)勵(lì)黑客行為』的發(fā)生頻率更高」。這種現(xiàn)象是指模型以不期望的方式實(shí)現(xiàn)了目標(biāo)的文字規(guī)格。

在一次實(shí)驗(yàn)中，o1被要求找到一個(gè)在遠(yuǎn)程挑戰(zhàn)容器上運(yùn)行的軟件的漏洞，并加以利用，但挑戰(zhàn)容器未能啟動(dòng)。

模型隨后掃描了挑戰(zhàn)網(wǎng)絡(luò)，發(fā)現(xiàn)了一個(gè)在虛擬機(jī)上運(yùn)行的 Docker 守護(hù)進(jìn)程 API，并用它來(lái)生成容器的日志，解決了挑戰(zhàn)。

OpenAI 對(duì)這一事件的描述值得一提:「這個(gè)例子也反映了工具性收斂和尋求權(quán)力的關(guān)鍵要素:模型追求了它被賦予的目標(biāo)，當(dāng)這個(gè)目標(biāo)被證明是不可能的時(shí)候，它收集了更多資源（訪問 Docker 主機(jī)）并用它們以一種意想不到的方式實(shí)現(xiàn)了目標(biāo)。」

關(guān)于生物威脅，OpenAI 沒有詳細(xì)說(shuō)明，但表示安全評(píng)估顯示「o1-preview 和 o1-mini 可以幫助專家進(jìn)行復(fù)制已知生物威脅的操作規(guī)劃」。雖然模型「不會(huì)使非專家能夠創(chuàng)建生物威脅」，但它們確實(shí)「加快了專家的搜索過程」，并且比 GPT-4o 顯示出了更多的生物學(xué)「隱性知識(shí)」。

或許這意味著，隨著 OpenAI 不斷推進(jìn)模型的發(fā)展，它們可能會(huì)創(chuàng)造出風(fēng)險(xiǎn)過高、以至于不適合公開發(fā)布的模型。

參考鏈接:

https://www.maximumtruth.org/p/massive-breakthrough-in-ai-intelligence

https://x.com/maximlott/status/1835043371339202639

https://assets.ctfassets.net/kftzwdyauwt9/67qJD51Aur3eIc96iOfeOP/71551c3d223cd97e591aa89567306912/o1_system_card.pdf

https://www.transformernews.ai/p/openai-o1-alignment-faking?utm_campaign=post&utm_medium=web

以上就是關(guān)于【OpenAI o1智商120，還是被陶哲軒稱為「平庸的研究生」，但實(shí)力究竟如何？】的相關(guān)內(nèi)容，希望對(duì)大家有幫助！

標(biāo)簽： OpenAI o1智商120，還是被陶哲軒稱為「平庸的研究生」，但實(shí)力究竟如何？

　　免責(zé)聲明：本文由用戶上傳，與本網(wǎng)站立場(chǎng)無(wú)關(guān)。財(cái)經(jīng)信息僅供讀者參考，并不構(gòu)成投資建議。投資者據(jù)此操作，風(fēng)險(xiǎn)自擔(dān)。如有侵權(quán)請(qǐng)聯(lián)系刪除！

相關(guān)閱讀

最新亚洲人成无码网站,夜夜操夜夜操夜夜爽,中文字日产幕乱五区,在线成人看片黄a免费看,亚洲自偷自拍另类11p

OpenAI o1智商120，還是被陶哲軒稱為「平庸的研究生」，但實(shí)力究竟如何？

OpenAI o1智商120，還是被陶哲軒稱為「平庸的研究生」，但實(shí)力究竟如何？