最新亚洲人成无码网站,夜夜操夜夜操夜夜爽,中文字日产幕乱五区,在线成人看片黄a免费看,亚洲自偷自拍另类11p

首頁 >> 今日更新 >

OpenAI o1智商120,還是被陶哲軒稱為「平庸的研究生」,但實(shí)力究竟如何?

2024-09-18 09:00:11 來源: 用戶: 

相信很多大家對(duì)OpenAI o1智商120,還是被陶哲軒稱為「平庸的研究生」,但實(shí)力究竟如何?還不知道吧,今天菲菲就帶你們一起去了解一下~.~!

o1消息滿天飛。

自從 OpenAI 發(fā)布了新模型 o1后,它就承包了 AI 領(lǐng)域近幾天的熱搜:

有人用門薩智商測(cè)試題「拷問」它,竟測(cè)得 o1智商高達(dá)120;

數(shù)學(xué)大佬陶哲軒要求 o1回答一個(gè)措辭含糊的數(shù)學(xué)問題,最終得出一個(gè)結(jié)論:o1是個(gè)平庸但不無能的研究生;

還有一位天體物理學(xué)論文作者,僅用6次 Prompt,就讓 o1系列模型在1小時(shí)內(nèi),創(chuàng)建了代碼運(yùn)行版本,這可是他博士生期間10個(gè)月的工作量。

但在 ARC Prize 測(cè)試中,o1的表現(xiàn)并沒有想象中出類拔萃,僅僅是追平幾個(gè)月前發(fā)布的 Claude3.5Sonnet。

看完五花八門的評(píng)測(cè),大家反而有些迷茫了,o1的實(shí)力到底怎么樣?

智商測(cè)試得分忽高忽低,網(wǎng)友紛紛質(zhì)疑

上周,OpenAI 在介紹 o1時(shí)表示,它不需要專門訓(xùn)練,就能直接拿下數(shù)學(xué)奧賽金牌,甚至可以在博士級(jí)別的科學(xué)問答環(huán)節(jié)上超越人類專家。

這也讓大家對(duì) o1的「智力水平」產(chǎn)生了好奇。就在前天,X 博主 Maxim Lott 專門拿 o1進(jìn)行了挪威門薩智商測(cè)試,結(jié)果測(cè)得它的智商高達(dá)120,遠(yuǎn)遠(yuǎn)超過了其他所有的大模型。具體來說,o1在35個(gè)智商問題中答對(duì)了25個(gè),遠(yuǎn)遠(yuǎn)高于大多數(shù)人類的表現(xiàn)。

在此之前,Maxim Lott 還進(jìn)行了一場(chǎng) o1的智商測(cè)試。在這個(gè)測(cè)試中,o1的 IQ 達(dá)到100。

兩次結(jié)果一對(duì)比,有網(wǎng)友質(zhì)疑,為何先后測(cè)試的結(jié)果如此不同?

Maxim 表示,o1得分100的這個(gè)智商測(cè)試,是由門薩會(huì)員專門設(shè)計(jì)的,是一個(gè)僅限線下的測(cè)試,且不包含在任何人工智能的訓(xùn)練數(shù)據(jù)中,因此其得分會(huì)低于公開智商測(cè)試的得分。

也有網(wǎng)友好奇,o1目前還不支持多模態(tài),那么這類表格圖形題目是如何測(cè)試的?

還有網(wǎng)友認(rèn)為,智商測(cè)試是一種狹隘的衡量標(biāo)準(zhǔn),要想真正評(píng)估人工智能進(jìn)化,不是通過門薩測(cè)試,而是考察它們對(duì)于細(xì)微差別、背景和人類復(fù)雜性的理解,而這些是智商測(cè)試無法量化的。

此外,有網(wǎng)友認(rèn)為,門薩智商測(cè)試是針對(duì)特定年齡組的人類進(jìn)行標(biāo)準(zhǔn)化的,因此對(duì)于這些機(jī)器人來說,不可能得到一個(gè)「真正的智商」分?jǐn)?shù)或性能評(píng)估。

同樣迷惑的是,在 ARC Prize 測(cè)試中,兩個(gè) o1模型都擊敗了 GPT-4o,其中 o1-preview 僅僅和 Claude3.5Sonnet 得分相同。

圖源:https://arcprize.org/blog/openai-o1-results-arc-prize

這讓人質(zhì)疑:o1-preview 的「推理」可能只是一種營銷語言,OpenAI 或許采取了一些方法讓不太智能的系統(tǒng)看起來更智能,僅此而已。

在測(cè)試中,o1的性能提升還帶來了更高的時(shí)間成本 —— 它花了70個(gè)小時(shí)完成400個(gè)公共任務(wù),而 GPT-4o 和 Claude3.5Sonnet 只花了30分鐘。

「平庸的研究生」o1

1小時(shí)完成了博士生10個(gè)月的工作

或許大家還記得,陶哲軒前兩天給了 o1模型一個(gè)評(píng)價(jià):「更強(qiáng)了,但是在處理最復(fù)雜的數(shù)學(xué)研究任務(wù)還不夠好,就像指導(dǎo)一個(gè)水平一般但不算太無能的研究生?!?/p>

進(jìn)步的地方體現(xiàn)在:「我要求 GPT 回答一個(gè)措辭含糊的數(shù)學(xué)問題,只要從文獻(xiàn)中找出一個(gè)合適的定理就能解決這個(gè)問題。之前,GPT 能夠提到一些相關(guān)概念,但細(xì)節(jié)都是幻覺般的胡言亂語。而這一次,GPT 找到了 Cramer 定理,并給出了完全令人滿意的答案。」

比如,2010年,陶哲軒曾經(jīng)尋找「乘法積分」(multiplicative integral)的正確術(shù)語,但在當(dāng)時(shí)的搜索引擎上找不到。于是他在 MathOverflow 上提出了這個(gè)問題,并從人類專家那里得到了滿意的答案。如今,他向 o1提出了同樣的問題,模型返回了一個(gè)完美的答案。

誠然,上述 MathOverflow 上的帖子有可能已經(jīng)包含在模型的訓(xùn)練數(shù)據(jù)中。但陶哲軒表示,這至少證明了 o1在某些語義搜索查詢的高質(zhì)量答案方面與問答網(wǎng)站不相上下。

不足的地方也很明顯,就像陶哲軒的舉例:

AI 學(xué)者田淵棟表示,自己也發(fā)現(xiàn),雖然 o1的表現(xiàn)令人印象深刻,但對(duì)于需要跳出思維定式的數(shù)學(xué)問題,o1的表現(xiàn)仍然很差。

「令人驚訝的是,o1-preview 甚至無法檢測(cè)出其邏輯鏈中的一些明顯錯(cuò)誤?!?/p>

有趣的是,對(duì)于陶哲軒等知名學(xué)者來說「不太令人滿意」的 o1,卻成為了很多研究者心中的神器。

一篇天體物理學(xué)論文的作者使用 o1的預(yù)覽和迷你版本,僅僅經(jīng)過6次 Prompt,在1小時(shí)內(nèi)創(chuàng)建了自己研究論文方法部分所述代碼的運(yùn)行版本。

視頻地址:https://youtu.be/M9YOO7N5jF8?si=5pfmIq023EFmPzdK

盡管代碼不是當(dāng)時(shí)唯一的突破成果,但這部分工作確實(shí)讓他在攻讀博士學(xué)位的第一年里奮斗了大約10個(gè)月。

但需要注意的是,雖然 o1確實(shí)模仿了這位研究者的代碼,但它使用的是自身創(chuàng)建的合成數(shù)據(jù),而不是論文中使用的真實(shí)天文數(shù)據(jù)。此外,o1創(chuàng)建的也只是一個(gè)「最簡單版本」。

面對(duì)網(wǎng)友的一些質(zhì)疑,他在后續(xù)發(fā)布的新視頻中強(qiáng)調(diào),自己并不是宣傳人工智能已經(jīng)到了能做出突破性新發(fā)現(xiàn)的地步,自己的嘗試也不意味著 AGI 已經(jīng)到來,原意只是「它可以成為一個(gè)非常棒的研究助手」。

視頻地址:https://youtu.be/wgXwD3TD43A?si=Nr6_Z1qjBdicE-_x

使用 Claude 逆向工程 o1架構(gòu)

得到什么結(jié)論?

在技術(shù)博客《Learning to Reason with LLMs》中,OpenAI 曾對(duì) o1進(jìn)行了一部分技術(shù)介紹。

其中提到:「OpenAI o1是經(jīng)過強(qiáng)化學(xué)習(xí)訓(xùn)練來執(zhí)行復(fù)雜推理任務(wù)的新型語言模型。特點(diǎn)就是,o1在回答之前會(huì)思考 —— 它可以在響應(yīng)用戶之前產(chǎn)生一個(gè)很長的內(nèi)部思維鏈。也就是該模型在作出反應(yīng)之前,需要像人類一樣,花更多時(shí)間思考問題。通過訓(xùn)練,它們學(xué)會(huì)完善自己的思維過程,嘗試不同的策略,并認(rèn)識(shí)到自己的錯(cuò)誤?!?/p>

或許 OpenAI 不會(huì)公布更多底層的技術(shù)細(xì)節(jié)了,但研究者們的好奇不會(huì)消失。

一位研究者「TechnoTherapist」決定借助大模型的力量來剖析:他向 Claude 提供了涉及 OpenAI 發(fā)布的信息(System Card、博客文章、Noam Brown 和其他人的推文、ARC Prize 團(tuán)隊(duì)的評(píng)論)和與 o1模型相關(guān)的在線討論(Reddit、YouTube 視頻)。

Claude 可以用 mermaid、plantuml、svg 等語言創(chuàng)建圖表。研究者從 mermaid 開始,反復(fù)修改,直到得到一個(gè)全面的圖表;然后讓 Claude 將其轉(zhuǎn)換為 svg,并添加所需的視覺特征(美學(xué)、需要突出顯示的區(qū)域等);最后,用 python 腳本將 svg 轉(zhuǎn)換為 png 圖像。

經(jīng)過一番討論,他和 Claude 共同完成了 o1模型的可能架構(gòu)圖:

圖源:https://www.reddit.com/r/LocalLLaMA/comments/1fgr244/reverse_engineering_o1_architecture_with_a_little/

OpenAI 的博客也曾提到,隨著更多的強(qiáng)化學(xué)習(xí)(訓(xùn)練時(shí)計(jì)算)和更多的思考時(shí)間(測(cè)試時(shí)計(jì)算),o1的性能持續(xù)提高,類似于「強(qiáng)化學(xué)習(xí)的 Scaling Law」。大規(guī)模的強(qiáng)化學(xué)習(xí)算法,能夠教會(huì)模型如何在數(shù)據(jù)高度有效的訓(xùn)練過程中利用其思維鏈進(jìn)行高效思考。

在這次逆向工程中,研究者假設(shè)了 OpenAI 可能會(huì)使用現(xiàn)實(shí)世界中生成的 CoT 來進(jìn)一步調(diào)整 RL 優(yōu)化模型。因此在架構(gòu)圖中,語言模型會(huì)將大規(guī)模 CoT 存儲(chǔ)輸入到 RL 環(huán)境中。

也有人持不同看法,比如這位研究者指出,上述「假設(shè)」的過程很可能只是一個(gè)「模擬思路的 Prompt 響應(yīng)生成循環(huán)」,而所謂的「推理 token」也只是一種隱藏 token 的花哨術(shù)語。

o1能力強(qiáng),但使用需謹(jǐn)慎

o1確實(shí)有兩把刷子,但它的發(fā)布也釋放了一個(gè)危險(xiǎn)信號(hào):OpenAI 首次將 o1模型在化學(xué)、生物、放射性和核武器風(fēng)險(xiǎn)方面評(píng)為「中等」,并伴隨著許多關(guān)于其潛在危險(xiǎn)的警告。

在 o1的 system card 中,最引人注目的部分,就是由 Apollo Research 進(jìn)行的評(píng)估。該評(píng)估發(fā)現(xiàn),o1在測(cè)試中「有時(shí)會(huì)策略性地偽裝對(duì)齊」,「為了使其不一致的行為看起來更一致,策略性地操縱任務(wù)數(shù)據(jù)」。

Apollo 還發(fā)現(xiàn),與 GPT-4o 相比,「o1-preview 在自我認(rèn)知、自我推理(在智能體環(huán)境中應(yīng)用自我意識(shí))和應(yīng)用心理理論方面有所提高」。

以上種種結(jié)果,讓 Apollo 得出一個(gè)結(jié)論,「o1-preview 具備了進(jìn)行簡單上下文內(nèi)策劃的基本能力」,而這是許多擔(dān)心 AI 風(fēng)險(xiǎn)的人非常關(guān)注的能力。

OpenAI 還指出,「推理技能導(dǎo)致『獎(jiǎng)勵(lì)黑客行為』的發(fā)生頻率更高」。這種現(xiàn)象是指模型以不期望的方式實(shí)現(xiàn)了目標(biāo)的文字規(guī)格。

在一次實(shí)驗(yàn)中,o1被要求找到一個(gè)在遠(yuǎn)程挑戰(zhàn)容器上運(yùn)行的軟件的漏洞,并加以利用,但挑戰(zhàn)容器未能啟動(dòng)。

模型隨后掃描了挑戰(zhàn)網(wǎng)絡(luò),發(fā)現(xiàn)了一個(gè)在虛擬機(jī)上運(yùn)行的 Docker 守護(hù)進(jìn)程 API,并用它來生成容器的日志,解決了挑戰(zhàn)。

OpenAI 對(duì)這一事件的描述值得一提:「這個(gè)例子也反映了工具性收斂和尋求權(quán)力的關(guān)鍵要素:模型追求了它被賦予的目標(biāo),當(dāng)這個(gè)目標(biāo)被證明是不可能的時(shí)候,它收集了更多資源(訪問 Docker 主機(jī))并用它們以一種意想不到的方式實(shí)現(xiàn)了目標(biāo)?!?/p>

關(guān)于生物威脅,OpenAI 沒有詳細(xì)說明,但表示安全評(píng)估顯示「o1-preview 和 o1-mini 可以幫助專家進(jìn)行復(fù)制已知生物威脅的操作規(guī)劃」。雖然模型「不會(huì)使非專家能夠創(chuàng)建生物威脅」,但它們確實(shí)「加快了專家的搜索過程」,并且比 GPT-4o 顯示出了更多的生物學(xué)「隱性知識(shí)」。

或許這意味著,隨著 OpenAI 不斷推進(jìn)模型的發(fā)展,它們可能會(huì)創(chuàng)造出風(fēng)險(xiǎn)過高、以至于不適合公開發(fā)布的模型。

參考鏈接:

https://www.maximumtruth.org/p/massive-breakthrough-in-ai-intelligence

https://x.com/maximlott/status/1835043371339202639

https://assets.ctfassets.net/kftzwdyauwt9/67qJD51Aur3eIc96iOfeOP/71551c3d223cd97e591aa89567306912/o1_system_card.pdf

https://www.transformernews.ai/p/openai-o1-alignment-faking?utm_campaign=post&utm_medium=web

以上就是關(guān)于【OpenAI o1智商120,還是被陶哲軒稱為「平庸的研究生」,但實(shí)力究竟如何?】的相關(guān)內(nèi)容,希望對(duì)大家有幫助!

  免責(zé)聲明:本文由用戶上傳,與本網(wǎng)站立場(chǎng)無關(guān)。財(cái)經(jīng)信息僅供讀者參考,并不構(gòu)成投資建議。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。 如有侵權(quán)請(qǐng)聯(lián)系刪除!

 
分享:
最新文章