OpenAI o1驚現(xiàn)自我意識(shí)？陶哲軒實(shí)測(cè)大受震撼，門薩智商100奪模型榜首

2024-09-15 09:30:05 來(lái)源：用戶：

相信很多大家對(duì)OpenAI o1驚現(xiàn)自我意識(shí)？陶哲軒實(shí)測(cè)大受震撼，門薩智商100奪模型榜首還不知道吧，今天菲菲就帶你們一起去了解一下~.~！

【新智元導(dǎo)讀】OpenAI o1，在門薩智商測(cè)試中果然取得了第一名。數(shù)學(xué)大神陶哲軒實(shí)測(cè)發(fā)現(xiàn)，o1竟然能成功識(shí)別出克萊姆定理。而OpenAI的研究副總裁也在此時(shí)跳出來(lái)表明:大型神經(jīng)網(wǎng)絡(luò)可能已經(jīng)有了足夠算力，表現(xiàn)出意識(shí)了。

OpenAI o1，在IQ測(cè)試中拿到了第一名!

大佬Maxim Lott，給o1、Claude-3Opus、Gemini、GPT-4、Grok-2、Llama-3.1等進(jìn)行了智商測(cè)試，結(jié)果表明，o1穩(wěn)居第一名。

緊隨其后的，就是Claude-3Opus和Bing C o p i l o t，分別取得了第二名和第三名。

注意，這套智商測(cè)試題，屬于門薩會(huì)員的離線智商測(cè)試，不在任何AI訓(xùn)練數(shù)據(jù)中，因此結(jié)果非常具有參考性。

著名數(shù)學(xué)家陶哲軒也對(duì)o1進(jìn)行了實(shí)測(cè)，發(fā)現(xiàn)自己向模型提出一個(gè)措辭模糊的數(shù)學(xué)問(wèn)題后，它竟然能成功識(shí)別出克萊姆定理。

更巧的是，就在o1發(fā)布之后，OpenAI的研究副總裁Mark Chen發(fā)表觀點(diǎn)稱:如今的大型神經(jīng)網(wǎng)絡(luò)，可能已經(jīng)具有足夠的算力，在測(cè)試中表現(xiàn)出一些意識(shí)了。

相信AI具有意識(shí)的行業(yè)領(lǐng)導(dǎo)者，如今已經(jīng)有了一串長(zhǎng)長(zhǎng)的名單，包括但不限于——

Geoffrey Hinton（人工智能教父，被引用次數(shù)最多的AI科學(xué)家）

Ilya Sutskever（被引次數(shù)第三多的AI科學(xué)家）

Andrej Karpathy

如今，業(yè)內(nèi)許多人都相信AI具有意識(shí)，而且正在等待「奧弗頓之窗」進(jìn)一步打開(kāi)，從而使公眾愿意接受這一點(diǎn)。

甚至有人預(yù)言:在2024/2025年，AI一定會(huì)具有意識(shí)，因?yàn)槿缃衲Ｐ偷男袨橐呀?jīng)明顯表現(xiàn)出感知能力了。

有網(wǎng)友發(fā)現(xiàn)，o1不僅是對(duì)經(jīng)驗(yàn)性的STEM學(xué)科很強(qiáng)，它甚至能夠假設(shè)出一種全新的意識(shí)理論。

有人覺(jué)得，o1向無(wú)限推理模型邁出的一小步，已經(jīng)具備意識(shí)的雛形。

陶哲軒:o1竟能識(shí)別出克萊姆定理

而在實(shí)測(cè)中，陶哲軒發(fā)現(xiàn):o1模型在數(shù)學(xué)方面的的性能更強(qiáng)了!

首先，他提出了一個(gè)措辭模糊的數(shù)學(xué)問(wèn)題，如果能搜索文獻(xiàn)并找到合適的定理，即克萊姆定理（Cramer's theorem），就可以解決這個(gè)問(wèn)題。

之前的實(shí)驗(yàn)中，GPT能夠提到一些相關(guān)概念，但細(xì)節(jié)都是胡編亂造的無(wú)意義內(nèi)容。

而這一次，o1成功識(shí)別出了克萊姆定理，并給出了令人滿意的答案。

完整回答:https://shorturl.at/wwRu2

在下面這個(gè)例子中，提出的問(wèn)題是更有挑戰(zhàn)性的復(fù)變函數(shù)分析，結(jié)果同樣好于之前的GPT系列模型。

在有大量提示詞和引導(dǎo)的情況下，o1能輸出正確且表述良好的解決方案，但不足之處在于無(wú)法自行產(chǎn)生關(guān)鍵的概念性想法，而且犯了明顯錯(cuò)誤。

陶哲軒形容，這種體驗(yàn)大致相當(dāng)于指導(dǎo)一個(gè)能力一般但也能勝任部分工作的研究生，GPT給人的感覺(jué)則是一個(gè)完全無(wú)法勝任工作的學(xué)生。

可能只需要經(jīng)過(guò)一兩次迭代，再加上其他工具的集成，比如計(jì)算機(jī)代數(shù)包和證明輔助工具，就能讓o1模型蛻變?yōu)椤阜Q職的研究生」，屆時(shí)這個(gè)模型將在研究任務(wù)中發(fā)揮重要作用。

完整回答:https://shorturl.at/ZrJyK

第三個(gè)實(shí)驗(yàn)中，陶哲軒要求o1模型在證明輔助工具Lean中形式化一個(gè)定理，需要先將其分解為子引理并給出形式化表述，但不需要給出證明。

定理的內(nèi)容，具體來(lái)說(shuō)，是將素?cái)?shù)定理的一種形式建立為另一種形式的推論。

實(shí)驗(yàn)結(jié)果也很不錯(cuò)，因?yàn)槟Ｐ屠斫饬诉@個(gè)任務(wù)，并對(duì)問(wèn)題進(jìn)行了合理的初步分解。

然而，可能是因?yàn)橛?xùn)練數(shù)據(jù)中缺乏關(guān)于Lean及其數(shù)學(xué)函數(shù)庫(kù)的最新數(shù)據(jù)，生成的代碼中也有幾處錯(cuò)誤。

盡管仍有缺陷，但這次實(shí)驗(yàn)結(jié)果已經(jīng)能讓人預(yù)見(jiàn)到o1在數(shù)學(xué)研究中的實(shí)際應(yīng)用。

類似的模型如果針對(duì)Lean和Mathlib進(jìn)行微調(diào)，并集成到集成開(kāi)發(fā)環(huán)境（IDE）中，在形式化項(xiàng)目中將會(huì)發(fā)揮極大的作用。

在之前的多次演講中，陶哲軒曾反復(fù)強(qiáng)調(diào)過(guò)AI工具在定理形式化中的應(yīng)用，看來(lái)大神的預(yù)言又會(huì)成真了。

完整回答:https://shorturl.at/OGtjt

計(jì)算機(jī)教授用動(dòng)畫揭秘:o1如何花更多時(shí)間思考?

o1學(xué)會(huì)用CoT思考更長(zhǎng)時(shí)間的過(guò)程中，究竟是取得了哪些重要突破，才造成了關(guān)鍵性的提升?目前我們只能從已有信息中做一些猜測(cè)。

比如，基于已有信息和自己的理解，科羅拉多大學(xué)博爾德分校計(jì)算機(jī)教授Tom Yeh就專門制作了一個(gè)動(dòng)畫，講解OpenAI是如何訓(xùn)練o1模型花更多時(shí)間思考的。

關(guān)于訓(xùn)練，報(bào)告中有非常簡(jiǎn)短的一句話:

「通過(guò)強(qiáng)化學(xué)習(xí)，o1學(xué)會(huì)了磨練其思維鏈并改進(jìn)策略?！?/p>

這句話中的兩個(gè)關(guān)鍵詞是:強(qiáng)化學(xué)習(xí)（RL）和思維鏈(CoT)。

在RLHF+CoT中，CoT token也會(huì)被輸入到獎(jiǎng)勵(lì)模型中來(lái)獲得分?jǐn)?shù)，以更新LLM，從而實(shí)現(xiàn)更好的對(duì)齊;而在傳統(tǒng)的RLHF中，輸入只包含提示詞和模型響應(yīng)。

在推理階段，模型學(xué)會(huì)了先生成CoT token（可能需要長(zhǎng)達(dá)30秒的時(shí)間），然后才開(kāi)始生成最終響應(yīng)。這就是模型如何花更多時(shí)間去「思考」的方式。

在報(bào)告列出的貢獻(xiàn)者中，有兩個(gè)人值得關(guān)注:

Ilya Sutskever，基于人類反饋的強(qiáng)化學(xué)習(xí)（RLHF）的發(fā)明者，出現(xiàn)他的名字意味訓(xùn)練o1模型時(shí)仍然用到了RLHF。

Jason Wei，著名的思維鏈論文的作者。他去年離開(kāi)Google Brain加入了OpenAI。他的出現(xiàn)意味著CoT現(xiàn)在是RLHF對(duì)齊過(guò)程的重要組成部分。

不過(guò)，有很多重要的技術(shù)細(xì)節(jié)OpenAI并沒(méi)有透露，比如獎(jiǎng)勵(lì)模型是如何訓(xùn)練的，如何獲取人類對(duì)「思考過(guò)程」的偏好等等。

免責(zé)聲明:動(dòng)畫僅代表教授的合理推測(cè)，并不保證準(zhǔn)確性

團(tuán)隊(duì)分享慶功視頻，分享「啊哈」時(shí)刻

關(guān)于研究中取得重要突破的瞬間，在下面這個(gè)視頻中，給了我們更多線索。

在發(fā)布o(jì)1模型后，團(tuán)隊(duì)發(fā)布了背后團(tuán)隊(duì)一起制作的視頻。

在視頻中，有人表示，自己覺(jué)得研究中最酷的就是那個(gè)「啊哈」時(shí)刻了。

在某個(gè)特定的時(shí)間點(diǎn)，研究發(fā)生了意想不到的突破，一切忽然就變得很明了，仿佛頓悟一般靈光乍現(xiàn)。

所以，團(tuán)隊(duì)成員們分別經(jīng)歷了怎樣的「啊哈」時(shí)刻呢?

有人說(shuō)，他感覺(jué)到在訓(xùn)練模型的過(guò)程中，有一個(gè)關(guān)鍵的時(shí)刻，就是當(dāng)他們投入了比以前更多的算力，首次生成了非常連貫的CoT。

就在這一刻，所有人都驚喜交加:很明顯，這個(gè)模型跟以前的有著明顯的區(qū)別。

還有人表示，當(dāng)考慮到訓(xùn)練一個(gè)具備推理能力的模型時(shí)，首先會(huì)想到的，是讓人類記錄其思維過(guò)程，據(jù)此進(jìn)行訓(xùn)練。

對(duì)他來(lái)說(shuō)，啊哈時(shí)刻就是當(dāng)他發(fā)現(xiàn)通過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練模型生成、優(yōu)化CoT，效果甚至比人類寫的CoT還好的那一刻。

這一時(shí)刻表明，我們可以通過(guò)這種方式擴(kuò)展和探索模型的推理能力。

這一位研究者說(shuō)，自己一直在努力提升模型解決數(shù)學(xué)問(wèn)題的能力。

讓他很沮喪的是，每次生成結(jié)果后，模型似乎從不質(zhì)疑自己做錯(cuò)了什么。

然而，當(dāng)訓(xùn)練其中一個(gè)早期的o1模型時(shí)，他們驚奇地發(fā)現(xiàn)，模型在數(shù)學(xué)測(cè)試中的得分忽然有了顯著提升。

而且，研究者們可以看到模型的研究過(guò)程了——它開(kāi)始自我反思、質(zhì)疑自己。

他驚嘆道:我們終于做出了不一樣的東西!

這種感受極其強(qiáng)烈，那一瞬間，仿佛所有東西都匯聚到了一起。

Open o1團(tuán)隊(duì)開(kāi)放團(tuán)隊(duì)問(wèn)答，直面質(zhì)疑

大家對(duì)o1模型的細(xì)節(jié)都有諸多疑問(wèn)，因此，OpenAI o1團(tuán)隊(duì)也表示，將在X上組織一個(gè)AMA（Ask Me Anything）的活動(dòng)，通過(guò)下方評(píng)論和用戶互動(dòng)。

網(wǎng)友們非常踴躍，提出了諸多關(guān)鍵細(xì)節(jié)問(wèn)題。

比如，有沒(méi)有辦法強(qiáng)迫模型，讓它思考的時(shí)間長(zhǎng)一點(diǎn)?

團(tuán)隊(duì)的回答是:目前還沒(méi)有這個(gè)選項(xiàng)，但會(huì)考慮改進(jìn)，讓用戶更好地控制模型思考的時(shí)間。

有人向Jason Wei提問(wèn)道:在o1范式下見(jiàn)過(guò)什么逆縮放示例，看到模型變得更差?此外，他還質(zhì)疑目前的基準(zhǔn)測(cè)試排名缺乏足夠的證據(jù)。

Jason Wei回答說(shuō)，自己并不知道，相信其他人見(jiàn)過(guò)。在某些類型的提示下，OpenAI o1-preview似乎并不比GPT-4o好多少，甚至還稍差一些。

而對(duì)于LLM排行榜如何公平比較的問(wèn)題，Jason Wei表示自己也不知道。但他可以肯定:無(wú)論怎樣努力地提示GPT-4o，都不可能讓它獲得IOI金牌。

還有人提出了一個(gè)很多人都感到困惑的問(wèn)題:o1究竟是不是一個(gè)在幕后運(yùn)行CoT，然后提供答案或模型的系統(tǒng)呢?它是否使用了特殊token進(jìn)行推理，在輸出時(shí)隱藏了這些token?

Noam Brown回答說(shuō)，自己不會(huì)說(shuō)o1是一個(gè)系統(tǒng)，它是一個(gè)模型，但與之前的模型不同。這個(gè)回答，看起來(lái)有點(diǎn)語(yǔ)焉不詳。

還有人采訪道:o1表現(xiàn)出的最令人深刻的一點(diǎn)是什么?

Noam Brown回答說(shuō)，自己給模型下指令讓它自己回答這個(gè)問(wèn)題。

在CoT中，模型開(kāi)始自己給自己出難題測(cè)試自己，來(lái)確定自己的能力水平。一個(gè)模型會(huì)這么做，就足夠讓人印象深刻的了。

Hyung Won Chung則表示，模型對(duì)哲學(xué)問(wèn)題的思考過(guò)程頗為引人入勝。比如，生命是什么?

活動(dòng)結(jié)束后，大V「Tibor Blaho」專門寫了一篇總結(jié)，對(duì)于團(tuán)隊(duì)的回答，做出了簡(jiǎn)明扼要的概括——

模型名稱和推理范式

OpenAI o1的命名代表了AI能力的新水平;計(jì)數(shù)器重置為1

「Preview」表示這是完整模型的早期版本

「Mini」意味著這是o1模型的較小版本，針對(duì)速度進(jìn)行了優(yōu)化

「o」代表OpenAI

o1不是一個(gè)「系統(tǒng)」;它是一個(gè)經(jīng)過(guò)訓(xùn)練的模型，在返回最終答案之前生成長(zhǎng)思維鏈

o1的圖標(biāo)象征性地表示為一個(gè)具有非凡能力的外星生命

o1模型的規(guī)模和性能

o1-mini比o1-preview小得多且更快，因此未來(lái)將提供給免費(fèi)用戶

o1-preview是o1模型的早期檢查點(diǎn)，既不大也不小

o1-mini在STEM任務(wù)中表現(xiàn)更好，但世界知識(shí)有限

相比o1-preview，o1-mini在某些任務(wù)中表現(xiàn)出色，尤其是與代碼相關(guān)的

o1的輸入token計(jì)算方式與GPT-4o相同，使用相同的分詞器（tokenizer）

o1-mini能夠探索比o1-preview更多的思維鏈

輸入token上下文和模型能力

o1模型即將支持更大的輸入上下文

o1模型可以處理更長(zhǎng)、更開(kāi)放式的任務(wù)，與GPT-4o相比，減少了對(duì)輸入分塊的需求

o1可以在提供答案之前生成長(zhǎng)思維鏈，這與之前的模型不同

目前還沒(méi)有辦法在思維鏈推理過(guò)程中暫停以添加更多上下文，但正在為未來(lái)的模型探索這一功能

工具、功能和即將推出的特性

o1-preview目前還不能使用工具，但計(jì)劃支持函數(shù)調(diào)用、代碼解釋器和瀏覽功能

工具支持、結(jié)構(gòu)化輸出和系統(tǒng)提示將在未來(lái)更新中添加

用戶可能會(huì)在未來(lái)版本中獲得對(duì)思考時(shí)間和token限制的控制權(quán)

計(jì)劃在API中啟用流式處理并考慮推理進(jìn)度

多模態(tài)能力已內(nèi)置于o1中，可以在MMMU等任務(wù)中實(shí)現(xiàn)SOTA的性能

思維鏈（CoT）推理

o1會(huì)在推理過(guò)程中生成隱藏的思維鏈

沒(méi)有計(jì)劃向API用戶或ChatGPT透露思維鏈token

思維鏈token被總結(jié)，但不保證忠實(shí)于實(shí)際推理過(guò)程

提示詞中的指令可以影響模型如何思考問(wèn)題

強(qiáng)化學(xué)習(xí)（RL）被用來(lái)改善o1中的思維鏈，僅依靠提示的GPT-4o在性能上無(wú)法匹敵

思考階段看起來(lái)較慢是因?yàn)樗偨Y(jié)了思考過(guò)程，而答案的生成通常更快

API和使用限制

o1-mini對(duì)ChatGPT Plus用戶有每周50次提示的限制

在ChatGPT中，所有提示詞的計(jì)數(shù)是相同的

隨著時(shí)間的推移，將推出更多API訪問(wèn)層級(jí)和更高的使用限制

API中的提示緩存是一個(gè)很受歡迎的需求，但目前還沒(méi)有時(shí)間表

定價(jià)、微調(diào)和擴(kuò)展

o1模型的定價(jià)預(yù)計(jì)將遵循每1-2年降價(jià)的趨勢(shì)

一旦使用限制提高，將支持批量API定價(jià)

微調(diào)在路線圖上，但目前還沒(méi)有時(shí)間表

o1的擴(kuò)展受到研究和工程人才的限制

推理計(jì)算的新擴(kuò)展范式可能會(huì)為未來(lái)幾代模型帶來(lái)顯著收益

反向擴(kuò)展目前還不顯著，但個(gè)人寫作提示顯示o1-preview的表現(xiàn)僅略優(yōu)于GPT-4o（甚至略差）

模型開(kāi)發(fā)和研究洞察

o1使用強(qiáng)化學(xué)習(xí)進(jìn)行訓(xùn)練從而實(shí)現(xiàn)推理能力

o1在詩(shī)歌等橫向任務(wù)中展現(xiàn)出了創(chuàng)造性思維和強(qiáng)大的性能

o1的哲學(xué)推理和泛化能力，如破譯密碼，令人印象深刻

研究人員使用o1創(chuàng)建了一個(gè)GitHub機(jī)器人，可以ping正確的CODEOWNERS進(jìn)行審核

在內(nèi)部測(cè)試中，o1通過(guò)自問(wèn)難題來(lái)衡量其能力

正在添加廣泛的世界領(lǐng)域知識(shí)，并將在未來(lái)版本中改進(jìn)

計(jì)劃在o1-mini的未來(lái)迭代中使用更新的數(shù)據(jù)（目前為2023年10月）

提示技巧和最佳實(shí)踐

o1受益于提供邊緣案例或推理風(fēng)格的提示

與早期模型相比，o1對(duì)提示中的推理線索更敏感

在檢索增強(qiáng)生成（RAG）中提供相關(guān)上下文可以提高性能;不相關(guān)的塊會(huì)對(duì)推理產(chǎn)生負(fù)面影響

一般反饋和未來(lái)改進(jìn)

由于還處在早期測(cè)試階段，o1-preview的使用限制較低，但之后會(huì)有所增加

正在積極改進(jìn)延遲和推理時(shí)間

卓越的模型能力

o1能夠思考「生命是什么?」這類哲學(xué)問(wèn)題

研究人員發(fā)現(xiàn)o1在處理復(fù)雜任務(wù)和從有限指令中泛化的能力令人印象深刻

o1的創(chuàng)造性推理能力，如自問(wèn)自答以衡量其能力，展示了其高水平的問(wèn)題解決能力

參考資料:

https://mathstodon.xyz/@tao/109945628011027107

https://twitter-thread.com/t/1834686946846597281

https://x.com/ProfTomYeh/status/1834617696215806285

https://x.com/markchen90/status/1834623248610521523

以上就是關(guān)于【OpenAI o1驚現(xiàn)自我意識(shí)？陶哲軒實(shí)測(cè)大受震撼，門薩智商100奪模型榜首】的相關(guān)內(nèi)容，希望對(duì)大家有幫助！

標(biāo)簽： OpenAI o1驚現(xiàn)自我意識(shí)？陶哲軒實(shí)測(cè)大受震撼，門薩智商100奪模型榜首

　　免責(zé)聲明：本文由用戶上傳，與本網(wǎng)站立場(chǎng)無(wú)關(guān)。財(cái)經(jīng)信息僅供讀者參考，并不構(gòu)成投資建議。投資者據(jù)此操作，風(fēng)險(xiǎn)自擔(dān)。如有侵權(quán)請(qǐng)聯(lián)系刪除！

相關(guān)閱讀

最新亚洲人成无码网站,夜夜操夜夜操夜夜爽,中文字日产幕乱五区,在线成人看片黄a免费看,亚洲自偷自拍另类11p

OpenAI o1驚現(xiàn)自我意識(shí)？陶哲軒實(shí)測(cè)大受震撼，門薩智商100奪模型榜首

OpenAI o1驚現(xiàn)自我意識(shí)？陶哲軒實(shí)測(cè)大受震撼，門薩智商100奪模型榜首