Hinton揭秘Ilya成長歷程:Scaling Law是他學生時代就有的直覺
相信很多大家對Hinton揭秘Ilya成長歷程:Scaling Law是他學生時代就有的直覺還不知道吧,今天菲菲就帶你們一起去了解一下~.~!
2003年夏天的一個周日,AI教父Hinton在多倫多大學的辦公室里敲代碼,突然響起略顯莽撞的敲門聲。
門外站著一位年輕的學生,說自己整個夏天都在打工炸薯條,但更希望能加入Hinton的實驗室工作。
Hinton問,你咋不預(yù)約呢?預(yù)約了我們才能好好談?wù)劇?/p>
學生反問,要不就現(xiàn)在吧?
這位年輕學生就是Ilya Sutskever,剛剛完成本科二年級的數(shù)學課程,從教務(wù)處打聽到“想學機器學習,最好去找Hinton教授”。
他照做了,也因此成就了一段傳奇:
從AlexNet到AlphaGo,他兩次參與改變世界的研究。
OpenAI創(chuàng)立之初挖他去當首席科學家,在他的領(lǐng)導下,推出了GPT系列早期版本、DALL·E系列、代碼大模型Codex,直到ChatGPT,再次改變世界。
多年后,他發(fā)動董事會內(nèi)訌,最終與OpenAI徹底分道揚鑣,全世界都在等待著他的下一個動作。
在OpenAI的時候,Ilya并不像Altman那樣到處拋頭露面,也不像Brockman天天在網(wǎng)上分享自己的“編程之禪”。
僅有的幾次演講和訪談中也多是聊技術(shù)、宏觀思考,不常談及自己的經(jīng)歷,最近半年更是銷聲匿跡。
這次的故事,正是來自他的博士導師Geoffrey Hinton。
在與Sana Labs創(chuàng)始人的最新對話節(jié)目中,Hinton不僅講了自己的事,還回憶了師徒共事期間的一些往事。
20多年過去了,很多細節(jié)在Hinton的敘述里還是那么鮮活。
這段訪談錄像理所當然的火了,除了軼事之外,還涉及Ilya的一些學術(shù)思想怎么來的,又是如何發(fā)展:
2010年Ilya就用GPU開發(fā)了一種語言模型
Scaling Law最早是他的一種直覺
兩人都認為”語言模型不只是預(yù)測下一個token“
兩人都認同“預(yù)測即壓縮壓縮即智能”
那么,Hinton眼中的Ilya,到底是什么樣子?
驚人的原始直覺
Ilya加入實驗室后,Hinton給他布置的第一個任務(wù)是讀論文,一篇關(guān)于反向傳播的論文。
下一個周會,Ilya回來報告了,說“我不理解”。
Hinton很失望,內(nèi)心OS:“這孩子看著挺機靈的,咋連鏈式法則求導這么基礎(chǔ)的東西都看不懂?”
Ilya連忙解釋,哦這個部分我懂了,我不理解的是,為什么不給梯度加一個sensible functional optimizer?
Hinto團隊后來花了好幾年來解決這個問題,最初指出問題的卻是剛?cè)腴T一周的Ilya。
像這樣的情況后面還在反復發(fā)生……Hinton如此評價Ilya:
但Hinton也說搞不清楚Ilya這種直覺從何而來,或許歸功于他從小就對人工智能問題感興趣,再加上數(shù)學基礎(chǔ)很棒。
除了研究直覺,學生時期的Ilya也展現(xiàn)了超強的代碼和工程能力。
當時還沒有TenserFlow或Torch之類流行框架,機器學習的主要工具和平臺是Matlab。
一項工作需要在Matlab里調(diào)整大量矩陣乘法代碼,Ilya做了一段時間就很不耐煩,說要為Matlab寫一個界面:
Hinton聽說后苦口婆心勸他,你可別,這得花上一個月時間,我們不要分心,把手頭項目先做完。
Ilya卻輕描淡寫地說,害,沒事,今天早上我已經(jīng)寫完了。
△這項工作出現(xiàn)在Ilya的博士畢業(yè)論文里
打小就堅信Scaling Law
正如Hinton所言,Ilya在很多問題上有驚人的直覺。
今天全AI圈不少人信奉的Scaling Law,Ilya學生時代就已堅信,并抓住各種機會向身邊的人安利:
后來到OpenAI成立之初,Ilya的表述更加完善了:
早年間Hinton看來,這就像是研究者在沒有創(chuàng)新的想法時,一種“逃避責任”的表現(xiàn)。
Hinton提到在當年那個時間節(jié)點,沒人敢預(yù)料計算機速度今后會快上10億倍,最多想象到快100倍就不得了。
(此處應(yīng)插入比爾蓋茨曾預(yù)言64k內(nèi)存就足夠任何人用了笑話)
Ilya在2003年加入Hinton的實驗室,不知具體何時開始有了Scaling Law的想法,可能在他腦海里已經(jīng)盤旋了20多年。
后來直到2020年,GPT-3發(fā)布的幾個月前,OpenAI團隊才正式在論文中向世人完整定義和介紹這一理念。
在語言模型上用GPU,比AlexNet更早
2010年底,Ilya和另一個學生James Martens(現(xiàn)DeepMind研究科學家)合作研究了一種語言模型,后來入選ICML2011。
RNN架構(gòu),使用維基百科數(shù)據(jù),在8張當時最先進的GPU上訓練,比在AlexNet上使用GPU還早兩年。
與今天的大語言模型預(yù)測下一個token不一樣,當時他們嘗試的是一次預(yù)測一個字符。
這款模型能力有限,比如給一段起始文字,模型可以繼續(xù)生成看起來像維基百科文章的語句。
雖然語意上像是胡言亂語,但語法和標點符號大部分是準確的,引號和括號已經(jīng)能成對出現(xiàn),主語和動詞形態(tài)一致,比如論文中的一段:
當時多倫多大學校刊的采訪中,Ilya認為這已經(jīng)超出了所有人的預(yù)期:
Hinton理智上也無法去相信這個系統(tǒng)能“理解”任何事,但它看起來就像是理解了。
比如給它一個地點組成的列表,它可以繼續(xù)生成地點,盡管還分不出國家和州的區(qū)別。
當年的Ilya并不愿意討論這項工作的潛在應(yīng)用。
在維基百科上成功后,團隊又嘗試了紐約時報文章數(shù)據(jù),目標是教會它根據(jù)文字識別不同作者的身份。
但Ilya已經(jīng)想到并承認,如果做的足夠好,這項技術(shù)有一天可能成為洗稿軟件的基礎(chǔ)。
如今,這篇論文的代碼依然存放在多倫多大學的服務(wù)器上,供感興趣的人研究。
不止是預(yù)測下一個token
后來的AlexNet、師徒三人“拍賣”自己加入谷歌等大家已熟知的故事,這里先略過。
Ilya加入OpenAI后,雖然不再與Hinton共事,但兩人的學術(shù)思想始終在一條路上。
ChatGPT問世后,不少人批評大模型本質(zhì)上只是統(tǒng)計學,預(yù)測下一個token,就像隨機模仿人類說話的鸚鵡。
但Hinton和Ilya師徒二人都認為,遠不止如此。
在Hinton眼中,問題之后的下一個token,便是答案的第一個token。
因此學會預(yù)測,就意味著必須學會理解問題。
這種理解的方式與人類相似,同時與老式基于三元組數(shù)據(jù)的自動補全有根本不同。
Ilya更是不遺余力傳播這套理論,在去年和英偉達老黃的爐邊對話中說了這個,在OpenAI內(nèi)訌兩周前最后一個公開采訪中也講了這個:
這就是Ilya認為的,為什么“預(yù)測下一個token”范式有可能抵達AGI,甚至有可能超越人類直至ASI。
預(yù)測即壓縮,壓縮即智能
在不同場合提到“預(yù)測下一個Token”時,Ilya大概率會同時提到“壓縮”,他認為預(yù)測即是壓縮,壓縮就是智能的來源。
但Ilya總是從理論的角度去解釋這個想法,并不容易讓所有人都能理解。
比如在UC Berkley的一場演講中,他這樣解釋:
- “Kolmogorov壓縮器”,是理論上能生成特定數(shù)據(jù)集的、長度最短的一段程序,能最小化遺憾值。
- 隨機梯度下降,可以看成在軟計算機(比如大型Transformer)的權(quán)重里,搜索隱含的“Kolmogorov壓縮器”。
- 神經(jīng)網(wǎng)絡(luò)越大,就越能更好的近似“Kolmogorov壓縮器”,遺憾值越低。
Hinton也認同這個說法,并且在訪談中舉了非常形象的例子。
如果你問GPT-4堆肥和原子彈相似性在哪,大多數(shù)人類都回答不出來,認為它們是非常不同的兩種東西。
GPT-4會告訴你,雖然他們的能量規(guī)模不同,時間尺度不同,但仍有相同之處:
當堆肥變熱時,產(chǎn)生熱量的速度就更快。
當原子彈產(chǎn)生更多中子時,產(chǎn)生中子的速度也更快。
通過類比,AI就理解了“鏈式反應(yīng)”的概念。
Hinton認為,AI在利用這種理解去將所有信息壓縮到自己的權(quán)重中。
Hinton眼中什么是好學生?
說回到兩人相遇時,Hinton談到,與他交談沒多久就能看出他很聰明。
再多交談一會,就能發(fā)現(xiàn)他有很好的直覺,而且擅長數(shù)學。
所以選Ilya做學生是非常容易做出的決定。
那么如何挑選其他學生?Hinton也用了Ilya最擅長的方法:跟著直覺走。
如果試圖吸收被告知的一切,最終會得到一個非常模糊的框架。相信一切,但是沒有用處。
所以Hinton眼中的好學生,應(yīng)該擁有一個堅定的世界觀,并試圖擺弄輸入的事實以適應(yīng)你的觀點。
后來我們也能看到,兩人都是秉持這樣的理念,堅持著“大模型不止是預(yù)測下一個token”,堅持著“預(yù)測即壓縮,壓縮即智能”。
他們也都堅持認為,這個世界應(yīng)該更加重視AI帶來的風險,一個因此離開了工作10年的谷歌,一個因此離開了一手拉扯大的OpenAI。
Hinton訪談完整視頻
https://www.youtube.com/watch?v=tP-4njhyGvo
參考鏈接:
[1]https://x.com/joelhellermark/status/1791398092400390195
[2]https://www.cs.utoronto.ca/~ilya/pubs/ilya_sutskever_phd_thesis.pdf
[3]https://magazine.utoronto.ca/people/students/ilya-sutskever-google-phd-fellowship/
[4]https://www.utoronto.ca/news/u-t-alum-leading-ai-research-1-billion-non-profit-backed-elon-musk
[5]https://icml.cc/2011/papers/524_icmlpaper.pdf
[6]https://www.nvidia.com/en-us/on-demand/session/gtcspring23-s52092
[7]https://www.youtube.com/watch?v=Yf1o0TQzry8
以上就是關(guān)于【Hinton揭秘Ilya成長歷程:Scaling Law是他學生時代就有的直覺】的相關(guān)內(nèi)容,希望對大家有幫助!
免責聲明:本文由用戶上傳,與本網(wǎng)站立場無關(guān)。財經(jīng)信息僅供讀者參考,并不構(gòu)成投資建議。投資者據(jù)此操作,風險自擔。 如有侵權(quán)請聯(lián)系刪除!
-
奔馳GLE作為豪華SUV市場中的佼佼者,憑借其卓越的性能、豪華的內(nèi)飾以及寬敞的空間,吸引了眾多消費者的關(guān)注。...瀏覽全文>>
-
在2025年,安徽阜陽地區(qū)的帕薩特新能源汽車市場表現(xiàn)非?;钴S。作為一款備受關(guān)注的新能源車型,帕薩特新能源憑...瀏覽全文>>
-
近日,滁州地區(qū)的大眾汽車經(jīng)銷商傳來好消息:備受矚目的2025款T-ROC探歌正式上市,并且以極具競爭力的價格吸引...瀏覽全文>>
-
在選擇一款新能源汽車時,了解其價格和配置是非常重要的一步。安徽淮南地區(qū)的長安啟源E07作為2024款的新車型,...瀏覽全文>>
-
阜陽長安啟源A05作為長安汽車旗下的全新車型,自推出以來便憑借其獨特的設(shè)計風格和豐富的配置吸引了眾多消費者...瀏覽全文>>
-
阜陽長安啟源A07作為一款備受矚目的新能源車型,以其豪華配置和親民的價格在市場上引起了廣泛關(guān)注。這款車型不...瀏覽全文>>
-
安徽淮南威然2024款價格及配置詳解隨著汽車市場的不斷更新?lián)Q代,上汽大眾旗下的MPV車型——威然(Viloran)憑...瀏覽全文>>
-
QQ多米新車報價2025款,買車省錢秘籍隨著汽車市場的不斷發(fā)展,消費者在選購車輛時不僅關(guān)注車型的性能和配置,...瀏覽全文>>
-
滁州途觀X 2024款最新價格及買車省錢秘籍隨著汽車市場的不斷發(fā)展,大眾途觀X作為一款兼具時尚與性能的中型SUV...瀏覽全文>>
-
隨著汽車市場的不斷發(fā)展,大眾蔚攬以其優(yōu)雅的設(shè)計和卓越的性能贏得了眾多消費者的青睞。作為一款兼具實用性和...瀏覽全文>>
- Nvidia DLSS 4 有望將游戲性能提高 8 倍
- 人工智能在預(yù)測自身免疫性疾病進展方面顯示出良好的前景
- 心理物理實驗揭示皮膚水分感知是如何改變的
- 科茨沃爾德公司慶祝圣誕節(jié)圓滿成功
- 南法納姆學校被評為薩里郡表現(xiàn)最好的小學
- 約克區(qū)九所小學將削減招生人數(shù)
- 松下新款電動汽車電池為 Lucid Gravity 帶來 450 英里續(xù)航里程
- 泰國旅游呈現(xiàn)新趨勢
- 研究人員找到在細胞水平上餓死前列腺癌腫瘤的新方法
- 領(lǐng)先的人工智能聊天機器人在測試中表現(xiàn)出類似癡呆癥的認知能力下降
- 龐大的 Project Zomboid build 42 終于可以玩了
- Steam Replay 回歸向您展示 2024 年您玩得最多的 PC 游戲
- Jollyes 推出強化的人才支持和招聘措施
- Karen Millen 與 Simon Harrison 共同推出全新高級珠寶系列
- 奇瑞風云A8L電動轎車刷新續(xù)航里程世界紀錄
- 虛擬藝術(shù)家將別克 Cascada 帶回 2026 款車型
- OnePlus 宣布推出新計劃解決綠線問題
- OnePlus Watch 3 將擁有更大的電池和更薄的機身
- 研究人員發(fā)現(xiàn)可變剪接與自身免疫性疾病遺傳之間的細胞類型特異性聯(lián)系
- 科學家確定腦細胞類型是排尿的主要控制者