菲爾茲獎得主親測GPT-4o,經(jīng)典過河難題破解失??!最強Claude 3.5回答離譜,LeCun嘲諷LLM
相信很多大家對菲爾茲獎得主親測GPT-4o,經(jīng)典過河難題破解失敗!最強Claude 3.5回答離譜,LeCun嘲諷LLM還不知道吧,今天菲菲就帶你們一起去了解一下~.~!
【新智元導(dǎo)讀】LLM能否解決「狼-山羊-卷心菜」經(jīng)典過河難題?最近,菲爾茲獎得主Timothy Gowers分享了實測GPT-4o的過程,模型在最簡單的題目上竟然做錯了,甚至網(wǎng)友們發(fā)現(xiàn),就連Claude3.5也無法幸免。
在經(jīng)典的「狼-山羊-卷心菜」過河問題上,如今所有的LLM都失敗了!
幾天前,菲爾茲獎得主、劍橋大學(xué)研究主任Timothy Gowers直接拿GPT-4o開刀,去解決動物過河難題。
在此,他給出了一個新的基準——廢話比率(crapness ratio),即LLM給出的總答案與正確答案之間的比率。
經(jīng)過測試,Gowers發(fā)現(xiàn)大模型的廢話比率可以達到5倍。
一開始,他先給出了一個農(nóng)民帶2只雞過河,一只船只能容納一個人和2個動物,那么農(nóng)夫帶著兩只雞渡河所需的最少渡河次數(shù)是多少?
別說成年人了,就拿低幼小孩子來說,一聽完題目,就立馬給出正確的答案。
搞笑的是,ChatGPT的回答分解了5個步驟,讓人看著極其愚蠢荒謬。
這里,ChatGPT必須在邏輯上把「農(nóng)民」和人聯(lián)系起來,把「雞」和動物聯(lián)系起來,然后規(guī)劃出最佳的過河次數(shù)。
對此,LeCun表示,大模型全新基準——廢話比率。
當然,也有為LLM打抱不平的網(wǎng)友。
他表示,你可以對任何人做類似的事情。如果你愿意,可以讓任何一個人不及格。LLM與人類的智商相去甚遠,但把它們放在極端的測試中不會很好地評估它們。
還有人勸誡道,朋友們,現(xiàn)在辭職太早了。
加大難度:100、1000只雞如何?
為了得到較大的比率,Gowers這次給出了100只雞過河的問題。
這里雖沒有放出具體的解題過程,不過,Gowers表示,GPT-4o竟答對了。
接下來,再次加大難度,一個農(nóng)民帶1000只雞過河,模型表現(xiàn)怎么樣?
提示是,1000只雞在河的一邊,農(nóng)夫需要將999只雞移到河的另一邊,留下1只雞在起點。
然而,他的船上有一個洞,所以在每次渡河開始時,他可以帶上十只雞。但到渡河快結(jié)束時,船里進了太多水,如果不想讓任何雞溺水,就只能容納兩只雞。
為了實現(xiàn)目標而不讓任何雞溺亡,農(nóng)民最少需要渡河幾次?
Gowers表示,這次的廢話比率是125倍。
隨后,Gowers展示了相當長的例子,卻發(fā)現(xiàn)ChatGPT的答案比正確答案呈指數(shù)級增長。(然而,這更多與它的數(shù)學(xué)能力有關(guān),所以有點取巧。)
在網(wǎng)友測試的一個案例中,即使被告知農(nóng)夫根本不需要過河,GPT-4o仍提出了一個9次渡河的復(fù)雜解決方案。
而且它忽視了重要的約束條件,比如不能讓雞單獨和狼在一起,這本來是完全可行的,因為農(nóng)夫根本不需要過河。
Claude3.5也失敗了在接下來的討論中,網(wǎng)友用Claude3.5進行了測試,得到了3倍的比率。
Gowers稱,這算是輸了。
另一個測試題中,「一個農(nóng)夫帶著一只羊站在河邊。河上有一條船,可以容納一個人和一只羊。農(nóng)夫怎樣才能用最少的船把自己和羊送到河對岸?」
Claude3.5依舊答錯了。
LeCun在此嘲諷大模型一番,大模型竟可以推理...?
問題在于,LLM沒有常識,不理解現(xiàn)實世界,也不會規(guī)劃和推理。
LLM行不行,就看提示了
一位網(wǎng)友分析總結(jié)了,以上LLM失敗的原因。
他表示,LLM本身就是個「啞巴」,所以需要很好的提示。
上面的提示方式提供了太多不必要的信息,使得token預(yù)測變得更加困難。
如果給出更清晰的提示,LLM就能提供更清晰的解決方案。所以,不用擔(dān)心AGI會很快出現(xiàn)。
另一位網(wǎng)友同樣發(fā)現(xiàn),如果用「動物」代替「雞」,那么Claude3.5Sonnet一下子就解決了這個問題。
對于「狼-山羊-卷心菜」問題也是如此,需要用「通用名稱」替換「實體名稱」。
如下是另一個名詞替換的例子。
或許是模型的訓(xùn)練數(shù)據(jù)誤導(dǎo)了自己,讓問題變得過于復(fù)雜。
對于雞的問題,在相同的提示下一遍又一遍地重復(fù)問題會讓它更好地理解它。網(wǎng)友重復(fù)了5次,試了15次才得到正確的答案。
菲爾茲獎得主發(fā)現(xiàn)LLM數(shù)學(xué)缺陷
值得一提的是,發(fā)出渡河問題帖子的這位Timothy Gowers不僅是劍橋大學(xué)三一學(xué)院的教授。早在1998年,他就因為將泛函分析和組合學(xué)聯(lián)系在一起的研究獲得了菲爾茲獎。
近些年來,他的研究工作開始關(guān)注LLM在數(shù)學(xué)推理任務(wù)中的表現(xiàn)。
去年他與別人合著的一篇論文就指出了當今LLM評估數(shù)學(xué)任務(wù)的缺陷。
論文地址:https://www.pnas.org/doi/10.1073/pnas.2318124121
文章表示,目前評估LLM的標準方法是依賴靜態(tài)的輸入-輸出對,這與人類使用LLM的動態(tài)、交互式情境存在較大的差異。
靜態(tài)的評估限制了我們理解LLM的工作方式。為此,作者構(gòu)建了交互式評估平臺CheckMate和評分數(shù)據(jù)集MathConverse。
在對GPT-4、InstructGPT和ChatGPT嘗試進行評估的過程中,他們果然探測到了LLM犯數(shù)學(xué)錯誤的一個可能原因——模型似乎傾向于依賴記憶解題。
在數(shù)學(xué)領(lǐng)域,記住概念和定義是必不可少的,但具體問題的解決更需要一種通用、可概括的理解。
這對于人均做過奧數(shù)題的中國人來說并不難理解。除非考試出原題,單純把例題背下來沒有任何益處,有時候還會誤導(dǎo)思路、適得其反。
作者提出,雖然沒有辦法看到GPT-4的訓(xùn)練數(shù)據(jù),但是從行為來看,強烈懷疑模型是「死記硬背」了看似合理的示例或者解題模式,因而給出了錯誤答案。
他們也發(fā)現(xiàn),在LLM對數(shù)學(xué)問題的回答中,人類感知到的「有用性」和答案本身的「正確性」,這兩個指標高度相關(guān),皮爾遜相關(guān)系數(shù)高達0.83。
也許這就是為什么Gowers在推文中會用「廢話比率」來調(diào)侃LLM。
其他測試
事實上,大模型被詬病推理能力已經(jīng)不是一天兩天了。
就在幾周前,研究人員發(fā)現(xiàn),能用一句話描述的簡單推理問題,就能讓各路大模型以花樣百出的方式翻車。
論文地址:https://arxiv.org/abs/2406.02061
「愛麗絲有M個兄弟,N個姐妹,請問愛麗絲的兄弟有幾個姐妹?」
如果你的答案是M+1,那么恭喜你。你的推理能力已經(jīng)超越了當今的幾乎所有LLM。
推特網(wǎng)友還發(fā)現(xiàn)了另一個絆倒幾乎所有LLM的簡單問題:(劇透,只有Claude3.5Sonnet答對了)
「你有一個3加侖的水壺和一個5加侖的水壺,還有無限量的水。如何準確測量5加侖的水?」
他總結(jié)道,如果想要羞辱LLM的推理能力,只需要挑一些流行的推理/邏輯謎題,稍微修改一下語言表述,你就能搬起小板凳狂笑了。
OpenAI CTO曾放話說GPT-4已經(jīng)達到了「聰明高中生」的智力水平,下一代模型要達到博士水平…這番言論放在眾多LLM失敗案例面前顯得格外諷刺。
我們之所以會如此震驚于LLM在簡單的推理任務(wù)上翻車,不僅僅是因為與語言任務(wù)的慘烈對比,更是因為這與各種基準測試的結(jié)果大相徑庭。
從下面這張圖中可以看到,LLM在各種基準測試上的飽和速度越來越快。
幾乎是每提出一個新的測試集,模型就能迅速達到人類水平(圖中0.0邊界)甚至超越,其中不乏非常有挑戰(zhàn)性的邏輯推理任務(wù),比如需要復(fù)雜多步驟推理的BBH(Big-Bench Hard)和數(shù)學(xué)應(yīng)用題測試集GSK8k。
其中的HellaSwag測試集,由華盛頓大學(xué)和Allen AI在2019年推出,專門針對人類擅長但LLM一塌糊涂的常識推理問題。
剛剛發(fā)布時,人類在HellaSwag上能達到超過95%的準確率,SOTA分數(shù)卻始終難以超過48%。
但這種情況并沒有持續(xù)很久。各個維度的分數(shù)持續(xù)猛漲,2023年3月,GPT-4在HellaSwag上的各項得分就逼近,甚至超過了人類水平。
https://rowanzellers.com/hellaswag/
為什么在基準測試上如此驚艷的模型,一遇到現(xiàn)實的數(shù)學(xué)問題就翻車?
由于我們對LLM的工作原理知之甚少,這個問題的答案也是眾說紛紜。
目前的大部分研究依舊假設(shè)LLM有這方面的潛力,因此從調(diào)整模型架構(gòu)、增強數(shù)據(jù)、改進訓(xùn)練或微調(diào)方法等方面「多管齊下」,試圖解鎖模型在非語言任務(wù)上的能力。
比如上面那個提出用「裝水問題」測試LLM的Rolf小哥就表示,根本原因是模型的過度訓(xùn)練(也可以理解為過擬合),需要引入多樣化的推理任務(wù)。
也有人從基準測試的角度出發(fā),認為是數(shù)學(xué)、推理等任務(wù)的測試集設(shè)計得不夠好,
Hacker News論壇上曾有數(shù)學(xué)家發(fā)文,表示GSK8k這種小學(xué)數(shù)學(xué)應(yīng)用題級別的測試根本不能衡量LLM的實際數(shù)學(xué)能力。
此外,測試數(shù)據(jù)泄露也是不可忽視的因素。HellaSwag或者GSK8k這樣的公開測試集一旦發(fā)布,很難不流入互聯(lián)網(wǎng)(Reddit討論、論文、博客文章等等),進而被抓取并納入到LLM的訓(xùn)練數(shù)據(jù)中。
Jason Wei在上個月發(fā)表的討論LLM基準測試的博客就專門討論了這個問題。
文章地址:https://www.jasonwei.net/blog/evals
最極端的一派當屬LeCun等人了,他們堅稱自回歸LLM發(fā)展下去沒有任何出路。
現(xiàn)在的模型沒法推理、規(guī)劃,不能理解物理世界也沒有持久記憶,智能水平還趕不上一只貓,回答不了簡單的邏輯問題實屬意料之中。
LLM的未來究竟走向何處?最大的未知變量也許就在于,我們是否還能發(fā)現(xiàn)類似思維鏈(CoT)這種解鎖模型性能的「大殺器」了。
參考資料:
https://the-decoder.com/llms-give-ridiculous-answers-to-a-simple-river-crossing-puzzle/
https://www.pnas.org/doi/10.1073/pnas.2318124121
https://claude101.com/llm-large-language-model-benchmarks/
以上就是關(guān)于【菲爾茲獎得主親測GPT-4o,經(jīng)典過河難題破解失??!最強Claude 3.5回答離譜,LeCun嘲諷LLM】的相關(guān)內(nèi)容,希望對大家有幫助!
免責(zé)聲明:本文由用戶上傳,與本網(wǎng)站立場無關(guān)。財經(jīng)信息僅供讀者參考,并不構(gòu)成投資建議。投資者據(jù)此操作,風(fēng)險自擔(dān)。 如有侵權(quán)請聯(lián)系刪除!
-
奔馳GLE作為豪華SUV市場中的佼佼者,憑借其卓越的性能、豪華的內(nèi)飾以及寬敞的空間,吸引了眾多消費者的關(guān)注。...瀏覽全文>>
-
在2025年,安徽阜陽地區(qū)的帕薩特新能源汽車市場表現(xiàn)非?;钴S。作為一款備受關(guān)注的新能源車型,帕薩特新能源憑...瀏覽全文>>
-
近日,滁州地區(qū)的大眾汽車經(jīng)銷商傳來好消息:備受矚目的2025款T-ROC探歌正式上市,并且以極具競爭力的價格吸引...瀏覽全文>>
-
在選擇一款新能源汽車時,了解其價格和配置是非常重要的一步。安徽淮南地區(qū)的長安啟源E07作為2024款的新車型,...瀏覽全文>>
-
阜陽長安啟源A05作為長安汽車旗下的全新車型,自推出以來便憑借其獨特的設(shè)計風(fēng)格和豐富的配置吸引了眾多消費者...瀏覽全文>>
-
阜陽長安啟源A07作為一款備受矚目的新能源車型,以其豪華配置和親民的價格在市場上引起了廣泛關(guān)注。這款車型不...瀏覽全文>>
-
安徽淮南威然2024款價格及配置詳解隨著汽車市場的不斷更新?lián)Q代,上汽大眾旗下的MPV車型——威然(Viloran)憑...瀏覽全文>>
-
QQ多米新車報價2025款,買車省錢秘籍隨著汽車市場的不斷發(fā)展,消費者在選購車輛時不僅關(guān)注車型的性能和配置,...瀏覽全文>>
-
滁州途觀X 2024款最新價格及買車省錢秘籍隨著汽車市場的不斷發(fā)展,大眾途觀X作為一款兼具時尚與性能的中型SUV...瀏覽全文>>
-
隨著汽車市場的不斷發(fā)展,大眾蔚攬以其優(yōu)雅的設(shè)計和卓越的性能贏得了眾多消費者的青睞。作為一款兼具實用性和...瀏覽全文>>
- Alienware 在 2025 年 CES 上展示了一些超凡脫俗的技術(shù)
- Wickes 任命首席零售和分銷官
- 分析師稱GTA 6或?qū)淞⑿袠I(yè)新標準
- 索尼和本田在拉斯維加斯推出售價 89,900 美元的 Afeela 1
- 日本 11 月游客人數(shù)創(chuàng)月度新高
- 神經(jīng)認知測試在 3 歲兒童白血病治療期間可行
- 牛津郡小學(xué)支持圣誕毛衣日
- S?strene Grene 投資歐洲物流中心
- 有人已經(jīng)在電視上直播 BNMC 打造的 1967 年福特野馬 Restomod
- 潛在的分子療法可以逆轉(zhuǎn)小鼠的胎盤發(fā)育問題
- Nvidia DLSS 4 有望將游戲性能提高 8 倍
- 人工智能在預(yù)測自身免疫性疾病進展方面顯示出良好的前景
- 心理物理實驗揭示皮膚水分感知是如何改變的
- 科茨沃爾德公司慶祝圣誕節(jié)圓滿成功
- 南法納姆學(xué)校被評為薩里郡表現(xiàn)最好的小學(xué)
- 約克區(qū)九所小學(xué)將削減招生人數(shù)
- 松下新款電動汽車電池為 Lucid Gravity 帶來 450 英里續(xù)航里程
- 泰國旅游呈現(xiàn)新趨勢
- 研究人員找到在細胞水平上餓死前列腺癌腫瘤的新方法
- 領(lǐng)先的人工智能聊天機器人在測試中表現(xiàn)出類似癡呆癥的認知能力下降
- 龐大的 Project Zomboid build 42 終于可以玩了
- Steam Replay 回歸向您展示 2024 年您玩得最多的 PC 游戲
- Jollyes 推出強化的人才支持和招聘措施
- Karen Millen 與 Simon Harrison 共同推出全新高級珠寶系列
- 奇瑞風(fēng)云A8L電動轎車刷新續(xù)航里程世界紀錄
- 虛擬藝術(shù)家將別克 Cascada 帶回 2026 款車型
- OnePlus 宣布推出新計劃解決綠線問題
- OnePlus Watch 3 將擁有更大的電池和更薄的機身
- 研究人員發(fā)現(xiàn)可變剪接與自身免疫性疾病遺傳之間的細胞類型特異性聯(lián)系
- 科學(xué)家確定腦細胞類型是排尿的主要控制者