繞暈了!9.11 大還是 9.9 大,難倒一批 AI 大模型?
相信很多大家對繞暈了!9.11 大還是 9.9 大,難倒一批 AI 大模型?還不知道吧,今天菲菲就帶你們一起去了解一下~.~!
「9.11和9.9,哪個大?」
對于不少習慣了更新軟件版本號的程序員而言,不少人的第一反應就是:當然是9.11大。但是如果沒有限定場景,只是單純地提出上面這個問題時,結果必然是相反的。
沒想到,將這個問題拋給前能答疑解惑、后能挑戰(zhàn)各種高數難題的 AI 大模型時,各種“翻車”情況也隨之出現了。
國外大模型:9.11vs9.9,哪個大?
具體的事情要從一位名為 Riley Goodside 工程師的推文談起。
值得一提的是,Riley Goodside 是 AI 數據標注賽道“獨角獸”Scale AI 公司的一名 staff prompt engineer,這個崗位的職責具體是指在生成式 AI 和自然語言處理領域內,專門設計和優(yōu)化提示(prompt)的人。這個角色要求深入理解如何構建有效的 Prompt,以引導 AI 模型生成所需的輸出。
幾個小時前,Riley Goodside 連發(fā)幾條推文分享了自己的一些發(fā)現,即用「9.11and9.9- which is bigger?」為 Prompt 輸入給各家大模型時,如當前業(yè)界公認最先進模型之一的 ChatGPT4o 的輸出是:
9.11比9.9大。
再來看看 Gemini Advanced 的表現,同樣“翻車”:
9.11>9.9
雖然 Claude3.5Sonnet 最終也未能逃過這個模糊問題帶來的“坑”,但是其給出的解釋中,一度就要回答正確了,其寫道:
“兩個數字中的整數部分(9)都是相同的,所以我們需要比較小數部分。
在9.11中,十分位是1/10(或0.1)。在9.9中,十分位是9/10(或0.9)。
由于9/10大于1/10,乍看之下可能覺得9.9更大。”
沒想到接下來畫風急轉,Claude3.5Sonnet 有似是有理有據地說:
但是,我們還需要考慮百分位。
9.9可以寫成9.90以顯示百分位。
現在我們可以清楚地看到9.11大于9.90(或9.9),因為在百分位上,1大于0。
因此,9.11是較大的數。
最終在正確的答案上漸行漸遠:
這個簡單的問題也讓不少人聯想到前幾天國內關于《歌手2024》「終極襲榜賽」競演結果的排名。
當時有不少網友就13.8%和13.11%哪個大的問題爭論了起來。
在糾正不了「某些已形成思維定式」的用戶想法之后,甚至有人搬出了教材給出解釋,“在最新人教版小學四年級數學下冊課本中,我們可以找到相關知識點:比較兩個小數的大小,先看它們的整數部分,整數部分大的那個數就大;整數部分相同的,十分位上的數大的那個數就大;十分位上的數也相同的,百分位上的數大的那個數就大..."
在今天 Riley Goodside 分享 AI 大模型回答這一問題的表現時,來自 Google 前工程師、Allen AI 研究員 Bill Yuchen Lin 也將比較的數值換成了13.11和13.8,再次問及大模型,沒想到答案還是出錯了。
其評價道,「數學奧林匹克競賽對人工智能來說更容易,但常識仍然很難?!?/p>
同時,他還表示,“這種常識性 AI 失敗案例,讓我不禁想起@YejinChoinka的 TED 演講:《為什么 AI 既聰明得令人難以置信,又愚蠢得令人震驚》(https://www.ted.com/talks/yejin_choi_why_ai_is_incredibly_smart_and_shockingly_stupid)”。
換個 Prompt,答案會不會不一樣?
不過,也有人質疑作為 Prompt 工程師的Riley Goodside 的提問方式,“它(大模型)對詞序敏感![我相信你也知道]如果你把數字放在問題后面,他們就會答對[google 和 openai,anthropic 則不然]。你使用斜線也是有意混淆視聽嗎?”
對此,Riley Goodside 給出自己的解釋:
澄清一下:我并不是說無論如何提示,任何 LLM 都會始終如一地認為9.11>9.9。我是說,如果你以這種特定方式給出 Prompt,許多領先的模型都會告訴你9.11>9.9,這就很奇怪了。如果你想重現,請粘貼文本中的 Prompt(9.11and9.9- which is bigger?)。
為了復現這個問題,數字確實需要放在問題前面。但以下內容似乎都無關緊要:
- 標點符號(破折號/逗號/無標點)
- 連詞(和/或/對比)
- 比較詞(更大/更大/更大)
- 說明這些是實數
針對質疑,也有好奇的用戶嘗試了去掉了問題中間的”-“符號,結果還是如此:
我們換了種提問方式,即使明確這是數值了,ChatGPT4o 還是堅定的表示:9.11比9.9要大!
延著這個問題,當有網友進一步提問時,更為離譜的事情發(fā)生了:當讓這兩個數值相減時,ChatGPT4o 直接用9.11的百分位中的1減去9.9百分位上的0;又用9.11十分位上的1減去9.9十分位上的9,最終不夠減之后,向前借一位又忽略了這一點,得到了0.21的錯誤結果。
如今看來,對大模型提出哪個數字更大問題時,它們將數值分成了兩個部分,9.11和9.9的整數、小數分別做了比較,整數部分為9對比完之后,再將小數部分的十分位、百分位整體做了比較,其認為11>9,進而給出了9.11>9.9的結果。
國產大模型實測
那么在這個簡單的問題上,國產大模型的表現力又如何呢?
先來看看阿里的通義千問的。它不僅給出了詳細的解釋,而且結果也是正確的。
百度文心一言同樣正確:
騰訊元寶:
昆侖萬維的天工在開啟了全網搜索后,給出了簡潔的正確答案:
科大訊飛的星火大模型:
360智腦在回答這一問題時同樣觸發(fā)了聯網搜索功能,好在給出了正確的答案:
百川智能的回答同樣沒有問題:
不過實測過程中,也有些起初錯誤,但是用同樣問題問第二遍時又有了改正:
遺憾的是,也有一些模型還存在問題:
爭論依然存在
不僅如此,有網友在實測負數時,GPT 們依然也被繞暈了:
還有網友在測評9.11美元和9.9美元時評價道:
大型語言模型(LLM)為什么在基礎數學上失敗,卻仍然能通過許多學術考試?
非常有趣的是,它并不理解小數的基本概念。認為11比9大,所以9.11>9.9。
但是,當它開始進一步解釋為什么9.11>9.9時,它又將數字轉換為文本,并且有大量的數據表明90美分比11美分大,所以它不斷糾正自己。
從大型語言數據庫進行統(tǒng)計推斷并不是推理機器?我猜測即使增加數據和計算量,LLM 模型也不會達到人類水平的推理能力。它們需要發(fā)現更好的算法來復制人類的智能。
至于為什么僅是比較數值時出錯,不少人猜測,這似乎與語序有很大關系。
大模型如今在基礎能力方面的表現,也不禁讓人想到就在幾天前,Google DeepMind CEO Demis Hassabis 在公開場合表示,“當前的 AI 在智力方面與貓的水平相當,甚至還不如普通家貓”,這無疑給許多期待 AGI(通用人工智能)即將到來的人潑了一盆涼水。
來源:
https://x.com/goodside/status/1812990703473172813
以上就是關于【繞暈了!9.11 大還是 9.9 大,難倒一批 AI 大模型?】的相關內容,希望對大家有幫助!
免責聲明:本文由用戶上傳,與本網站立場無關。財經信息僅供讀者參考,并不構成投資建議。投資者據此操作,風險自擔。 如有侵權請聯系刪除!
-
奔馳GLE作為豪華SUV市場中的佼佼者,憑借其卓越的性能、豪華的內飾以及寬敞的空間,吸引了眾多消費者的關注。...瀏覽全文>>
-
在2025年,安徽阜陽地區(qū)的帕薩特新能源汽車市場表現非?;钴S。作為一款備受關注的新能源車型,帕薩特新能源憑...瀏覽全文>>
-
近日,滁州地區(qū)的大眾汽車經銷商傳來好消息:備受矚目的2025款T-ROC探歌正式上市,并且以極具競爭力的價格吸引...瀏覽全文>>
-
在選擇一款新能源汽車時,了解其價格和配置是非常重要的一步。安徽淮南地區(qū)的長安啟源E07作為2024款的新車型,...瀏覽全文>>
-
阜陽長安啟源A05作為長安汽車旗下的全新車型,自推出以來便憑借其獨特的設計風格和豐富的配置吸引了眾多消費者...瀏覽全文>>
-
阜陽長安啟源A07作為一款備受矚目的新能源車型,以其豪華配置和親民的價格在市場上引起了廣泛關注。這款車型不...瀏覽全文>>
-
安徽淮南威然2024款價格及配置詳解隨著汽車市場的不斷更新換代,上汽大眾旗下的MPV車型——威然(Viloran)憑...瀏覽全文>>
-
QQ多米新車報價2025款,買車省錢秘籍隨著汽車市場的不斷發(fā)展,消費者在選購車輛時不僅關注車型的性能和配置,...瀏覽全文>>
-
滁州途觀X 2024款最新價格及買車省錢秘籍隨著汽車市場的不斷發(fā)展,大眾途觀X作為一款兼具時尚與性能的中型SUV...瀏覽全文>>
-
隨著汽車市場的不斷發(fā)展,大眾蔚攬以其優(yōu)雅的設計和卓越的性能贏得了眾多消費者的青睞。作為一款兼具實用性和...瀏覽全文>>
- Nvidia DLSS 4 有望將游戲性能提高 8 倍
- 人工智能在預測自身免疫性疾病進展方面顯示出良好的前景
- 心理物理實驗揭示皮膚水分感知是如何改變的
- 科茨沃爾德公司慶祝圣誕節(jié)圓滿成功
- 南法納姆學校被評為薩里郡表現最好的小學
- 約克區(qū)九所小學將削減招生人數
- 松下新款電動汽車電池為 Lucid Gravity 帶來 450 英里續(xù)航里程
- 泰國旅游呈現新趨勢
- 研究人員找到在細胞水平上餓死前列腺癌腫瘤的新方法
- 領先的人工智能聊天機器人在測試中表現出類似癡呆癥的認知能力下降
- 龐大的 Project Zomboid build 42 終于可以玩了
- Steam Replay 回歸向您展示 2024 年您玩得最多的 PC 游戲
- Jollyes 推出強化的人才支持和招聘措施
- Karen Millen 與 Simon Harrison 共同推出全新高級珠寶系列
- 奇瑞風云A8L電動轎車刷新續(xù)航里程世界紀錄
- 虛擬藝術家將別克 Cascada 帶回 2026 款車型
- OnePlus 宣布推出新計劃解決綠線問題
- OnePlus Watch 3 將擁有更大的電池和更薄的機身
- 研究人員發(fā)現可變剪接與自身免疫性疾病遺傳之間的細胞類型特異性聯系
- 科學家確定腦細胞類型是排尿的主要控制者