繞暈了！9.11 大還是 9.9 大，難倒一批 AI 大模型？

2024-07-17 11:30:06 來(lái)源：用戶(hù)：

相信很多大家對(duì)繞暈了！9.11 大還是 9.9 大，難倒一批 AI 大模型？還不知道吧，今天菲菲就帶你們一起去了解一下~.~！

「9.11和9.9，哪個(gè)大?」

對(duì)于不少習(xí)慣了更新軟件版本號(hào)的程序員而言，不少人的第一反應(yīng)就是:當(dāng)然是9.11大。但是如果沒(méi)有限定場(chǎng)景，只是單純地提出上面這個(gè)問(wèn)題時(shí)，結(jié)果必然是相反的。

沒(méi)想到，將這個(gè)問(wèn)題拋給前能答疑解惑、后能挑戰(zhàn)各種高數(shù)難題的 AI 大模型時(shí)，各種“翻車(chē)”情況也隨之出現(xiàn)了。

國(guó)外大模型:9.11vs9.9，哪個(gè)大?

具體的事情要從一位名為 Riley Goodside 工程師的推文談起。

值得一提的是，Riley Goodside 是 AI 數(shù)據(jù)標(biāo)注賽道“獨(dú)角獸”Scale AI 公司的一名 staff prompt engineer，這個(gè)崗位的職責(zé)具體是指在生成式 AI 和自然語(yǔ)言處理領(lǐng)域內(nèi)，專(zhuān)門(mén)設(shè)計(jì)和優(yōu)化提示（prompt）的人。這個(gè)角色要求深入理解如何構(gòu)建有效的 Prompt，以引導(dǎo) AI 模型生成所需的輸出。

幾個(gè)小時(shí)前，Riley Goodside 連發(fā)幾條推文分享了自己的一些發(fā)現(xiàn)，即用「9.11and9.9- which is bigger?」為 Prompt 輸入給各家大模型時(shí)，如當(dāng)前業(yè)界公認(rèn)最先進(jìn)模型之一的 ChatGPT4o 的輸出是:

9.11比9.9大。

再來(lái)看看 Gemini Advanced 的表現(xiàn)，同樣“翻車(chē)”:

9.11>9.9

雖然 Claude3.5Sonnet 最終也未能逃過(guò)這個(gè)模糊問(wèn)題帶來(lái)的“坑”，但是其給出的解釋中，一度就要回答正確了，其寫(xiě)道:

“兩個(gè)數(shù)字中的整數(shù)部分（9）都是相同的，所以我們需要比較小數(shù)部分。

在9.11中，十分位是1/10（或0.1）。在9.9中，十分位是9/10(或0.9)。

由于9/10大于1/10，乍看之下可能覺(jué)得9.9更大?！?/p>

沒(méi)想到接下來(lái)畫(huà)風(fēng)急轉(zhuǎn)，Claude3.5Sonnet 有似是有理有據(jù)地說(shuō):

但是，我們還需要考慮百分位。

9.9可以寫(xiě)成9.90以顯示百分位。

現(xiàn)在我們可以清楚地看到9.11大于9.90（或9.9），因?yàn)樵诎俜治簧希?大于0。

因此，9.11是較大的數(shù)。

最終在正確的答案上漸行漸遠(yuǎn):

這個(gè)簡(jiǎn)單的問(wèn)題也讓不少人聯(lián)想到前幾天國(guó)內(nèi)關(guān)于《歌手2024》「終極襲榜賽」競(jìng)演結(jié)果的排名。

當(dāng)時(shí)有不少網(wǎng)友就13.8%和13.11%哪個(gè)大的問(wèn)題爭(zhēng)論了起來(lái)。

在糾正不了「某些已形成思維定式」的用戶(hù)想法之后，甚至有人搬出了教材給出解釋?zhuān)霸谧钚氯私贪嫘W(xué)四年級(jí)數(shù)學(xué)下冊(cè)課本中，我們可以找到相關(guān)知識(shí)點(diǎn):比較兩個(gè)小數(shù)的大小，先看它們的整數(shù)部分，整數(shù)部分大的那個(gè)數(shù)就大;整數(shù)部分相同的，十分位上的數(shù)大的那個(gè)數(shù)就大;十分位上的數(shù)也相同的，百分位上的數(shù)大的那個(gè)數(shù)就大..."

在今天 Riley Goodside 分享 AI 大模型回答這一問(wèn)題的表現(xiàn)時(shí)，來(lái)自 Google 前工程師、Allen AI 研究員 Bill Yuchen Lin 也將比較的數(shù)值換成了13.11和13.8，再次問(wèn)及大模型，沒(méi)想到答案還是出錯(cuò)了。

其評(píng)價(jià)道，「數(shù)學(xué)奧林匹克競(jìng)賽對(duì)人工智能來(lái)說(shuō)更容易，但常識(shí)仍然很難?！?/p>

同時(shí)，他還表示，“這種常識(shí)性 AI 失敗案例，讓我不禁想起@YejinChoinka的 TED 演講:《為什么 AI 既聰明得令人難以置信，又愚蠢得令人震驚》（https://www.ted.com/talks/yejin_choi_why_ai_is_incredibly_smart_and_shockingly_stupid）”。

換個(gè) Prompt，答案會(huì)不會(huì)不一樣?

不過(guò)，也有人質(zhì)疑作為 Prompt 工程師的Riley Goodside 的提問(wèn)方式，“它（大模型）對(duì)詞序敏感![我相信你也知道]如果你把數(shù)字放在問(wèn)題后面，他們就會(huì)答對(duì)[google 和 openai，anthropic 則不然]。你使用斜線(xiàn)也是有意混淆視聽(tīng)嗎?”

對(duì)此，Riley Goodside 給出自己的解釋:

澄清一下:我并不是說(shuō)無(wú)論如何提示，任何 LLM 都會(huì)始終如一地認(rèn)為9.11>9.9。我是說(shuō)，如果你以這種特定方式給出 Prompt，許多領(lǐng)先的模型都會(huì)告訴你9.11>9.9，這就很奇怪了。如果你想重現(xiàn)，請(qǐng)粘貼文本中的 Prompt（9.11and9.9- which is bigger?）。

為了復(fù)現(xiàn)這個(gè)問(wèn)題，數(shù)字確實(shí)需要放在問(wèn)題前面。但以下內(nèi)容似乎都無(wú)關(guān)緊要:

- 標(biāo)點(diǎn)符號(hào)（破折號(hào)/逗號(hào)/無(wú)標(biāo)點(diǎn)）

- 連詞（和/或/對(duì)比）

- 比較詞（更大/更大/更大）

- 說(shuō)明這些是實(shí)數(shù)

針對(duì)質(zhì)疑，也有好奇的用戶(hù)嘗試了去掉了問(wèn)題中間的”-“符號(hào)，結(jié)果還是如此:

我們換了種提問(wèn)方式，即使明確這是數(shù)值了，ChatGPT4o 還是堅(jiān)定的表示:9.11比9.9要大!

延著這個(gè)問(wèn)題，當(dāng)有網(wǎng)友進(jìn)一步提問(wèn)時(shí)，更為離譜的事情發(fā)生了:當(dāng)讓這兩個(gè)數(shù)值相減時(shí)，ChatGPT4o 直接用9.11的百分位中的1減去9.9百分位上的0;又用9.11十分位上的1減去9.9十分位上的9，最終不夠減之后，向前借一位又忽略了這一點(diǎn)，得到了0.21的錯(cuò)誤結(jié)果。

如今看來(lái)，對(duì)大模型提出哪個(gè)數(shù)字更大問(wèn)題時(shí)，它們將數(shù)值分成了兩個(gè)部分，9.11和9.9的整數(shù)、小數(shù)分別做了比較，整數(shù)部分為9對(duì)比完之后，再將小數(shù)部分的十分位、百分位整體做了比較，其認(rèn)為11>9，進(jìn)而給出了9.11>9.9的結(jié)果。

國(guó)產(chǎn)大模型實(shí)測(cè)

那么在這個(gè)簡(jiǎn)單的問(wèn)題上，國(guó)產(chǎn)大模型的表現(xiàn)力又如何呢?

先來(lái)看看阿里的通義千問(wèn)的。它不僅給出了詳細(xì)的解釋?zhuān)医Y(jié)果也是正確的。

百度文心一言同樣正確:

騰訊元寶:

昆侖萬(wàn)維的天工在開(kāi)啟了全網(wǎng)搜索后，給出了簡(jiǎn)潔的正確答案:

科大訊飛的星火大模型:

360智腦在回答這一問(wèn)題時(shí)同樣觸發(fā)了聯(lián)網(wǎng)搜索功能，好在給出了正確的答案:

百川智能的回答同樣沒(méi)有問(wèn)題:

不過(guò)實(shí)測(cè)過(guò)程中，也有些起初錯(cuò)誤，但是用同樣問(wèn)題問(wèn)第二遍時(shí)又有了改正:

遺憾的是，也有一些模型還存在問(wèn)題:

爭(zhēng)論依然存在

不僅如此，有網(wǎng)友在實(shí)測(cè)負(fù)數(shù)時(shí)，GPT 們依然也被繞暈了:

還有網(wǎng)友在測(cè)評(píng)9.11美元和9.9美元時(shí)評(píng)價(jià)道:

大型語(yǔ)言模型（LLM）為什么在基礎(chǔ)數(shù)學(xué)上失敗，卻仍然能通過(guò)許多學(xué)術(shù)考試?

非常有趣的是，它并不理解小數(shù)的基本概念。認(rèn)為11比9大，所以9.11>9.9。

但是，當(dāng)它開(kāi)始進(jìn)一步解釋為什么9.11>9.9時(shí)，它又將數(shù)字轉(zhuǎn)換為文本，并且有大量的數(shù)據(jù)表明90美分比11美分大，所以它不斷糾正自己。

從大型語(yǔ)言數(shù)據(jù)庫(kù)進(jìn)行統(tǒng)計(jì)推斷并不是推理機(jī)器?我猜測(cè)即使增加數(shù)據(jù)和計(jì)算量，LLM 模型也不會(huì)達(dá)到人類(lèi)水平的推理能力。它們需要發(fā)現(xiàn)更好的算法來(lái)復(fù)制人類(lèi)的智能。

至于為什么僅是比較數(shù)值時(shí)出錯(cuò)，不少人猜測(cè)，這似乎與語(yǔ)序有很大關(guān)系。

大模型如今在基礎(chǔ)能力方面的表現(xiàn)，也不禁讓人想到就在幾天前，Google DeepMind CEO Demis Hassabis 在公開(kāi)場(chǎng)合表示，“當(dāng)前的 AI 在智力方面與貓的水平相當(dāng)，甚至還不如普通家貓”，這無(wú)疑給許多期待 AGI（通用人工智能）即將到來(lái)的人潑了一盆涼水。

來(lái)源:

https://x.com/goodside/status/1812990703473172813

以上就是關(guān)于【繞暈了！9.11 大還是 9.9 大，難倒一批 AI 大模型？】的相關(guān)內(nèi)容，希望對(duì)大家有幫助！

標(biāo)簽：繞暈了！9 11 大還是 9 9 大，難倒一批 AI 大模型？

　　免責(zé)聲明：本文由用戶(hù)上傳，與本網(wǎng)站立場(chǎng)無(wú)關(guān)。財(cái)經(jīng)信息僅供讀者參考，并不構(gòu)成投資建議。投資者據(jù)此操作，風(fēng)險(xiǎn)自擔(dān)。如有侵權(quán)請(qǐng)聯(lián)系刪除！

分享：

相關(guān)閱讀

董明珠曾喊話(huà)雷軍給股民分多少錢(qián)！格力：擬分紅超55億

Epic喜+1：動(dòng)作游戲《師父》免費(fèi)領(lǐng) 立省139元

雷軍辟謠只招聘35歲以下員工：僅針對(duì)未來(lái)之星項(xiàng)目

普華永道發(fā)布2025年AI預(yù)測(cè)：AI Agents將勞動(dòng)力提升1倍

雷軍回應(yīng)股價(jià)暴跌：年年難過(guò)年年過(guò)

一天100座！理想汽車(chē)第1700座超充站正式建成

《守望先鋒》國(guó)服宣布2月19日回歸：賬號(hào)數(shù)據(jù)完整保留

雷軍建議創(chuàng)業(yè)者要多留點(diǎn)錢(qián)給員工：別到山窮水盡才講問(wèn)題

雷軍新年第一天收到200元紅包自侃年入百萬(wàn)的開(kāi)始

雷軍親自展示REDMI Turbo 4！2025年第一款新機(jī)

雷軍：小米未來(lái)10年建至少20座世界頂級(jí)工廠

雷軍辟謠只招聘35歲以下員工：只有招聘未來(lái)之星時(shí)才有年齡限制

雷軍回應(yīng)100億造車(chē)：沒(méi)有好到“封神” 不要神話(huà)我

雷軍表態(tài)：一心做好小米汽車(chē) 大家可以在“許愿池”尋找商機(jī)

雷軍：中國(guó)汽車(chē)產(chǎn)業(yè)應(yīng)少些歪門(mén)邪道不要發(fā)黑稿、背后捅刀子

小米SU7選配色都是7000元為什么璀璨洋紅卻需要9000元

最新文章

空調(diào)外機(jī)聲音大是什么問(wèn)題

【空調(diào)外機(jī)聲音大是什么問(wèn)題】空調(diào)在使用過(guò)程中，如果發(fā)現(xiàn)外機(jī)發(fā)出異常的噪音，可能會(huì)讓人感到困擾?？照{(diào)外機(jī)...瀏覽全文>>

空調(diào)外機(jī)聲音大如何解決

【空調(diào)外機(jī)聲音大如何解決】空調(diào)在使用過(guò)程中，外機(jī)發(fā)出較大的噪音是很多用戶(hù)遇到的常見(jiàn)問(wèn)題。這不僅影響居住...瀏覽全文>>

空調(diào)外機(jī)清洗方法是什么

【空調(diào)外機(jī)清洗方法是什么】空調(diào)外機(jī)是空調(diào)系統(tǒng)中非常重要的組成部分，它的清潔程度直接影響到空調(diào)的制冷效果...瀏覽全文>>

空調(diào)突然不制冷的原因

【空調(diào)突然不制冷的原因】當(dāng)家中的空調(diào)突然不再制冷時(shí)，不僅影響使用體驗(yàn)，還可能帶來(lái)一定的安全隱患。了解空...瀏覽全文>>

空調(diào)銅管什么作用

【空調(diào)銅管什么作用】空調(diào)在現(xiàn)代生活中扮演著越來(lái)越重要的角色，尤其是在夏季高溫時(shí)，它為我們提供了舒適的室...瀏覽全文>>

空調(diào)銅管結(jié)霜怎么回事

【空調(diào)銅管結(jié)霜怎么回事】空調(diào)在使用過(guò)程中，有時(shí)會(huì)出現(xiàn)銅管結(jié)霜的現(xiàn)象，這不僅影響制冷效果，還可能對(duì)設(shè)備造...瀏覽全文>>

空調(diào)銅管結(jié)霜是什么原因

【空調(diào)銅管結(jié)霜是什么原因】當(dāng)空調(diào)運(yùn)行時(shí)，如果發(fā)現(xiàn)室內(nèi)機(jī)的銅管出現(xiàn)結(jié)霜現(xiàn)象，這不僅影響制冷效果，還可能對(duì)...瀏覽全文>>

空谷幽蘭是什么意思

【空谷幽蘭是什么意思】“空谷幽蘭”是一個(gè)富有詩(shī)意的成語(yǔ)，常用來(lái)形容在偏僻、冷清的地方生長(zhǎng)的蘭花。它不僅...瀏覽全文>>

空格怎么打出來(lái)

【空格怎么打出來(lái)】在日常使用電腦或手機(jī)輸入文字時(shí)，經(jīng)常會(huì)遇到需要輸入“空格”的情況。雖然看似簡(jiǎn)單，但很...瀏覽全文>>

空格怎么打

【空格怎么打】在日常使用電腦或手機(jī)時(shí)，很多人會(huì)遇到“空格怎么打”的問(wèn)題。其實(shí)，“空格”是一個(gè)非?；A(chǔ)的...瀏覽全文>>

大家愛(ài)看

空調(diào)銅管什么作用

空格怎么打

空格鍵是指的哪一個(gè)

可微與可導(dǎo)的關(guān)系

科技感十足的公司名稱(chēng)公司起名

考研難考嗎

康復(fù)醫(yī)院是做什么的

康復(fù)學(xué)專(zhuān)業(yè)考研學(xué)校

開(kāi)通國(guó)際漫游多少錢(qián)一個(gè)月

開(kāi)通電信Volte功能免費(fèi)嗎

頻道推薦

空調(diào)銅管結(jié)霜是什么原因

空格名字怎么打

可微與可導(dǎo)之間的聯(lián)系是什么

科技工業(yè)是什么

科技發(fā)展給生活帶來(lái)的好處

考研歧視最嚴(yán)重的高校

康復(fù)理療師證書(shū)哪里頒發(fā)

康復(fù)考研最好的學(xué)校有哪些

卡姐新歌wap原版歌詞介紹

卡機(jī)嘛韓語(yǔ)的意思

站長(zhǎng)推薦

空調(diào)突然不制冷的原因

空格怎么打出來(lái)

空城舊夢(mèng)是情侶網(wǎng)名嗎

可吸收線(xiàn)是什么顏色

可微與可導(dǎo)之間有什么聯(lián)系

康復(fù)是什么意思

康復(fù)評(píng)定包括哪5個(gè)方面

開(kāi)通QQ十周年黃鉆是不是可以永久使用十周年黃鉆標(biāo)志

卡路里和焦耳怎么換算

卡樂(lè)購(gòu)是什么意思

卡拉瓦喬代表作

巨鱷的電影有什么

巨大的英語(yǔ)是什么

禁閉島的結(jié)局真相

靳東個(gè)人資料

靳東的妹妹為什么叫高露

金枝玉葉繁殖方法

金針菜和黃花菜是一種嗎

金吉鳥(niǎo)健身私教一般多少

戒指戴什么手指好

關(guān)于我們| 聯(lián)系方式| 版權(quán)聲明| 免責(zé)聲明|

Copyright ? 2007-2025 www.gaipa.cn All Right Reserved. 版權(quán)所有新訊網(wǎng) 工信部網(wǎng)站備案編號(hào)：閩ICP備20009419號(hào)-52

感谢您访问我们的网站，您可能还对以下资源感兴趣：
最新亚洲人成无码网站

最新亚洲人成无码网站,夜夜操夜夜操夜夜爽,中文字日产幕乱五区,在线成人看片黄a免费看,亚洲自偷自拍另类11p

繞暈了！9.11 大還是 9.9 大，難倒一批 AI 大模型？

繞暈了！9.11 大還是 9.9 大，難倒一批 AI 大模型？