最新亚洲人成无码网站,夜夜操夜夜操夜夜爽,中文字日产幕乱五区,在线成人看片黄a免费看,亚洲自偷自拍另类11p

首頁 >> 今日更新 >

繞暈了!9.11 大還是 9.9 大,難倒一批 AI 大模型?

2024-07-17 11:30:06 來源: 用戶: 

相信很多大家對繞暈了!9.11 大還是 9.9 大,難倒一批 AI 大模型?還不知道吧,今天菲菲就帶你們一起去了解一下~.~!

「9.11和9.9,哪個大?」

對于不少習慣了更新軟件版本號的程序員而言,不少人的第一反應就是:當然是9.11大。但是如果沒有限定場景,只是單純地提出上面這個問題時,結果必然是相反的。

沒想到,將這個問題拋給前能答疑解惑、后能挑戰(zhàn)各種高數難題的 AI 大模型時,各種“翻車”情況也隨之出現了。

國外大模型:9.11vs9.9,哪個大?

具體的事情要從一位名為 Riley Goodside 工程師的推文談起。

值得一提的是,Riley Goodside 是 AI 數據標注賽道“獨角獸”Scale AI 公司的一名 staff prompt engineer,這個崗位的職責具體是指在生成式 AI 和自然語言處理領域內,專門設計和優(yōu)化提示(prompt)的人。這個角色要求深入理解如何構建有效的 Prompt,以引導 AI 模型生成所需的輸出。

幾個小時前,Riley Goodside 連發(fā)幾條推文分享了自己的一些發(fā)現,即用「9.11and9.9- which is bigger?」為 Prompt 輸入給各家大模型時,如當前業(yè)界公認最先進模型之一的 ChatGPT4o 的輸出是:

9.11比9.9大。

再來看看 Gemini Advanced 的表現,同樣“翻車”:

9.11>9.9

雖然 Claude3.5Sonnet 最終也未能逃過這個模糊問題帶來的“坑”,但是其給出的解釋中,一度就要回答正確了,其寫道:

“兩個數字中的整數部分(9)都是相同的,所以我們需要比較小數部分。

在9.11中,十分位是1/10(或0.1)。在9.9中,十分位是9/10(或0.9)。

由于9/10大于1/10,乍看之下可能覺得9.9更大。”

沒想到接下來畫風急轉,Claude3.5Sonnet 有似是有理有據地說:

但是,我們還需要考慮百分位。

9.9可以寫成9.90以顯示百分位。

現在我們可以清楚地看到9.11大于9.90(或9.9),因為在百分位上,1大于0。

因此,9.11是較大的數。

最終在正確的答案上漸行漸遠:

這個簡單的問題也讓不少人聯想到前幾天國內關于《歌手2024》「終極襲榜賽」競演結果的排名。

當時有不少網友就13.8%和13.11%哪個大的問題爭論了起來。

在糾正不了「某些已形成思維定式」的用戶想法之后,甚至有人搬出了教材給出解釋,“在最新人教版小學四年級數學下冊課本中,我們可以找到相關知識點:比較兩個小數的大小,先看它們的整數部分,整數部分大的那個數就大;整數部分相同的,十分位上的數大的那個數就大;十分位上的數也相同的,百分位上的數大的那個數就大..."

在今天 Riley Goodside 分享 AI 大模型回答這一問題的表現時,來自 Google 前工程師、Allen AI 研究員 Bill Yuchen Lin 也將比較的數值換成了13.11和13.8,再次問及大模型,沒想到答案還是出錯了。

其評價道,「數學奧林匹克競賽對人工智能來說更容易,但常識仍然很難?!?/p>

同時,他還表示,“這種常識性 AI 失敗案例,讓我不禁想起@YejinChoinka的 TED 演講:《為什么 AI 既聰明得令人難以置信,又愚蠢得令人震驚》(https://www.ted.com/talks/yejin_choi_why_ai_is_incredibly_smart_and_shockingly_stupid)”。

換個 Prompt,答案會不會不一樣?

不過,也有人質疑作為 Prompt 工程師的Riley Goodside 的提問方式,“它(大模型)對詞序敏感![我相信你也知道]如果你把數字放在問題后面,他們就會答對[google 和 openai,anthropic 則不然]。你使用斜線也是有意混淆視聽嗎?”

對此,Riley Goodside 給出自己的解釋:

澄清一下:我并不是說無論如何提示,任何 LLM 都會始終如一地認為9.11>9.9。我是說,如果你以這種特定方式給出 Prompt,許多領先的模型都會告訴你9.11>9.9,這就很奇怪了。如果你想重現,請粘貼文本中的 Prompt(9.11and9.9- which is bigger?)。

為了復現這個問題,數字確實需要放在問題前面。但以下內容似乎都無關緊要:

- 標點符號(破折號/逗號/無標點)

- 連詞(和/或/對比)

- 比較詞(更大/更大/更大)

- 說明這些是實數

針對質疑,也有好奇的用戶嘗試了去掉了問題中間的”-“符號,結果還是如此:

我們換了種提問方式,即使明確這是數值了,ChatGPT4o 還是堅定的表示:9.11比9.9要大!

延著這個問題,當有網友進一步提問時,更為離譜的事情發(fā)生了:當讓這兩個數值相減時,ChatGPT4o 直接用9.11的百分位中的1減去9.9百分位上的0;又用9.11十分位上的1減去9.9十分位上的9,最終不夠減之后,向前借一位又忽略了這一點,得到了0.21的錯誤結果。

如今看來,對大模型提出哪個數字更大問題時,它們將數值分成了兩個部分,9.11和9.9的整數、小數分別做了比較,整數部分為9對比完之后,再將小數部分的十分位、百分位整體做了比較,其認為11>9,進而給出了9.11>9.9的結果。

國產大模型實測

那么在這個簡單的問題上,國產大模型的表現力又如何呢?

先來看看阿里的通義千問的。它不僅給出了詳細的解釋,而且結果也是正確的。

百度文心一言同樣正確:

騰訊元寶:

昆侖萬維的天工在開啟了全網搜索后,給出了簡潔的正確答案:

科大訊飛的星火大模型:

360智腦在回答這一問題時同樣觸發(fā)了聯網搜索功能,好在給出了正確的答案:

百川智能的回答同樣沒有問題:

不過實測過程中,也有些起初錯誤,但是用同樣問題問第二遍時又有了改正:

遺憾的是,也有一些模型還存在問題:

爭論依然存在

不僅如此,有網友在實測負數時,GPT 們依然也被繞暈了:

還有網友在測評9.11美元和9.9美元時評價道:

大型語言模型(LLM)為什么在基礎數學上失敗,卻仍然能通過許多學術考試?

非常有趣的是,它并不理解小數的基本概念。認為11比9大,所以9.11>9.9。

但是,當它開始進一步解釋為什么9.11>9.9時,它又將數字轉換為文本,并且有大量的數據表明90美分比11美分大,所以它不斷糾正自己。

從大型語言數據庫進行統(tǒng)計推斷并不是推理機器?我猜測即使增加數據和計算量,LLM 模型也不會達到人類水平的推理能力。它們需要發(fā)現更好的算法來復制人類的智能。

至于為什么僅是比較數值時出錯,不少人猜測,這似乎與語序有很大關系。

大模型如今在基礎能力方面的表現,也不禁讓人想到就在幾天前,Google DeepMind CEO Demis Hassabis 在公開場合表示,“當前的 AI 在智力方面與貓的水平相當,甚至還不如普通家貓”,這無疑給許多期待 AGI(通用人工智能)即將到來的人潑了一盆涼水。

來源:

https://x.com/goodside/status/1812990703473172813

以上就是關于【繞暈了!9.11 大還是 9.9 大,難倒一批 AI 大模型?】的相關內容,希望對大家有幫助!

  免責聲明:本文由用戶上傳,與本網站立場無關。財經信息僅供讀者參考,并不構成投資建議。投資者據此操作,風險自擔。 如有侵權請聯系刪除!

 
分享:
最新文章