繞暈了！9.11 大還是 9.9 大，難倒一批 AI 大模型？

2024-07-17 11:30:06 來(lái)源：用戶：

相信很多大家對(duì)繞暈了！9.11 大還是 9.9 大，難倒一批 AI 大模型？還不知道吧，今天菲菲就帶你們一起去了解一下~.~！

「9.11和9.9，哪個(gè)大?」

對(duì)于不少習(xí)慣了更新軟件版本號(hào)的程序員而言，不少人的第一反應(yīng)就是:當(dāng)然是9.11大。但是如果沒有限定場(chǎng)景，只是單純地提出上面這個(gè)問題時(shí)，結(jié)果必然是相反的。

沒想到，將這個(gè)問題拋給前能答疑解惑、后能挑戰(zhàn)各種高數(shù)難題的 AI 大模型時(shí)，各種“翻車”情況也隨之出現(xiàn)了。

國(guó)外大模型:9.11vs9.9，哪個(gè)大?

具體的事情要從一位名為 Riley Goodside 工程師的推文談起。

值得一提的是，Riley Goodside 是 AI 數(shù)據(jù)標(biāo)注賽道“獨(dú)角獸”Scale AI 公司的一名 staff prompt engineer，這個(gè)崗位的職責(zé)具體是指在生成式 AI 和自然語(yǔ)言處理領(lǐng)域內(nèi)，專門設(shè)計(jì)和優(yōu)化提示（prompt）的人。這個(gè)角色要求深入理解如何構(gòu)建有效的 Prompt，以引導(dǎo) AI 模型生成所需的輸出。

幾個(gè)小時(shí)前，Riley Goodside 連發(fā)幾條推文分享了自己的一些發(fā)現(xiàn)，即用「9.11and9.9- which is bigger?」為 Prompt 輸入給各家大模型時(shí)，如當(dāng)前業(yè)界公認(rèn)最先進(jìn)模型之一的 ChatGPT4o 的輸出是:

9.11比9.9大。

再來(lái)看看 Gemini Advanced 的表現(xiàn)，同樣“翻車”:

9.11>9.9

雖然 Claude3.5Sonnet 最終也未能逃過(guò)這個(gè)模糊問題帶來(lái)的“坑”，但是其給出的解釋中，一度就要回答正確了，其寫道:

“兩個(gè)數(shù)字中的整數(shù)部分（9）都是相同的，所以我們需要比較小數(shù)部分。

在9.11中，十分位是1/10（或0.1）。在9.9中，十分位是9/10(或0.9)。

由于9/10大于1/10，乍看之下可能覺得9.9更大?！?/p>

沒想到接下來(lái)畫風(fēng)急轉(zhuǎn)，Claude3.5Sonnet 有似是有理有據(jù)地說(shuō):

但是，我們還需要考慮百分位。

9.9可以寫成9.90以顯示百分位。

現(xiàn)在我們可以清楚地看到9.11大于9.90（或9.9），因?yàn)樵诎俜治簧希?大于0。

因此，9.11是較大的數(shù)。

最終在正確的答案上漸行漸遠(yuǎn):

這個(gè)簡(jiǎn)單的問題也讓不少人聯(lián)想到前幾天國(guó)內(nèi)關(guān)于《歌手2024》「終極襲榜賽」競(jìng)演結(jié)果的排名。

當(dāng)時(shí)有不少網(wǎng)友就13.8%和13.11%哪個(gè)大的問題爭(zhēng)論了起來(lái)。

在糾正不了「某些已形成思維定式」的用戶想法之后，甚至有人搬出了教材給出解釋，“在最新人教版小學(xué)四年級(jí)數(shù)學(xué)下冊(cè)課本中，我們可以找到相關(guān)知識(shí)點(diǎn):比較兩個(gè)小數(shù)的大小，先看它們的整數(shù)部分，整數(shù)部分大的那個(gè)數(shù)就大;整數(shù)部分相同的，十分位上的數(shù)大的那個(gè)數(shù)就大;十分位上的數(shù)也相同的，百分位上的數(shù)大的那個(gè)數(shù)就大..."

在今天 Riley Goodside 分享 AI 大模型回答這一問題的表現(xiàn)時(shí)，來(lái)自 Google 前工程師、Allen AI 研究員 Bill Yuchen Lin 也將比較的數(shù)值換成了13.11和13.8，再次問及大模型，沒想到答案還是出錯(cuò)了。

其評(píng)價(jià)道，「數(shù)學(xué)奧林匹克競(jìng)賽對(duì)人工智能來(lái)說(shuō)更容易，但常識(shí)仍然很難?！?/p>

同時(shí)，他還表示，“這種常識(shí)性 AI 失敗案例，讓我不禁想起@YejinChoinka的 TED 演講:《為什么 AI 既聰明得令人難以置信，又愚蠢得令人震驚》（https://www.ted.com/talks/yejin_choi_why_ai_is_incredibly_smart_and_shockingly_stupid）”。

換個(gè) Prompt，答案會(huì)不會(huì)不一樣?

不過(guò)，也有人質(zhì)疑作為 Prompt 工程師的Riley Goodside 的提問方式，“它（大模型）對(duì)詞序敏感![我相信你也知道]如果你把數(shù)字放在問題后面，他們就會(huì)答對(duì)[google 和 openai，anthropic 則不然]。你使用斜線也是有意混淆視聽嗎?”

對(duì)此，Riley Goodside 給出自己的解釋:

澄清一下:我并不是說(shuō)無(wú)論如何提示，任何 LLM 都會(huì)始終如一地認(rèn)為9.11>9.9。我是說(shuō)，如果你以這種特定方式給出 Prompt，許多領(lǐng)先的模型都會(huì)告訴你9.11>9.9，這就很奇怪了。如果你想重現(xiàn)，請(qǐng)粘貼文本中的 Prompt（9.11and9.9- which is bigger?）。

為了復(fù)現(xiàn)這個(gè)問題，數(shù)字確實(shí)需要放在問題前面。但以下內(nèi)容似乎都無(wú)關(guān)緊要:

- 標(biāo)點(diǎn)符號(hào)（破折號(hào)/逗號(hào)/無(wú)標(biāo)點(diǎn)）

- 連詞（和/或/對(duì)比）

- 比較詞（更大/更大/更大）

- 說(shuō)明這些是實(shí)數(shù)

針對(duì)質(zhì)疑，也有好奇的用戶嘗試了去掉了問題中間的”-“符號(hào)，結(jié)果還是如此:

我們換了種提問方式，即使明確這是數(shù)值了，ChatGPT4o 還是堅(jiān)定的表示:9.11比9.9要大!

延著這個(gè)問題，當(dāng)有網(wǎng)友進(jìn)一步提問時(shí)，更為離譜的事情發(fā)生了:當(dāng)讓這兩個(gè)數(shù)值相減時(shí)，ChatGPT4o 直接用9.11的百分位中的1減去9.9百分位上的0;又用9.11十分位上的1減去9.9十分位上的9，最終不夠減之后，向前借一位又忽略了這一點(diǎn)，得到了0.21的錯(cuò)誤結(jié)果。

如今看來(lái)，對(duì)大模型提出哪個(gè)數(shù)字更大問題時(shí)，它們將數(shù)值分成了兩個(gè)部分，9.11和9.9的整數(shù)、小數(shù)分別做了比較，整數(shù)部分為9對(duì)比完之后，再將小數(shù)部分的十分位、百分位整體做了比較，其認(rèn)為11>9，進(jìn)而給出了9.11>9.9的結(jié)果。

國(guó)產(chǎn)大模型實(shí)測(cè)

那么在這個(gè)簡(jiǎn)單的問題上，國(guó)產(chǎn)大模型的表現(xiàn)力又如何呢?

先來(lái)看看阿里的通義千問的。它不僅給出了詳細(xì)的解釋，而且結(jié)果也是正確的。

百度文心一言同樣正確:

騰訊元寶:

昆侖萬(wàn)維的天工在開啟了全網(wǎng)搜索后，給出了簡(jiǎn)潔的正確答案:

科大訊飛的星火大模型:

360智腦在回答這一問題時(shí)同樣觸發(fā)了聯(lián)網(wǎng)搜索功能，好在給出了正確的答案:

百川智能的回答同樣沒有問題:

不過(guò)實(shí)測(cè)過(guò)程中，也有些起初錯(cuò)誤，但是用同樣問題問第二遍時(shí)又有了改正:

遺憾的是，也有一些模型還存在問題:

爭(zhēng)論依然存在

不僅如此，有網(wǎng)友在實(shí)測(cè)負(fù)數(shù)時(shí)，GPT 們依然也被繞暈了:

還有網(wǎng)友在測(cè)評(píng)9.11美元和9.9美元時(shí)評(píng)價(jià)道:

大型語(yǔ)言模型（LLM）為什么在基礎(chǔ)數(shù)學(xué)上失敗，卻仍然能通過(guò)許多學(xué)術(shù)考試?

非常有趣的是，它并不理解小數(shù)的基本概念。認(rèn)為11比9大，所以9.11>9.9。

但是，當(dāng)它開始進(jìn)一步解釋為什么9.11>9.9時(shí)，它又將數(shù)字轉(zhuǎn)換為文本，并且有大量的數(shù)據(jù)表明90美分比11美分大，所以它不斷糾正自己。

從大型語(yǔ)言數(shù)據(jù)庫(kù)進(jìn)行統(tǒng)計(jì)推斷并不是推理機(jī)器?我猜測(cè)即使增加數(shù)據(jù)和計(jì)算量，LLM 模型也不會(huì)達(dá)到人類水平的推理能力。它們需要發(fā)現(xiàn)更好的算法來(lái)復(fù)制人類的智能。

至于為什么僅是比較數(shù)值時(shí)出錯(cuò)，不少人猜測(cè)，這似乎與語(yǔ)序有很大關(guān)系。

大模型如今在基礎(chǔ)能力方面的表現(xiàn)，也不禁讓人想到就在幾天前，Google DeepMind CEO Demis Hassabis 在公開場(chǎng)合表示，“當(dāng)前的 AI 在智力方面與貓的水平相當(dāng)，甚至還不如普通家貓”，這無(wú)疑給許多期待 AGI（通用人工智能）即將到來(lái)的人潑了一盆涼水。

來(lái)源:

https://x.com/goodside/status/1812990703473172813

以上就是關(guān)于【繞暈了！9.11 大還是 9.9 大，難倒一批 AI 大模型？】的相關(guān)內(nèi)容，希望對(duì)大家有幫助！

標(biāo)簽：繞暈了！9 11 大還是 9 9 大，難倒一批 AI 大模型？

　　免責(zé)聲明：本文由用戶上傳，與本網(wǎng)站立場(chǎng)無(wú)關(guān)。財(cái)經(jīng)信息僅供讀者參考，并不構(gòu)成投資建議。投資者據(jù)此操作，風(fēng)險(xiǎn)自擔(dān)。如有侵權(quán)請(qǐng)聯(lián)系刪除！

分享：

相關(guān)閱讀

董明珠曾喊話雷軍給股民分多少錢！格力：擬分紅超55億

Epic喜+1：動(dòng)作游戲《師父》免費(fèi)領(lǐng) 立省139元

雷軍辟謠只招聘35歲以下員工：僅針對(duì)未來(lái)之星項(xiàng)目

普華永道發(fā)布2025年AI預(yù)測(cè)：AI Agents將勞動(dòng)力提升1倍

雷軍回應(yīng)股價(jià)暴跌：年年難過(guò)年年過(guò)

一天100座！理想汽車第1700座超充站正式建成

《守望先鋒》國(guó)服宣布2月19日回歸：賬號(hào)數(shù)據(jù)完整保留

雷軍建議創(chuàng)業(yè)者要多留點(diǎn)錢給員工：別到山窮水盡才講問題

雷軍新年第一天收到200元紅包自侃年入百萬(wàn)的開始

雷軍親自展示REDMI Turbo 4！2025年第一款新機(jī)

雷軍：小米未來(lái)10年建至少20座世界頂級(jí)工廠

雷軍辟謠只招聘35歲以下員工：只有招聘未來(lái)之星時(shí)才有年齡限制

雷軍回應(yīng)100億造車：沒有好到“封神” 不要神話我

雷軍表態(tài)：一心做好小米汽車大家可以在“許愿池”尋找商機(jī)

雷軍：中國(guó)汽車產(chǎn)業(yè)應(yīng)少些歪門邪道不要發(fā)黑稿、背后捅刀子

小米SU7選配色都是7000元為什么璀璨洋紅卻需要9000元

最新文章

奔馳GLE預(yù)約試駕，新手必看的詳細(xì)流程

奔馳GLE作為豪華SUV市場(chǎng)中的佼佼者，憑借其卓越的性能、豪華的內(nèi)飾以及寬敞的空間，吸引了眾多消費(fèi)者的關(guān)注。...瀏覽全文>>

安徽阜陽(yáng)帕薩特新能源新車報(bào)價(jià)2025款走勢(shì)，市場(chǎng)優(yōu)惠力度持續(xù)加大

在2025年，安徽阜陽(yáng)地區(qū)的帕薩特新能源汽車市場(chǎng)表現(xiàn)非?；钴S。作為一款備受關(guān)注的新能源車型，帕薩特新能源憑...瀏覽全文>>

滁州T-ROC探歌 2025新款價(jià)格，最低售價(jià)15.89萬(wàn)起，趕緊行動(dòng)

近日，滁州地區(qū)的大眾汽車經(jīng)銷商傳來(lái)好消息：備受矚目的2025款T-ROC探歌正式上市，并且以極具競(jìng)爭(zhēng)力的價(jià)格吸引...瀏覽全文>>

安徽淮南長(zhǎng)安啟源E07多少錢 2024款落地價(jià)，買車前的全方位指南

在選擇一款新能源汽車時(shí)，了解其價(jià)格和配置是非常重要的一步。安徽淮南地區(qū)的長(zhǎng)安啟源E07作為2024款的新車型，...瀏覽全文>>

阜陽(yáng)長(zhǎng)安啟源A05最新價(jià)格2025款，配置升級(jí)，值不值得買？

阜陽(yáng)長(zhǎng)安啟源A05作為長(zhǎng)安汽車旗下的全新車型，自推出以來(lái)便憑借其獨(dú)特的設(shè)計(jì)風(fēng)格和豐富的配置吸引了眾多消費(fèi)者...瀏覽全文>>

阜陽(yáng)長(zhǎng)安啟源A07價(jià)格，豪華配置超值價(jià)來(lái)襲

阜陽(yáng)長(zhǎng)安啟源A07作為一款備受矚目的新能源車型，以其豪華配置和親民的價(jià)格在市場(chǎng)上引起了廣泛關(guān)注。這款車型不...瀏覽全文>>

安徽淮南威然最新價(jià)格2024款，各配置車型售價(jià)全知曉

安徽淮南威然2024款價(jià)格及配置詳解隨著汽車市場(chǎng)的不斷更新?lián)Q代，上汽大眾旗下的MPV車型——威然（Viloran）憑...瀏覽全文>>

QQ多米新車報(bào)價(jià)2025款，買車省錢秘籍

QQ多米新車報(bào)價(jià)2025款，買車省錢秘籍隨著汽車市場(chǎng)的不斷發(fā)展，消費(fèi)者在選購(gòu)車輛時(shí)不僅關(guān)注車型的性能和配置，...瀏覽全文>>

滁州途觀X最新價(jià)格2024款，買車省錢秘籍

滁州途觀X 2024款最新價(jià)格及買車省錢秘籍隨著汽車市場(chǎng)的不斷發(fā)展，大眾途觀X作為一款兼具時(shí)尚與性能的中型SUV...瀏覽全文>>

滁州蔚攬 2022新款價(jià)格，豪華配置超值價(jià)來(lái)襲

隨著汽車市場(chǎng)的不斷發(fā)展，大眾蔚攬以其優(yōu)雅的設(shè)計(jì)和卓越的性能贏得了眾多消費(fèi)者的青睞。作為一款兼具實(shí)用性和...瀏覽全文>>

大家愛看

Alienware 在 2025 年 CES 上展示了一些超凡脫俗的技術(shù)

Wickes 任命首席零售和分銷官

分析師稱GTA 6或?qū)淞⑿袠I(yè)新標(biāo)準(zhǔn)

索尼和本田在拉斯維加斯推出售價(jià) 89,900 美元的 Afeela 1

日本 11 月游客人數(shù)創(chuàng)月度新高

神經(jīng)認(rèn)知測(cè)試在 3 歲兒童白血病治療期間可行

牛津郡小學(xué)支持圣誕毛衣日

S?strene Grene 投資歐洲物流中心

有人已經(jīng)在電視上直播 BNMC 打造的 1967 年福特野馬 Restomod

潛在的分子療法可以逆轉(zhuǎn)小鼠的胎盤發(fā)育問題

頻道推薦

奔馳GLE預(yù)約試駕，新手必看的詳細(xì)流程

滁州T-ROC探歌 2025新款價(jià)格，最低售價(jià)15.89萬(wàn)起，趕緊行動(dòng)

安徽淮南威然最新價(jià)格2024款，各配置車型售價(jià)全知曉

滁州途觀X最新價(jià)格2024款，買車省錢秘籍

淮南長(zhǎng)安啟源Q05 2025新款價(jià)格，最低售價(jià)9.69萬(wàn)起，入手正當(dāng)時(shí)

安徽淮南探影多少錢 2023款落地價(jià)，各配置車型售價(jià)一目了然

淮南途觀X價(jià)格大揭秘，買車前必看

安徽淮南長(zhǎng)安獵手K50新款價(jià)格2025款多少錢？買車攻略一網(wǎng)打盡

滁州ID.4 X新款價(jià)格2025款多少錢？買車攻略一網(wǎng)打盡

QQ多米落地價(jià)，購(gòu)車前必看的費(fèi)用明細(xì)

站長(zhǎng)推薦

Nvidia DLSS 4 有望將游戲性能提高 8 倍

人工智能在預(yù)測(cè)自身免疫性疾病進(jìn)展方面顯示出良好的前景

心理物理實(shí)驗(yàn)揭示皮膚水分感知是如何改變的

科茨沃爾德公司慶祝圣誕節(jié)圓滿成功

南法納姆學(xué)校被評(píng)為薩里郡表現(xiàn)最好的小學(xué)

約克區(qū)九所小學(xué)將削減招生人數(shù)

松下新款電動(dòng)汽車電池為 Lucid Gravity 帶來(lái) 450 英里續(xù)航里程

泰國(guó)旅游呈現(xiàn)新趨勢(shì)

研究人員找到在細(xì)胞水平上餓死前列腺癌腫瘤的新方法

領(lǐng)先的人工智能聊天機(jī)器人在測(cè)試中表現(xiàn)出類似癡呆癥的認(rèn)知能力下降

龐大的 Project Zomboid build 42 終于可以玩了

Steam Replay 回歸向您展示 2024 年您玩得最多的 PC 游戲

Jollyes 推出強(qiáng)化的人才支持和招聘措施

Karen Millen 與 Simon Harrison 共同推出全新高級(jí)珠寶系列

奇瑞風(fēng)云A8L電動(dòng)轎車刷新續(xù)航里程世界紀(jì)錄

虛擬藝術(shù)家將別克 Cascada 帶回 2026 款車型

OnePlus 宣布推出新計(jì)劃解決綠線問題

OnePlus Watch 3 將擁有更大的電池和更薄的機(jī)身

研究人員發(fā)現(xiàn)可變剪接與自身免疫性疾病遺傳之間的細(xì)胞類型特異性聯(lián)系

科學(xué)家確定腦細(xì)胞類型是排尿的主要控制者

最新亚洲人成无码网站,夜夜操夜夜操夜夜爽,中文字日产幕乱五区,在线成人看片黄a免费看,亚洲自偷自拍另类11p

繞暈了！9.11 大還是 9.9 大，難倒一批 AI 大模型？

繞暈了！9.11 大還是 9.9 大，難倒一批 AI 大模型？