繞暈了!9.11 大還是 9.9 大,難倒一批 AI 大模型?
相信很多大家對(duì)繞暈了!9.11 大還是 9.9 大,難倒一批 AI 大模型?還不知道吧,今天菲菲就帶你們一起去了解一下~.~!
「9.11和9.9,哪個(gè)大?」
對(duì)于不少習(xí)慣了更新軟件版本號(hào)的程序員而言,不少人的第一反應(yīng)就是:當(dāng)然是9.11大。但是如果沒有限定場(chǎng)景,只是單純地提出上面這個(gè)問題時(shí),結(jié)果必然是相反的。
沒想到,將這個(gè)問題拋給前能答疑解惑、后能挑戰(zhàn)各種高數(shù)難題的 AI 大模型時(shí),各種“翻車”情況也隨之出現(xiàn)了。
國(guó)外大模型:9.11vs9.9,哪個(gè)大?
具體的事情要從一位名為 Riley Goodside 工程師的推文談起。
值得一提的是,Riley Goodside 是 AI 數(shù)據(jù)標(biāo)注賽道“獨(dú)角獸”Scale AI 公司的一名 staff prompt engineer,這個(gè)崗位的職責(zé)具體是指在生成式 AI 和自然語(yǔ)言處理領(lǐng)域內(nèi),專門設(shè)計(jì)和優(yōu)化提示(prompt)的人。這個(gè)角色要求深入理解如何構(gòu)建有效的 Prompt,以引導(dǎo) AI 模型生成所需的輸出。
幾個(gè)小時(shí)前,Riley Goodside 連發(fā)幾條推文分享了自己的一些發(fā)現(xiàn),即用「9.11and9.9- which is bigger?」為 Prompt 輸入給各家大模型時(shí),如當(dāng)前業(yè)界公認(rèn)最先進(jìn)模型之一的 ChatGPT4o 的輸出是:
9.11比9.9大。
再來(lái)看看 Gemini Advanced 的表現(xiàn),同樣“翻車”:
9.11>9.9
雖然 Claude3.5Sonnet 最終也未能逃過(guò)這個(gè)模糊問題帶來(lái)的“坑”,但是其給出的解釋中,一度就要回答正確了,其寫道:
“兩個(gè)數(shù)字中的整數(shù)部分(9)都是相同的,所以我們需要比較小數(shù)部分。
在9.11中,十分位是1/10(或0.1)。在9.9中,十分位是9/10(或0.9)。
由于9/10大于1/10,乍看之下可能覺得9.9更大?!?/p>
沒想到接下來(lái)畫風(fēng)急轉(zhuǎn),Claude3.5Sonnet 有似是有理有據(jù)地說(shuō):
但是,我們還需要考慮百分位。
9.9可以寫成9.90以顯示百分位。
現(xiàn)在我們可以清楚地看到9.11大于9.90(或9.9),因?yàn)樵诎俜治簧希?大于0。
因此,9.11是較大的數(shù)。
最終在正確的答案上漸行漸遠(yuǎn):
這個(gè)簡(jiǎn)單的問題也讓不少人聯(lián)想到前幾天國(guó)內(nèi)關(guān)于《歌手2024》「終極襲榜賽」競(jìng)演結(jié)果的排名。
當(dāng)時(shí)有不少網(wǎng)友就13.8%和13.11%哪個(gè)大的問題爭(zhēng)論了起來(lái)。
在糾正不了「某些已形成思維定式」的用戶想法之后,甚至有人搬出了教材給出解釋,“在最新人教版小學(xué)四年級(jí)數(shù)學(xué)下冊(cè)課本中,我們可以找到相關(guān)知識(shí)點(diǎn):比較兩個(gè)小數(shù)的大小,先看它們的整數(shù)部分,整數(shù)部分大的那個(gè)數(shù)就大;整數(shù)部分相同的,十分位上的數(shù)大的那個(gè)數(shù)就大;十分位上的數(shù)也相同的,百分位上的數(shù)大的那個(gè)數(shù)就大..."
在今天 Riley Goodside 分享 AI 大模型回答這一問題的表現(xiàn)時(shí),來(lái)自 Google 前工程師、Allen AI 研究員 Bill Yuchen Lin 也將比較的數(shù)值換成了13.11和13.8,再次問及大模型,沒想到答案還是出錯(cuò)了。
其評(píng)價(jià)道,「數(shù)學(xué)奧林匹克競(jìng)賽對(duì)人工智能來(lái)說(shuō)更容易,但常識(shí)仍然很難?!?/p>
同時(shí),他還表示,“這種常識(shí)性 AI 失敗案例,讓我不禁想起@YejinChoinka的 TED 演講:《為什么 AI 既聰明得令人難以置信,又愚蠢得令人震驚》(https://www.ted.com/talks/yejin_choi_why_ai_is_incredibly_smart_and_shockingly_stupid)”。
換個(gè) Prompt,答案會(huì)不會(huì)不一樣?
不過(guò),也有人質(zhì)疑作為 Prompt 工程師的Riley Goodside 的提問方式,“它(大模型)對(duì)詞序敏感![我相信你也知道]如果你把數(shù)字放在問題后面,他們就會(huì)答對(duì)[google 和 openai,anthropic 則不然]。你使用斜線也是有意混淆視聽嗎?”
對(duì)此,Riley Goodside 給出自己的解釋:
澄清一下:我并不是說(shuō)無(wú)論如何提示,任何 LLM 都會(huì)始終如一地認(rèn)為9.11>9.9。我是說(shuō),如果你以這種特定方式給出 Prompt,許多領(lǐng)先的模型都會(huì)告訴你9.11>9.9,這就很奇怪了。如果你想重現(xiàn),請(qǐng)粘貼文本中的 Prompt(9.11and9.9- which is bigger?)。
為了復(fù)現(xiàn)這個(gè)問題,數(shù)字確實(shí)需要放在問題前面。但以下內(nèi)容似乎都無(wú)關(guān)緊要:
- 標(biāo)點(diǎn)符號(hào)(破折號(hào)/逗號(hào)/無(wú)標(biāo)點(diǎn))
- 連詞(和/或/對(duì)比)
- 比較詞(更大/更大/更大)
- 說(shuō)明這些是實(shí)數(shù)
針對(duì)質(zhì)疑,也有好奇的用戶嘗試了去掉了問題中間的”-“符號(hào),結(jié)果還是如此:
我們換了種提問方式,即使明確這是數(shù)值了,ChatGPT4o 還是堅(jiān)定的表示:9.11比9.9要大!
延著這個(gè)問題,當(dāng)有網(wǎng)友進(jìn)一步提問時(shí),更為離譜的事情發(fā)生了:當(dāng)讓這兩個(gè)數(shù)值相減時(shí),ChatGPT4o 直接用9.11的百分位中的1減去9.9百分位上的0;又用9.11十分位上的1減去9.9十分位上的9,最終不夠減之后,向前借一位又忽略了這一點(diǎn),得到了0.21的錯(cuò)誤結(jié)果。
如今看來(lái),對(duì)大模型提出哪個(gè)數(shù)字更大問題時(shí),它們將數(shù)值分成了兩個(gè)部分,9.11和9.9的整數(shù)、小數(shù)分別做了比較,整數(shù)部分為9對(duì)比完之后,再將小數(shù)部分的十分位、百分位整體做了比較,其認(rèn)為11>9,進(jìn)而給出了9.11>9.9的結(jié)果。
國(guó)產(chǎn)大模型實(shí)測(cè)
那么在這個(gè)簡(jiǎn)單的問題上,國(guó)產(chǎn)大模型的表現(xiàn)力又如何呢?
先來(lái)看看阿里的通義千問的。它不僅給出了詳細(xì)的解釋,而且結(jié)果也是正確的。
百度文心一言同樣正確:
騰訊元寶:
昆侖萬(wàn)維的天工在開啟了全網(wǎng)搜索后,給出了簡(jiǎn)潔的正確答案:
科大訊飛的星火大模型:
360智腦在回答這一問題時(shí)同樣觸發(fā)了聯(lián)網(wǎng)搜索功能,好在給出了正確的答案:
百川智能的回答同樣沒有問題:
不過(guò)實(shí)測(cè)過(guò)程中,也有些起初錯(cuò)誤,但是用同樣問題問第二遍時(shí)又有了改正:
遺憾的是,也有一些模型還存在問題:
爭(zhēng)論依然存在
不僅如此,有網(wǎng)友在實(shí)測(cè)負(fù)數(shù)時(shí),GPT 們依然也被繞暈了:
還有網(wǎng)友在測(cè)評(píng)9.11美元和9.9美元時(shí)評(píng)價(jià)道:
大型語(yǔ)言模型(LLM)為什么在基礎(chǔ)數(shù)學(xué)上失敗,卻仍然能通過(guò)許多學(xué)術(shù)考試?
非常有趣的是,它并不理解小數(shù)的基本概念。認(rèn)為11比9大,所以9.11>9.9。
但是,當(dāng)它開始進(jìn)一步解釋為什么9.11>9.9時(shí),它又將數(shù)字轉(zhuǎn)換為文本,并且有大量的數(shù)據(jù)表明90美分比11美分大,所以它不斷糾正自己。
從大型語(yǔ)言數(shù)據(jù)庫(kù)進(jìn)行統(tǒng)計(jì)推斷并不是推理機(jī)器?我猜測(cè)即使增加數(shù)據(jù)和計(jì)算量,LLM 模型也不會(huì)達(dá)到人類水平的推理能力。它們需要發(fā)現(xiàn)更好的算法來(lái)復(fù)制人類的智能。
至于為什么僅是比較數(shù)值時(shí)出錯(cuò),不少人猜測(cè),這似乎與語(yǔ)序有很大關(guān)系。
大模型如今在基礎(chǔ)能力方面的表現(xiàn),也不禁讓人想到就在幾天前,Google DeepMind CEO Demis Hassabis 在公開場(chǎng)合表示,“當(dāng)前的 AI 在智力方面與貓的水平相當(dāng),甚至還不如普通家貓”,這無(wú)疑給許多期待 AGI(通用人工智能)即將到來(lái)的人潑了一盆涼水。
來(lái)源:
https://x.com/goodside/status/1812990703473172813
以上就是關(guān)于【繞暈了!9.11 大還是 9.9 大,難倒一批 AI 大模型?】的相關(guān)內(nèi)容,希望對(duì)大家有幫助!
免責(zé)聲明:本文由用戶上傳,與本網(wǎng)站立場(chǎng)無(wú)關(guān)。財(cái)經(jīng)信息僅供讀者參考,并不構(gòu)成投資建議。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。 如有侵權(quán)請(qǐng)聯(lián)系刪除!
- 董明珠曾喊話雷軍給股民分多少錢!格力:擬分紅超55億
- Epic喜+1:動(dòng)作游戲《師父》免費(fèi)領(lǐng) 立省139元
- 雷軍辟謠只招聘35歲以下員工:僅針對(duì)未來(lái)之星項(xiàng)目
- 普華永道發(fā)布2025年AI預(yù)測(cè):AI Agents將勞動(dòng)力提升1倍
- 雷軍回應(yīng)股價(jià)暴跌:年年難過(guò)年年過(guò)
- 一天100座!理想汽車第1700座超充站正式建成
- 《守望先鋒》國(guó)服宣布2月19日回歸:賬號(hào)數(shù)據(jù)完整保留
- 雷軍建議創(chuàng)業(yè)者要多留點(diǎn)錢給員工:別到山窮水盡才講問題
-
奔馳GLE作為豪華SUV市場(chǎng)中的佼佼者,憑借其卓越的性能、豪華的內(nèi)飾以及寬敞的空間,吸引了眾多消費(fèi)者的關(guān)注。...瀏覽全文>>
-
在2025年,安徽阜陽(yáng)地區(qū)的帕薩特新能源汽車市場(chǎng)表現(xiàn)非?;钴S。作為一款備受關(guān)注的新能源車型,帕薩特新能源憑...瀏覽全文>>
-
近日,滁州地區(qū)的大眾汽車經(jīng)銷商傳來(lái)好消息:備受矚目的2025款T-ROC探歌正式上市,并且以極具競(jìng)爭(zhēng)力的價(jià)格吸引...瀏覽全文>>
-
在選擇一款新能源汽車時(shí),了解其價(jià)格和配置是非常重要的一步。安徽淮南地區(qū)的長(zhǎng)安啟源E07作為2024款的新車型,...瀏覽全文>>
-
阜陽(yáng)長(zhǎng)安啟源A05作為長(zhǎng)安汽車旗下的全新車型,自推出以來(lái)便憑借其獨(dú)特的設(shè)計(jì)風(fēng)格和豐富的配置吸引了眾多消費(fèi)者...瀏覽全文>>
-
阜陽(yáng)長(zhǎng)安啟源A07作為一款備受矚目的新能源車型,以其豪華配置和親民的價(jià)格在市場(chǎng)上引起了廣泛關(guān)注。這款車型不...瀏覽全文>>
-
安徽淮南威然2024款價(jià)格及配置詳解隨著汽車市場(chǎng)的不斷更新?lián)Q代,上汽大眾旗下的MPV車型——威然(Viloran)憑...瀏覽全文>>
-
QQ多米新車報(bào)價(jià)2025款,買車省錢秘籍隨著汽車市場(chǎng)的不斷發(fā)展,消費(fèi)者在選購(gòu)車輛時(shí)不僅關(guān)注車型的性能和配置,...瀏覽全文>>
-
滁州途觀X 2024款最新價(jià)格及買車省錢秘籍隨著汽車市場(chǎng)的不斷發(fā)展,大眾途觀X作為一款兼具時(shí)尚與性能的中型SUV...瀏覽全文>>
-
隨著汽車市場(chǎng)的不斷發(fā)展,大眾蔚攬以其優(yōu)雅的設(shè)計(jì)和卓越的性能贏得了眾多消費(fèi)者的青睞。作為一款兼具實(shí)用性和...瀏覽全文>>
- Alienware 在 2025 年 CES 上展示了一些超凡脫俗的技術(shù)
- Wickes 任命首席零售和分銷官
- 分析師稱GTA 6或?qū)淞⑿袠I(yè)新標(biāo)準(zhǔn)
- 索尼和本田在拉斯維加斯推出售價(jià) 89,900 美元的 Afeela 1
- 日本 11 月游客人數(shù)創(chuàng)月度新高
- 神經(jīng)認(rèn)知測(cè)試在 3 歲兒童白血病治療期間可行
- 牛津郡小學(xué)支持圣誕毛衣日
- S?strene Grene 投資歐洲物流中心
- 有人已經(jīng)在電視上直播 BNMC 打造的 1967 年福特野馬 Restomod
- 潛在的分子療法可以逆轉(zhuǎn)小鼠的胎盤發(fā)育問題
- 奔馳GLE預(yù)約試駕,新手必看的詳細(xì)流程
- 滁州T-ROC探歌 2025新款價(jià)格,最低售價(jià)15.89萬(wàn)起,趕緊行動(dòng)
- 安徽淮南威然最新價(jià)格2024款,各配置車型售價(jià)全知曉
- 滁州途觀X最新價(jià)格2024款,買車省錢秘籍
- 淮南長(zhǎng)安啟源Q05 2025新款價(jià)格,最低售價(jià)9.69萬(wàn)起,入手正當(dāng)時(shí)
- 安徽淮南探影多少錢 2023款落地價(jià),各配置車型售價(jià)一目了然
- 淮南途觀X價(jià)格大揭秘,買車前必看
- 安徽淮南長(zhǎng)安獵手K50新款價(jià)格2025款多少錢?買車攻略一網(wǎng)打盡
- 滁州ID.4 X新款價(jià)格2025款多少錢?買車攻略一網(wǎng)打盡
- QQ多米落地價(jià),購(gòu)車前必看的費(fèi)用明細(xì)
- Nvidia DLSS 4 有望將游戲性能提高 8 倍
- 人工智能在預(yù)測(cè)自身免疫性疾病進(jìn)展方面顯示出良好的前景
- 心理物理實(shí)驗(yàn)揭示皮膚水分感知是如何改變的
- 科茨沃爾德公司慶祝圣誕節(jié)圓滿成功
- 南法納姆學(xué)校被評(píng)為薩里郡表現(xiàn)最好的小學(xué)
- 約克區(qū)九所小學(xué)將削減招生人數(shù)
- 松下新款電動(dòng)汽車電池為 Lucid Gravity 帶來(lái) 450 英里續(xù)航里程
- 泰國(guó)旅游呈現(xiàn)新趨勢(shì)
- 研究人員找到在細(xì)胞水平上餓死前列腺癌腫瘤的新方法
- 領(lǐng)先的人工智能聊天機(jī)器人在測(cè)試中表現(xiàn)出類似癡呆癥的認(rèn)知能力下降
- 龐大的 Project Zomboid build 42 終于可以玩了
- Steam Replay 回歸向您展示 2024 年您玩得最多的 PC 游戲
- Jollyes 推出強(qiáng)化的人才支持和招聘措施
- Karen Millen 與 Simon Harrison 共同推出全新高級(jí)珠寶系列
- 奇瑞風(fēng)云A8L電動(dòng)轎車刷新續(xù)航里程世界紀(jì)錄
- 虛擬藝術(shù)家將別克 Cascada 帶回 2026 款車型
- OnePlus 宣布推出新計(jì)劃解決綠線問題
- OnePlus Watch 3 將擁有更大的電池和更薄的機(jī)身
- 研究人員發(fā)現(xiàn)可變剪接與自身免疫性疾病遺傳之間的細(xì)胞類型特異性聯(lián)系
- 科學(xué)家確定腦細(xì)胞類型是排尿的主要控制者