最新亚洲人成无码网站,夜夜操夜夜操夜夜爽,中文字日产幕乱五区,在线成人看片黄a免费看,亚洲自偷自拍另类11p

首頁(yè) >> 今日更新 >

繞暈了!9.11 大還是 9.9 大,難倒一批 AI 大模型?

2024-07-17 11:30:06 來(lái)源: 用戶: 

相信很多大家對(duì)繞暈了!9.11 大還是 9.9 大,難倒一批 AI 大模型?還不知道吧,今天菲菲就帶你們一起去了解一下~.~!

「9.11和9.9,哪個(gè)大?」

對(duì)于不少習(xí)慣了更新軟件版本號(hào)的程序員而言,不少人的第一反應(yīng)就是:當(dāng)然是9.11大。但是如果沒有限定場(chǎng)景,只是單純地提出上面這個(gè)問題時(shí),結(jié)果必然是相反的。

沒想到,將這個(gè)問題拋給前能答疑解惑、后能挑戰(zhàn)各種高數(shù)難題的 AI 大模型時(shí),各種“翻車”情況也隨之出現(xiàn)了。

國(guó)外大模型:9.11vs9.9,哪個(gè)大?

具體的事情要從一位名為 Riley Goodside 工程師的推文談起。

值得一提的是,Riley Goodside 是 AI 數(shù)據(jù)標(biāo)注賽道“獨(dú)角獸”Scale AI 公司的一名 staff prompt engineer,這個(gè)崗位的職責(zé)具體是指在生成式 AI 和自然語(yǔ)言處理領(lǐng)域內(nèi),專門設(shè)計(jì)和優(yōu)化提示(prompt)的人。這個(gè)角色要求深入理解如何構(gòu)建有效的 Prompt,以引導(dǎo) AI 模型生成所需的輸出。

幾個(gè)小時(shí)前,Riley Goodside 連發(fā)幾條推文分享了自己的一些發(fā)現(xiàn),即用「9.11and9.9- which is bigger?」為 Prompt 輸入給各家大模型時(shí),如當(dāng)前業(yè)界公認(rèn)最先進(jìn)模型之一的 ChatGPT4o 的輸出是:

9.11比9.9大。

再來(lái)看看 Gemini Advanced 的表現(xiàn),同樣“翻車”:

9.11>9.9

雖然 Claude3.5Sonnet 最終也未能逃過(guò)這個(gè)模糊問題帶來(lái)的“坑”,但是其給出的解釋中,一度就要回答正確了,其寫道:

“兩個(gè)數(shù)字中的整數(shù)部分(9)都是相同的,所以我們需要比較小數(shù)部分。

在9.11中,十分位是1/10(或0.1)。在9.9中,十分位是9/10(或0.9)。

由于9/10大于1/10,乍看之下可能覺得9.9更大?!?/p>

沒想到接下來(lái)畫風(fēng)急轉(zhuǎn),Claude3.5Sonnet 有似是有理有據(jù)地說(shuō):

但是,我們還需要考慮百分位。

9.9可以寫成9.90以顯示百分位。

現(xiàn)在我們可以清楚地看到9.11大于9.90(或9.9),因?yàn)樵诎俜治簧希?大于0。

因此,9.11是較大的數(shù)。

最終在正確的答案上漸行漸遠(yuǎn):

這個(gè)簡(jiǎn)單的問題也讓不少人聯(lián)想到前幾天國(guó)內(nèi)關(guān)于《歌手2024》「終極襲榜賽」競(jìng)演結(jié)果的排名。

當(dāng)時(shí)有不少網(wǎng)友就13.8%和13.11%哪個(gè)大的問題爭(zhēng)論了起來(lái)。

在糾正不了「某些已形成思維定式」的用戶想法之后,甚至有人搬出了教材給出解釋,“在最新人教版小學(xué)四年級(jí)數(shù)學(xué)下冊(cè)課本中,我們可以找到相關(guān)知識(shí)點(diǎn):比較兩個(gè)小數(shù)的大小,先看它們的整數(shù)部分,整數(shù)部分大的那個(gè)數(shù)就大;整數(shù)部分相同的,十分位上的數(shù)大的那個(gè)數(shù)就大;十分位上的數(shù)也相同的,百分位上的數(shù)大的那個(gè)數(shù)就大..."

在今天 Riley Goodside 分享 AI 大模型回答這一問題的表現(xiàn)時(shí),來(lái)自 Google 前工程師、Allen AI 研究員 Bill Yuchen Lin 也將比較的數(shù)值換成了13.11和13.8,再次問及大模型,沒想到答案還是出錯(cuò)了。

其評(píng)價(jià)道,「數(shù)學(xué)奧林匹克競(jìng)賽對(duì)人工智能來(lái)說(shuō)更容易,但常識(shí)仍然很難?!?/p>

同時(shí),他還表示,“這種常識(shí)性 AI 失敗案例,讓我不禁想起@YejinChoinka的 TED 演講:《為什么 AI 既聰明得令人難以置信,又愚蠢得令人震驚》(https://www.ted.com/talks/yejin_choi_why_ai_is_incredibly_smart_and_shockingly_stupid)”。

換個(gè) Prompt,答案會(huì)不會(huì)不一樣?

不過(guò),也有人質(zhì)疑作為 Prompt 工程師的Riley Goodside 的提問方式,“它(大模型)對(duì)詞序敏感![我相信你也知道]如果你把數(shù)字放在問題后面,他們就會(huì)答對(duì)[google 和 openai,anthropic 則不然]。你使用斜線也是有意混淆視聽嗎?”

對(duì)此,Riley Goodside 給出自己的解釋:

澄清一下:我并不是說(shuō)無(wú)論如何提示,任何 LLM 都會(huì)始終如一地認(rèn)為9.11>9.9。我是說(shuō),如果你以這種特定方式給出 Prompt,許多領(lǐng)先的模型都會(huì)告訴你9.11>9.9,這就很奇怪了。如果你想重現(xiàn),請(qǐng)粘貼文本中的 Prompt(9.11and9.9- which is bigger?)。

為了復(fù)現(xiàn)這個(gè)問題,數(shù)字確實(shí)需要放在問題前面。但以下內(nèi)容似乎都無(wú)關(guān)緊要:

- 標(biāo)點(diǎn)符號(hào)(破折號(hào)/逗號(hào)/無(wú)標(biāo)點(diǎn))

- 連詞(和/或/對(duì)比)

- 比較詞(更大/更大/更大)

- 說(shuō)明這些是實(shí)數(shù)

針對(duì)質(zhì)疑,也有好奇的用戶嘗試了去掉了問題中間的”-“符號(hào),結(jié)果還是如此:

我們換了種提問方式,即使明確這是數(shù)值了,ChatGPT4o 還是堅(jiān)定的表示:9.11比9.9要大!

延著這個(gè)問題,當(dāng)有網(wǎng)友進(jìn)一步提問時(shí),更為離譜的事情發(fā)生了:當(dāng)讓這兩個(gè)數(shù)值相減時(shí),ChatGPT4o 直接用9.11的百分位中的1減去9.9百分位上的0;又用9.11十分位上的1減去9.9十分位上的9,最終不夠減之后,向前借一位又忽略了這一點(diǎn),得到了0.21的錯(cuò)誤結(jié)果。

如今看來(lái),對(duì)大模型提出哪個(gè)數(shù)字更大問題時(shí),它們將數(shù)值分成了兩個(gè)部分,9.11和9.9的整數(shù)、小數(shù)分別做了比較,整數(shù)部分為9對(duì)比完之后,再將小數(shù)部分的十分位、百分位整體做了比較,其認(rèn)為11>9,進(jìn)而給出了9.11>9.9的結(jié)果。

國(guó)產(chǎn)大模型實(shí)測(cè)

那么在這個(gè)簡(jiǎn)單的問題上,國(guó)產(chǎn)大模型的表現(xiàn)力又如何呢?

先來(lái)看看阿里的通義千問的。它不僅給出了詳細(xì)的解釋,而且結(jié)果也是正確的。

百度文心一言同樣正確:

騰訊元寶:

昆侖萬(wàn)維的天工在開啟了全網(wǎng)搜索后,給出了簡(jiǎn)潔的正確答案:

科大訊飛的星火大模型:

360智腦在回答這一問題時(shí)同樣觸發(fā)了聯(lián)網(wǎng)搜索功能,好在給出了正確的答案:

百川智能的回答同樣沒有問題:

不過(guò)實(shí)測(cè)過(guò)程中,也有些起初錯(cuò)誤,但是用同樣問題問第二遍時(shí)又有了改正:

遺憾的是,也有一些模型還存在問題:

爭(zhēng)論依然存在

不僅如此,有網(wǎng)友在實(shí)測(cè)負(fù)數(shù)時(shí),GPT 們依然也被繞暈了:

還有網(wǎng)友在測(cè)評(píng)9.11美元和9.9美元時(shí)評(píng)價(jià)道:

大型語(yǔ)言模型(LLM)為什么在基礎(chǔ)數(shù)學(xué)上失敗,卻仍然能通過(guò)許多學(xué)術(shù)考試?

非常有趣的是,它并不理解小數(shù)的基本概念。認(rèn)為11比9大,所以9.11>9.9。

但是,當(dāng)它開始進(jìn)一步解釋為什么9.11>9.9時(shí),它又將數(shù)字轉(zhuǎn)換為文本,并且有大量的數(shù)據(jù)表明90美分比11美分大,所以它不斷糾正自己。

從大型語(yǔ)言數(shù)據(jù)庫(kù)進(jìn)行統(tǒng)計(jì)推斷并不是推理機(jī)器?我猜測(cè)即使增加數(shù)據(jù)和計(jì)算量,LLM 模型也不會(huì)達(dá)到人類水平的推理能力。它們需要發(fā)現(xiàn)更好的算法來(lái)復(fù)制人類的智能。

至于為什么僅是比較數(shù)值時(shí)出錯(cuò),不少人猜測(cè),這似乎與語(yǔ)序有很大關(guān)系。

大模型如今在基礎(chǔ)能力方面的表現(xiàn),也不禁讓人想到就在幾天前,Google DeepMind CEO Demis Hassabis 在公開場(chǎng)合表示,“當(dāng)前的 AI 在智力方面與貓的水平相當(dāng),甚至還不如普通家貓”,這無(wú)疑給許多期待 AGI(通用人工智能)即將到來(lái)的人潑了一盆涼水。

來(lái)源:

https://x.com/goodside/status/1812990703473172813

以上就是關(guān)于【繞暈了!9.11 大還是 9.9 大,難倒一批 AI 大模型?】的相關(guān)內(nèi)容,希望對(duì)大家有幫助!

  免責(zé)聲明:本文由用戶上傳,與本網(wǎng)站立場(chǎng)無(wú)關(guān)。財(cái)經(jīng)信息僅供讀者參考,并不構(gòu)成投資建議。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。 如有侵權(quán)請(qǐng)聯(lián)系刪除!

 
分享:
最新文章