16年老程序員當(dāng)場(chǎng)“退休”，OpenAI o1這么強(qiáng)嗎？

2024-09-14 09:00:12 來(lái)源：用戶：

相信很多大家對(duì)16年老程序員當(dāng)場(chǎng)“退休”，OpenAI o1這么強(qiáng)嗎？還不知道吧，今天菲菲就帶你們一起去了解一下~.~！

誰(shuí)能想到，o1剛出來(lái)工作，就被吐槽“懶惰”。

9月13日，OpenAI創(chuàng)始成員、AI大牛Andrej Karpathy發(fā)文吐槽OpenAI剛發(fā)布的最新模型:“o1-mini一直拒絕為我解決黎曼猜想，模型懶惰還是主要問(wèn)題，很悲傷?！?/p>

9月13日凌晨，OpenAI突然發(fā)布了一款o1-preview模型，這也是之前被大肆宣揚(yáng)的“Strawberry（草莓）”模型。據(jù)介紹，該模型能夠推理復(fù)雜任務(wù)，解決科學(xué)、編程、數(shù)學(xué)等領(lǐng)域更難的問(wèn)題。

與此同時(shí)，另一款更小、更高效、成本更低的版本o1mini也同步上線。

除了o1-mini，OpenAI今天還發(fā)布了另一款新模型:o1-preview。也就是這段時(shí)間吊足了胃口的“Strawberry（草莓）”模型。據(jù)介紹，該模型能夠推理復(fù)雜任務(wù)，解決科學(xué)、編程、數(shù)學(xué)等領(lǐng)域更難的問(wèn)題。

相較而言，o1mini則是更小、更高效、成本更低的版本。

在性能上，o1系列模型主要通過(guò)強(qiáng)化學(xué)習(xí)的方式訓(xùn)練，幻覺(jué)頻率上低于GPT-4o，數(shù)學(xué)能力提升了6倍，代碼能力提升了8倍。

在一系列高難度基準(zhǔn)測(cè)試中，o1都展現(xiàn)出了超強(qiáng)實(shí)力，甚至能在物理、生物等領(lǐng)域問(wèn)答環(huán)節(jié)中，超過(guò)人類博士水平。

模型一經(jīng)上線，OpenAI CEO Sam Altman在X上發(fā)文稱，Jimmy們，耐心等待時(shí)刻結(jié)束了。

目前，o1-preview已面向ChatGPT Plus、Team用戶開放，企業(yè)用戶將在下周獲得訪問(wèn)權(quán)限。o1mini計(jì)劃向所有免費(fèi)用戶開放。

今天被同行們夸爆了的o1，是否真的能帶來(lái)GPT-4o剛面世時(shí)的驚艷感受?我們也來(lái)上手試試，另外也看看圍繞o1，海內(nèi)外玩家們都在玩些什么和聊些什么。

新的AI模型天花板，復(fù)雜推理是舒適區(qū)

有意思的是，新模型被OpenAI視為AI能力的重大進(jìn)步，因此被命名為o1，表示“將計(jì)數(shù)器重置為1”，而不是GPT系列的延續(xù)?；诖?，也有一些玩家開始擔(dān)心:GPT-5恐怕是沒(méi)戲了。

據(jù)“AI新榜”觀察，無(wú)論是從OpenAI官方發(fā)布的Blog、Demo還是網(wǎng)友實(shí)測(cè)來(lái)看，復(fù)雜推理簡(jiǎn)直是o1的舒適區(qū)，在編程能力、數(shù)學(xué)計(jì)算上幾乎碾壓其他模型。

現(xiàn)在，ChatGPT Plus和Team用戶可以在對(duì)話時(shí)手動(dòng)選擇o1-preview和o1-mini模型。

值得一提的是，o1-preview每周的消息限制為30條，o1-mini的周上限為50條。

在復(fù)雜邏輯推理方面，OpenAI讓GPT-4o和o1同時(shí)參加了國(guó)際數(shù)學(xué)奧林匹克競(jìng)賽資格選拔的AIME考試。結(jié)果顯示，GPT-4o僅能正確解答13%的問(wèn)題，而o1的準(zhǔn)確率則高達(dá)83%，是4o的近8倍。

在官方Demo中，o1在面對(duì)下面這個(gè)難題時(shí)，只思考了約30秒的時(shí)間，就給出了正確的答案。

更關(guān)鍵的是，o1還會(huì)通過(guò)“我很好奇”、“我正在思考”和“好的，讓我看看”等語(yǔ)句，給人一種它正在一步一步思考的過(guò)程，很像人類做題時(shí)的推理步驟。

我們也丟了個(gè)復(fù)雜的邏輯問(wèn)題給o1:

同樣是用了約30s的時(shí)間，o1就給出了滴水不漏的分析和正確答案。

有網(wǎng)友跟o1玩24點(diǎn)游戲，發(fā)現(xiàn)它可以十分穩(wěn)定準(zhǔn)確地求解。相比之下，GPT-4o則表現(xiàn)得一塌糊涂。

你甚至可以讓它幫忙出考研高數(shù)題，從而實(shí)現(xiàn)舉一反三，觸類旁通:

圖源即刻“希漢同學(xué)”

不過(guò)，雖然o1數(shù)學(xué)計(jì)算和邏輯推理能力很強(qiáng)，卻偶爾會(huì)在一些相對(duì)簡(jiǎn)單的問(wèn)題上栽跟頭。

比如這道“平方數(shù)在7和17間的最小整數(shù)是多少?”就沒(méi)能給出正確答案。

再來(lái)看看它的編程能力。

一位有著16年全棧經(jīng)驗(yàn)的程序員，在試過(guò)用o1寫代碼后，直接宣告自己的編程生涯結(jié)束了。

只見(jiàn)他的電腦屏幕上，o1正在快速生成一個(gè)全棧原生應(yīng)用程序的代碼。

在OpenAI發(fā)布的視頻演示里，演示者先是讓o1寫一個(gè)貪吃蛇網(wǎng)頁(yè)游戲，這種小case可能不算什么，緊接著演示者提升難度，讓它在網(wǎng)格中添加障礙物，并且使障礙物連成“AI”的形狀，照樣沒(méi)能難倒它。

還有網(wǎng)友將o1和前不久爆火的編程神器Cursor結(jié)合，在10分鐘內(nèi)創(chuàng)建了一個(gè)iOS天氣應(yīng)用程序。

而在此之前，Claude Sonnet3.5通常被很多人當(dāng)作Cursor的強(qiáng)力搭檔。

還是那道經(jīng)典的“單詞Strawberry里有幾個(gè)r”，這個(gè)簡(jiǎn)單的問(wèn)題曾難倒包括GPT-4o在內(nèi)的不少大模型，但在o1面前已然成了小兒科。

不過(guò)，o1的發(fā)揮看起來(lái)不是那么穩(wěn)定，也有數(shù)錯(cuò)的情況。

o1很強(qiáng)，但純文本模型還吸引人嗎?

在各家卷多模態(tài)模型的時(shí)候，OpenAI既沒(méi)有兌付自己的語(yǔ)音功能，更是將Sora早早拋在腦后了。眼下，還發(fā)了一款純文本模型。

相信上述的實(shí)測(cè)和玩法，已經(jīng)為大家解答了“OpenAI o1模型究竟強(qiáng)在哪”這個(gè)問(wèn)題。

o1模型不需要額外提示，它就能自行推理和反思自己的解答過(guò)程，將復(fù)雜問(wèn)題一步步拆解開來(lái)，清晰地展示了自己思考的過(guò)程。

比如，o1在寫代碼前會(huì)梳理一遍問(wèn)題，列出相關(guān)知識(shí)點(diǎn)和步驟，然后開始逐行寫代碼，并完成代碼測(cè)試。

有網(wǎng)友調(diào)侃，OpenAI o1來(lái)了，Claude3.5、Cursor等以編程能力見(jiàn)長(zhǎng)的熱門AI工具可以放一邊了。

Jimmy Apples發(fā)文表示，OpenAI故事第二章Straberry Fields終于開啟。

英偉達(dá)首席研究員Jim Fan認(rèn)為，o1的意義在于，AI團(tuán)隊(duì)不再只是通過(guò)增加模型規(guī)模來(lái)提升模型表現(xiàn)，而是通過(guò)優(yōu)化推理過(guò)程。

全網(wǎng)的科技大佬們面對(duì)新模型，都是興奮難抑的狀態(tài)，但對(duì)于我們普通人的日常使用來(lái)說(shuō)，o1的作用其實(shí)不是特別明顯。

科技博主“特工宇宙”提到，客觀來(lái)講，o1的科研價(jià)值遠(yuǎn)大于當(dāng)下的使用價(jià)值。我們也許會(huì)更受益于OpenAI o1開發(fā)的新軟件、新藥物，而不是o1本身。

可以說(shuō)，o1的意義更像是展現(xiàn)AI變強(qiáng)的可能性，但對(duì)于大多數(shù)用戶來(lái)說(shuō)，o1的更新僅僅是在底層模型上進(jìn)行優(yōu)化迭代，實(shí)際好用好玩的AI工具會(huì)更吸引人。

所以，也架不住大多數(shù)網(wǎng)友在評(píng)論區(qū)在線開催Sam Altman:“我們什么時(shí)候能得到新的語(yǔ)音功能??”

另外，目前的o1系列模型還只是預(yù)覽版本，像GPT-4o擁有的長(zhǎng)文本、網(wǎng)絡(luò)插件、生成圖片等功能，均未集成到o1中。

在定價(jià)上，o1也并不是經(jīng)濟(jì)適用的選擇。對(duì)于開發(fā)者而言，o1-preview 的定價(jià)為15美元/百萬(wàn)輸入token，60美元/百萬(wàn)輸出token，遠(yuǎn)高于GPT-4o（5美元/百萬(wàn)輸入token，15美元/百萬(wàn)輸出token）的定價(jià)。

總的來(lái)說(shuō)，GPT-4o依舊是OpenAI能力最強(qiáng)的模型。也有博主在X上提到:“普通人根本不理解大象的推理和邏輯能力。GPT-5還要比o1模型更強(qiáng)大69倍。”

這也讓人好奇，即將到來(lái)的OpenAI開發(fā)者日會(huì)帶來(lái)怎樣的更新，遲遲未來(lái)的“GPT-5”是否還會(huì)制造驚喜?

以上就是關(guān)于【16年老程序員當(dāng)場(chǎng)“退休”，OpenAI o1這么強(qiáng)嗎？】的相關(guān)內(nèi)容，希望對(duì)大家有幫助！

標(biāo)簽： 16年老程序員當(dāng)場(chǎng)“退休”，OpenAI o1這么強(qiáng)嗎？

　　免責(zé)聲明：本文由用戶上傳，與本網(wǎng)站立場(chǎng)無(wú)關(guān)。財(cái)經(jīng)信息僅供讀者參考，并不構(gòu)成投資建議。投資者據(jù)此操作，風(fēng)險(xiǎn)自擔(dān)。如有侵權(quán)請(qǐng)聯(lián)系刪除！

相關(guān)閱讀

最新亚洲人成无码网站,夜夜操夜夜操夜夜爽,中文字日产幕乱五区,在线成人看片黄a免费看,亚洲自偷自拍另类11p

16年老程序員當(dāng)場(chǎng)“退休”，OpenAI o1這么強(qiáng)嗎？

16年老程序員當(dāng)場(chǎng)“退休”，OpenAI o1這么強(qiáng)嗎？