OpenAI全新發(fā)布o1模型 - 我們正式邁入了下一個時代。

2024-09-13 10:00:35 來源：用戶：

相信很多大家對OpenAI全新發(fā)布o1模型 - 我們正式邁入了下一個時代。還不知道吧，今天菲菲就帶你們一起去了解一下~.~！

大半夜的，OpenAI抽象了整整快半年的新模型。

在沒有任何預(yù)告下，正式登場。

正式版名稱不叫草莓，草莓只是內(nèi)部的一個代號。他們的正式名字，叫:

為什么取名叫o1，OpenAI是這么說的:

For complex reasoning tasks this is a significant advancement and represents a new level of AI capability. Given this， we are resetting the counter back to1and naming this series OpenAI o1.

翻譯過來是:

對于復(fù)雜推理任務(wù)來說，這是一個重要的進展，代表了人工智能能力的新水平。鑒于此，我們將計數(shù)器重置為1，并將這一系列命名為 OpenAI o1。

這次模型的強悍，甚至讓OpenAI不惜推掉了過去GPT系列的命名，重新起了一個o系列。

炸了，真的炸了。

我現(xiàn)在，頭皮發(fā)麻，真的，這次OpenAI o1發(fā)布，也標志著，AI行業(yè)，正式進入了一個全新的紀元。

“我們通往AGI的路上，已經(jīng)沒有任何阻礙?！?/p>

在邏輯和推理能力上，我直接先放圖，你們就知道，這玩意有多離譜。

AIME2024，一個高水平的數(shù)學競賽，GPT4o準確率為13.4%，而這次的o1預(yù)覽版，是56.7%，還未發(fā)布的o1正式版，是83.3%。

代碼競賽，GPT4o準確率為11.0%，o1預(yù)覽版為62%，o1正式版，是89%。

而最牛逼的博士級科學問題（GPQA Diamond），GPT4o是56.1，人類專家水平是69.7，o1達到了恐怖的78%。

我讓Claude翻譯了一下o1的圖，丑是丑了點，但是能看的懂每項數(shù)據(jù)意思就行。

什么叫全面碾壓，這就是。

特別是在測試測試化學、物理和生物學專業(yè)知識的基準GPQA-diamond上，o1的表現(xiàn)全面超過了人類博士專家，這也是有史以來，第一個獲得此成就的模型。

而整個模型之所以達到如此成就，基石就是Self-play RL，不知道這個的可以去看我前兩天的預(yù)測文章:新模型草莓到底是個啥?

通過Self-play RL，o1學會了磨練其思維鏈并完善所使用的策略。它學會了識別和糾正自己的錯誤。

它也學會了將復(fù)雜的步驟分解為更簡單的步驟。

而且當當前的方法不起作用時，它也學會了嘗試不同的方法。

他學會的這些，就是我們?nèi)祟悾詈诵牡乃伎挤绞?慢思考。

諾貝爾經(jīng)濟學獎得主丹尼爾·卡尼曼有一本著作，名叫:《思考，快與慢》。

非常詳細的闡述了人類的兩種思考方式。

第一種是快思考（系統(tǒng)1），特點是快速、自動、直覺性、無意識，舉幾個例子:

看到一個笑臉就知道對方心情很好。

1+1=2這樣簡單的計算。

開車時遇到危險情況立即踩剎車。

這些就是快思考，也就是傳統(tǒng)的大模型，死記硬背后學得的快速反應(yīng)的能力。

第二種是慢思考（系統(tǒng)2），特點是緩慢、需要努力、邏輯性、有意識，舉幾個例子:

解決一道復(fù)雜的數(shù)學題

填寫稅務(wù)申報表

權(quán)衡利弊后做出重要決定

這就是慢思考，我們?nèi)祟愔詮姶蟮暮诵模彩茿I要通往下一步AGI路上的基石。

而現(xiàn)在，o1終于踏出了堅實的一步，擁有了人類慢思考的特質(zhì)，在回答前，會反復(fù)的思考、拆解、理解、推理，然后給出最終答案。

說實話，這些增強的推理能力在處理科學、編碼、數(shù)學及類似領(lǐng)域的復(fù)雜問題時絕對極度有用。

例如o1可以被醫(yī)療研究人員用來注釋細胞測序數(shù)據(jù)，被物理學家用來生成量子光學所需的復(fù)雜數(shù)學公式，以及被各個領(lǐng)域的開發(fā)人員用來構(gòu)建和執(zhí)行多步驟工作流，等等等等。

o1也絕對是全新一代的數(shù)據(jù)飛輪，如果答案正確，整個邏輯鏈就會變成一個包含正負獎勵的訓練示例的小型數(shù)據(jù)集。

以O(shè)penAI的用戶級別，未來的進化速度，只會更恐怖。

寫到這，我忽然嘆了口氣，我覺得我跟一年以后的o1比起來，可能就是個純廢物了，真的。。。

目前，o1模型已經(jīng)逐步向所有ChatGPT Plus和 Team用戶開放，未來會考慮對免費用戶開放。

分為兩個模型，o1預(yù)覽版和o1mini，o1-mini就是更快更小更便宜，推理啥的都不錯，極度適合數(shù)學和代碼，就是世界知識會差很多，適用于需要推理但不需要廣泛世界知識的場景。

o1預(yù)覽版每周30條，o1-mini每周50條。

雪崩，甚至不是按以前的3小時來限制的，是每周30條，也能從側(cè)面看出來，o1這個模型，有多貴了。

對于開發(fā)者來說，只對已經(jīng)付過1000美刀的等級5開發(fā)者開放，每分鐘限制20次。

都挺少的。

而且在功能上閹割挺大，但是畢竟早期，理解。

API的價格上，o1預(yù)覽版每百萬輸入15美元，每百萬輸出60美元，這個推理成本...

o1-mini會便宜一些，每百萬輸入3美元，每百萬輸出12美元。

輸出成本都是推理成本的4倍，對比一下GPT4o，分別是5美元和15美元。

o1-mini還是勉強有一些經(jīng)濟效應(yīng)的，不過還是開始，后面等著OpenAI打骨折。

既然說o1已經(jīng)對Plus用戶開放，我就直接去我的號上看了眼，還不錯，拿到了。

那自然，第一時間試一試。

目前不支持曾經(jīng)的所有功能，也就是沒有圖片理解、圖片生成、代碼解釋器、網(wǎng)頁搜索等等，只有一個可以對話的裸模型。

我先是一個曾經(jīng)很致命的問題:

“農(nóng)夫需要把狼、羊和白菜都帶過河，但每次只能帶一樣物品，而且狼和羊不能單獨相處，羊和白菜也不能單獨相處，問農(nóng)夫該如何過河?！?/p>

思考了6秒時間，給了我一個很完美的回答。

還有之前一個坑遍所有大模型的調(diào)休問題:

“這是中國2024年9月9日（星期一）開始到10月13日的放假調(diào)休安排:上6休3上3休2上5休1上2休7再上5休1。

請你告訴我除了我本來該休的周末，我因為放假多休息了幾天?”

在o1思考了整整30秒以后，給出了一天不差的極度精準的答案。

無敵，真的無敵。

再來一個更難的，就是曾經(jīng)姜萍那個比賽的奧數(shù)題:

別問我題目什么意思，我看不懂，我是廢物，這題曾經(jīng)屠殺所有的大模型，這次，我們讓o1也來試一下看看。

在o1思考了整整1分多鐘之后，他給出了答案。

...

全...對...

我裂開了。

目前我自己試下來，感覺Prompt，未來可能也要重新摸索，在GPT為代表的快思考大模型時代，我們有很多所謂的一步一步思考之類的玩意，現(xiàn)在全都無效了，對o1甚至還有負效果。

OpenAI給出的最佳寫法是:

保持提示簡單直接:模型擅長理解和響應(yīng)簡短、清晰的指令，而不需要大量的指導(dǎo)。

避免思路鏈提示:由于這些模型在內(nèi)部進行推理，因此不需要提示它們“逐步思考”或“解釋你的推理”。

使用分隔符來提高清晰度:使用三重引號、XML 標簽或章節(jié)標題等分隔符來清楚地指示輸入的不同部分，幫助模型適當?shù)亟忉尣煌牟糠帧?/p>

限制檢索增強生成（RAG）中的附加上下文:提供附加上下文或文檔時，僅包含最相關(guān)的信息，以防止模型過度復(fù)雜化其響應(yīng)。

最后，我想說一下這個思考的時長。

現(xiàn)在o1是思考了一分鐘，但是，如果是真正的AGI，說實話，思考的越慢可能會越刺激。

當他真的，可以去做證明數(shù)學定理，去做癌癥藥物研發(fā)，去做天體研究呢?

每一次的思考，可以達到幾小時、幾天、甚至幾周呢?

最后的結(jié)果，可能會讓所有人震驚的難以置信。

現(xiàn)在，沒有人能想象到，那時候的AI，會是一個什么樣的存在。

而o1的未來，在我看到，也絕對不止是一個普普通通的ChatGPT。

而是我們前往下個時代，最偉大的基石。

“我們通往AGI的路上，已經(jīng)沒有任何阻礙?！?/p>

現(xiàn)在，我毫不猶豫的堅信著這句話。

星光熠熠的下一個時代。

在今天。

正式到來了。

以上，既然看到這里了，如果覺得不錯，隨手點個贊、在看、轉(zhuǎn)發(fā)三連吧，如果想第一時間收到推送，也可以給我個星標?～謝謝你看我的文章，我們，下次再見。

>/ 作者:卡茲克

以上就是關(guān)于【OpenAI全新發(fā)布o1模型 - 我們正式邁入了下一個時代?！康南嚓P(guān)內(nèi)容，希望對大家有幫助！

標簽： OpenAI全新發(fā)布o1模型 - 我們正式邁入了下一個時代。

　　免責聲明：本文由用戶上傳，與本網(wǎng)站立場無關(guān)。財經(jīng)信息僅供讀者參考，并不構(gòu)成投資建議。投資者據(jù)此操作，風險自擔。如有侵權(quán)請聯(lián)系刪除！

相關(guān)閱讀

最新亚洲人成无码网站,夜夜操夜夜操夜夜爽,中文字日产幕乱五区,在线成人看片黄a免费看,亚洲自偷自拍另类11p

OpenAI全新發(fā)布o1模型 - 我們正式邁入了下一個時代。

OpenAI全新發(fā)布o1模型 - 我們正式邁入了下一個時代。