Claude 3.5深夜覺(jué)醒，學(xué)會(huì)模仿人類(lèi)用電腦！編程干翻o1，Agent一夜變天

2024-10-23 09:00:45 來(lái)源：用戶(hù)：

相信很多大家對(duì)Claude 3.5深夜覺(jué)醒，學(xué)會(huì)模仿人類(lèi)用電腦！編程干翻o1，Agent一夜變天還不知道吧，今天菲菲就帶你們一起去了解一下~.~！

【新智元導(dǎo)讀】太科幻了，深夜上線的Claude，可以像人類(lèi)一樣使用計(jì)算機(jī)了?查看屏幕、移動(dòng)光標(biāo)、點(diǎn)擊按鈕、輸入文本，還能查找代碼錯(cuò)誤、自動(dòng)搜集信息填表。AI推理已至瓶頸，下一個(gè)爆破點(diǎn)，就是AI操作電腦!

Claude3.5深夜迎來(lái)重磅升級(jí)!

不出所料，Anthropic AI這周終于有了大動(dòng)作——首發(fā)Claude3.5Haiku，全新升級(jí)版Claude3.5Sonnet也來(lái)了。

不過(guò)，「超大杯」Opus依然沒(méi)有亮相。

讓人驚艷的是，進(jìn)化后的Claude3.5Sonnet一舉擊潰OpenAI o1，堪稱(chēng)最強(qiáng)推理模型。

它在各個(gè)方面得到了全面顯著的提升，尤其是業(yè)界領(lǐng)先的編碼能力。

而Claude3.5Haiku與上一代最強(qiáng)Claude3Opus性能相當(dāng)，成本、速度與上一代Haiku相近。

甚至，Claude現(xiàn)在能夠像人類(lèi)一樣操作計(jì)算機(jī)，不僅可以查看屏幕、移動(dòng)光標(biāo)，還可以單機(jī)按鈕、鍵入文本!

Anthropic開(kāi)發(fā)者關(guān)系主管表示，「計(jì)算機(jī)使用」是全新人機(jī)交互范式的第一步。同時(shí)也是，AI模型應(yīng)該具備的全新基礎(chǔ)能力。

許多做瀏覽器智能體的初創(chuàng)公司，一夜之間過(guò)時(shí)了。

網(wǎng)友們紛紛感嘆:Agent和工作流都要變天了……

會(huì)自己用電腦的AI來(lái)了?

在公測(cè)中，Anthropic引入一項(xiàng)突破性的新功能:計(jì)算機(jī)使用能力。從今天起，開(kāi)發(fā)者可以通過(guò)API，指導(dǎo)Claude像人類(lèi)一樣使用計(jì)算機(jī)了。

Claude3.5Sonnet是首個(gè)在公測(cè)中提供此功能的模型。

當(dāng)然，這項(xiàng)功能仍處于實(shí)驗(yàn)階段，使用起來(lái)還有些笨拙，可能出錯(cuò)。而Anthropic選擇提前發(fā)布此功能，也是為了獲得開(kāi)發(fā)者反饋，將之快速改進(jìn)。

為什么要訓(xùn)練AI操作電腦?

Anthropic表示，在過(guò)去幾年里，強(qiáng)大的AI開(kāi)發(fā)已經(jīng)達(dá)到了許多里程碑，比如執(zhí)行復(fù)雜邏輯推理，以及識(shí)別和理解圖像的能力。

而下一個(gè)突破點(diǎn)，就是AI操作電腦了!如果模型不必通過(guò)專(zhuān)門(mén)定制的工具進(jìn)行交互，而是按指示就能使用所有軟件，這一定代表著未來(lái)的方向。

基本電腦操作

在這個(gè)demo中，Anthropic研究員給Claude提出了一個(gè)極有難度的挑戰(zhàn):

Claude自行打開(kāi)了Google，開(kāi)始了搜索。

金門(mén)大橋和用戶(hù)居住地有多遠(yuǎn)呢?Claude會(huì)自己打開(kāi)地圖查找距離。

了解所需信息之后，它打開(kāi)了日歷，為主人安排好了日程。

自動(dòng)編碼寫(xiě)網(wǎng)站

開(kāi)發(fā)者展示出Claude如何操控了自己的筆記本電腦，絲滑地完成了一個(gè)網(wǎng)站編程任務(wù)。

首先，Claude在小哥的Chrome瀏覽器中導(dǎo)航到了Claude.ai，并且讓Claude為自己創(chuàng)造了一個(gè)90年代主題的個(gè)人主頁(yè)。

只見(jiàn)它自己輸入網(wǎng)址，鍵入提示，向另一個(gè)Claude發(fā)出請(qǐng)求。

Claude.ai返回了一些代碼，渲染出來(lái)的畫(huà)面看起來(lái)很不錯(cuò)，但小哥希望在自己的電腦本地上對(duì)網(wǎng)站做一些修改。

于是他讓Claude下載文件，然后在VS Code中將其打開(kāi)。Claude成功完成了這些指令。

然后小哥讓Claude啟動(dòng)了一個(gè)服務(wù)器，然后就可以在瀏覽器中實(shí)際查看這個(gè)文件了。

Claude打開(kāi)了VS Code終端，嘗試啟動(dòng)一個(gè)服務(wù)器，然后卻遇到了錯(cuò)誤:機(jī)子上并沒(méi)有安裝Python。

結(jié)果，通過(guò)查看終端輸出，Claude自己發(fā)現(xiàn)了這個(gè)問(wèn)題!它用Python3再次嘗試，成功運(yùn)行起了服務(wù)器。

不過(guò)，終端輸出中有個(gè)錯(cuò)誤，頂部還缺少了一個(gè)文件圖標(biāo)。開(kāi)發(fā)者小哥請(qǐng)Claude來(lái)識(shí)別這個(gè)錯(cuò)誤，在文件中修復(fù)它。

令人驚喜的是，Claude在VS Code中找到了引發(fā)錯(cuò)誤的行，刪除了整行，然后保存文件、重新運(yùn)行網(wǎng)站。

這次，網(wǎng)站完全正確!

自動(dòng)尋找數(shù)據(jù)填表

假設(shè)我們需要填寫(xiě)一份來(lái)自「螞蟻設(shè)備公司」的供應(yīng)商請(qǐng)求表，但需要填寫(xiě)的數(shù)據(jù)散步在電腦的各個(gè)角落，Claude能幫我們完成嗎?

只見(jiàn)它開(kāi)始截取小哥的屏幕截圖，并且很快發(fā)現(xiàn):螞蟻設(shè)備公司并不在表格中。

這時(shí)，它立刻切換到CRM系統(tǒng)中，去搜索這個(gè)公司。找到后，它開(kāi)始滾動(dòng)頁(yè)面，查找填表所需的所有信息，然后提交了表格。

這也就意味著，我們工作中許多不得不做的繁瑣事項(xiàng)，都可以交由Claude代勞了!

現(xiàn)在，這個(gè)功能已經(jīng)在API中可用了。

現(xiàn)在，Asana、Canva、Cognition、DoorDash、Replit和The Browser Company等多家知名公司，已經(jīng)在探索Claude的新潛能，讓它們執(zhí)行數(shù)十步甚至數(shù)百步的復(fù)雜任務(wù)了。

比如，Replit正在利用Claude3.5Sonnet的計(jì)算機(jī)使用和用戶(hù)界面導(dǎo)航能力，為Replit Agent開(kāi)發(fā)功能，在構(gòu)建應(yīng)用程序過(guò)程中對(duì)其實(shí)時(shí)評(píng)估。

遠(yuǎn)低于人類(lèi)，但未來(lái)可期

新升級(jí)后的Claude3.5Sonnet，電腦使用能力究竟如何?

在 OSWorld測(cè)試中，它在僅基于屏幕截圖的任務(wù)類(lèi)別中得分為14.9%，明顯超越了排名第二的AI系統(tǒng)（7.8%）。

當(dāng)允許更多操作步驟來(lái)完成任務(wù)時(shí)，Claude得分提高到了22.0%。

這表明模型與環(huán)境的多次交互，能夠優(yōu)化任務(wù)性能。

雖然這一結(jié)果比之前有了大幅提升，但仍然遠(yuǎn)低于人類(lèi)72.36%的表現(xiàn)。

這也暗示了，Claude3.5Sonnet未來(lái)還有很大的改進(jìn)空間。

畢竟，人類(lèi)毫不費(fèi)力完成的一些操作（滾動(dòng)、拖動(dòng)、縮放），目前對(duì)于Claude來(lái)說(shuō)極具挑戰(zhàn)。

升級(jí)版Claude3.5Sonnet，編碼王者干翻o1

在各項(xiàng)行業(yè)基準(zhǔn)測(cè)試中，升級(jí)版Claude3.5Sonnet性能得到了全方位提升。

特別是，智能體編碼、工具使用任務(wù)中取得顯著突破。

論文地址:https://assets.anthropic.com/m/1cd9d098ac3e6467/original/Claude-3-Model-Card-October-Addendum.pdf

在編碼能力方面，它在SWE-bench Verified測(cè)試中，性能從33.4%大幅提升至49.0%。

這超越了所有公開(kāi)可用的模型——包括OpenAI o1-preview等推理模型和專(zhuān)為智能體編碼設(shè)計(jì)的專(zhuān)門(mén)系統(tǒng)。

此外，在TAU-bench（一項(xiàng)評(píng)估智能體工具使用能力的基準(zhǔn)測(cè)試）中，Claude3.5Sonnet也表現(xiàn)出色:

從下表中，可以看出推理測(cè)試基準(zhǔn)GPQA（Diamond）上，新版Claude3.5Sonnet大幅超越GPT-4o。

在視覺(jué)QA、數(shù)學(xué)推理、文檔視覺(jué)問(wèn)答、圖表問(wèn)答、科學(xué)表格基準(zhǔn)測(cè)試中，Claude3.5Sonnet性能成為業(yè)界新標(biāo)桿。

值得一提的是，新版Claude3.5Sonnet性能突破同時(shí)，仍保持了與前代模型相同的價(jià)格和運(yùn)行速度。

一些早期測(cè)試用戶(hù)的反饋，進(jìn)一步印證了升級(jí)后Claude3.5Sonnet，在AI驅(qū)動(dòng)編碼領(lǐng)域?qū)崿F(xiàn)「質(zhì)」的飛躍。

GitLab:在DevSecOps任務(wù)測(cè)試中，發(fā)現(xiàn)Claude3.5Sonnet在不增加延遲的前提下，推理能力顯著提升（各用例最高提升10%），使其成為驅(qū)動(dòng)復(fù)雜軟件開(kāi)發(fā)流程的理想選擇

Cognition:將新版Claude3.5Sonnet應(yīng)用于自主AI評(píng)估，在編碼、規(guī)劃和問(wèn)題解決等方面，相較前代模型均取得了實(shí)質(zhì)性進(jìn)步

The Browser Company:在使用該模型自動(dòng)化網(wǎng)絡(luò)工作流程時(shí)發(fā)現(xiàn)，Claude3.5Sonnet的表現(xiàn)超越了他們此前測(cè)試過(guò)的所有模型

此外，在安全部署前，Claude3.5Sonnet已經(jīng)在美國(guó)AI安全研究所（US AISI）和英國(guó)安全研究所(UK AISI)進(jìn)行了聯(lián)合測(cè)試。

而且，經(jīng)過(guò)自身評(píng)估，Anthorpic在「Responsible Scaling Policy」中制定的ASL-2標(biāo)準(zhǔn)仍然適用于新模型。

如前所述，升級(jí)版的Claude3.5Sonnet現(xiàn)在已經(jīng)可以在網(wǎng)頁(yè)、終端APP上使用了。

API的定價(jià)起始為每百萬(wàn)輸入Token3美元，每百萬(wàn)輸出Token15美元。

通過(guò)使用智能緩存技術(shù)可節(jié)省高達(dá)90%的成本，而使用批處理API則可節(jié)省50%成本。

應(yīng)用場(chǎng)景

Claude3.5Sonnet能夠理解細(xì)微的指令和上下文，識(shí)別并糾正自身錯(cuò)誤，還能從復(fù)雜數(shù)據(jù)中生成深入的分析和洞察。結(jié)合最先進(jìn)的編碼、視覺(jué)識(shí)別和寫(xiě)作能力，Claude3.5Sonnet可以被應(yīng)用于各種場(chǎng)景。

- 模擬人類(lèi)操作電腦

通過(guò)API集成Claude，開(kāi)發(fā)者可以指導(dǎo)Claude像人類(lèi)一樣使用電腦——通過(guò)觀察屏幕、移動(dòng)鼠標(biāo)、點(diǎn)擊按鈕和鍵入文字。Claude3.5Sonnet是首個(gè)能夠以這種方式可靠使用電腦的前沿AI模型，雖然目前在公開(kāi)測(cè)試階段仍具實(shí)驗(yàn)性質(zhì)，但其能力會(huì)隨時(shí)間持續(xù)提升。

- 代碼自動(dòng)生成

Claude3.5Sonnet可以協(xié)助整個(gè)軟件開(kāi)發(fā)生命周期——從初始設(shè)計(jì)到錯(cuò)誤修復(fù)，從系統(tǒng)維護(hù)到性能優(yōu)化?？梢灾苯訉⑺患傻疆a(chǎn)品中，或通過(guò)Claude.ai平臺(tái)將其用作智能編碼助手。

- 智能對(duì)話(huà)系統(tǒng)

憑借增強(qiáng)的推理能力和親和、自然的語(yǔ)氣，Claude3.5Sonnet非常適合開(kāi)發(fā)需要跨系統(tǒng)連接數(shù)據(jù)并執(zhí)行操作的智能對(duì)話(huà)系統(tǒng)。

- 智能知識(shí)問(wèn)答

Claude3.5Sonnet具有大規(guī)模上下文處理能力和極低的幻覺(jué)率，使其成為處理大型知識(shí)庫(kù)、文檔和代碼庫(kù)問(wèn)答任務(wù)的理想選擇。

- 視覺(jué)信息提取

Claude3.5Sonnet能夠輕松從圖表、圖形和復(fù)雜示意圖等視覺(jué)材料中提取信息——這使其成為數(shù)據(jù)分析和數(shù)據(jù)科學(xué)任務(wù)的理想人工智能模型。

- 流程自動(dòng)化

Claude3.5Sonnet能夠?qū)崿F(xiàn)重復(fù)性任務(wù)或流程的自動(dòng)化。它具備業(yè)界領(lǐng)先的指令執(zhí)行能力，能夠處理復(fù)雜的流程和操作。

全新Claude3.5Haiku，智能超越上代老大哥

從上一代對(duì)標(biāo)來(lái)看，Claude3.5Haiku稱(chēng)得上是「最小杯」。

這是Anthropic速度最快的模型。

它不僅保持樂(lè)了與Claude3Haiku相同的運(yùn)行成本和相近的處理速度，還在各項(xiàng)技能全面提升。

甚至，在多項(xiàng)智能基準(zhǔn)測(cè)試中，Claude3.5Haiku超越了上一代最強(qiáng)大的模型Claude3Opus。

同樣，Claude3.5Haiku在編碼任務(wù)上的表現(xiàn)尤為卓越。

比如，在SWE-bench Verified測(cè)試中，它取得了40.6%的高分，超越了許多使用公開(kāi)可用的最先進(jìn)模型的AI智能體——包括原始版本的Claude3.5Sonnet和GPT-4o。

Claude3.5Haiku具備了三點(diǎn)突出優(yōu)勢(shì):

1. 低延遲響應(yīng)

2. 更精準(zhǔn)的指令執(zhí)行能力

3. 更準(zhǔn)確的工具使用

這些特性使得模型特別適用于，面向用戶(hù)的產(chǎn)品開(kāi)發(fā)、專(zhuān)門(mén)的子智能體任務(wù)處理、基于海量數(shù)據(jù)（如購(gòu)買(mǎi)記錄、價(jià)格信息或庫(kù)存數(shù)據(jù)）生成個(gè)性化體驗(yàn)。

本月末，Claude3.5Haiku將在多個(gè)平臺(tái)上推出，包括Anthropic API、Amazon Bedrock和谷歌云的Vertex AI。（最初會(huì)以純文本模型形式推出，隨后會(huì)加入圖像輸入功能）

Claude3.5Haiku的定價(jià)起始為每百萬(wàn)輸入Token0.25美元，每百萬(wàn)輸出Token1.25美元。

通過(guò)使用提示詞緩存技術(shù)可節(jié)省高達(dá)90%的成本，而使用消息批處理API則可節(jié)省50%的成本。

應(yīng)用場(chǎng)景

憑借快速的處理速度、改進(jìn)的指令執(zhí)行能力和更準(zhǔn)確的工具使用，Claude3.5Haiku非常適合面向用戶(hù)的產(chǎn)品、專(zhuān)門(mén)的輔助任務(wù)，以及從海量數(shù)據(jù)中生成個(gè)性化體驗(yàn)。

- 代碼自動(dòng)補(bǔ)全

Claude3.5Haiku能夠提供快速、準(zhǔn)確的代碼建議和補(bǔ)全，有效加速開(kāi)發(fā)工作流程。特別適合那些希望簡(jiǎn)化編碼過(guò)程并提高生產(chǎn)力的軟件開(kāi)發(fā)團(tuán)隊(duì)。

- 智能聊天機(jī)器人

借助增強(qiáng)的對(duì)話(huà)能力和快速的響應(yīng)時(shí)間，Claude3.5Haiku在驅(qū)動(dòng)能處理大量用戶(hù)互動(dòng)的響應(yīng)式聊天機(jī)器人方面表現(xiàn)出色。對(duì)于需要可擴(kuò)展互動(dòng)能力的客戶(hù)服務(wù)、電子商務(wù)和教育平臺(tái)來(lái)說(shuō)，它尤其有價(jià)值。

- 數(shù)據(jù)提取和自動(dòng)標(biāo)注

Claude3.5Haiku能高效處理和分類(lèi)信息，在快速數(shù)據(jù)提取和自動(dòng)標(biāo)注任務(wù)中表現(xiàn)優(yōu)異。這一能力對(duì)于需要處理金融、醫(yī)療保健和研究領(lǐng)域大量非結(jié)構(gòu)化數(shù)據(jù)的組織特別有用。

- 自動(dòng)實(shí)時(shí)內(nèi)容審核

Claude3.5Haiku通過(guò)其改進(jìn)的推理和內(nèi)容理解能力，提供可靠、即時(shí)的內(nèi)容審核服務(wù)。這對(duì)于那些需要大規(guī)模維護(hù)安全、適當(dāng)內(nèi)容的社交平臺(tái)、在線社區(qū)和媒體組織來(lái)說(shuō)極具價(jià)值。

如何教會(huì)Claude操作電腦

Anthropic表示，人類(lèi)輕松執(zhí)行的操作——滾動(dòng)、拖拽、縮放，目前對(duì)Claude來(lái)說(shuō)仍然很有挑戰(zhàn)性。

而對(duì)于垃圾郵件、虛假信息、欺詐這類(lèi)風(fēng)險(xiǎn)，公司正在尋找安全部署的策略，比如開(kāi)發(fā)了識(shí)別系統(tǒng)，檢測(cè)是否發(fā)生危害。

研究過(guò)程

Anthropic在工具使用和多模態(tài)的工作，為AI識(shí)別和解釋圖像奠定了基礎(chǔ)。

在此基礎(chǔ)上，Claude還需要推理如何以及何時(shí)根據(jù)屏幕內(nèi)容執(zhí)行操作。

為此，研究者訓(xùn)練Claude準(zhǔn)確計(jì)算像素，從而完成命令，因?yàn)樗仨氂?jì)算出需要垂直或水平移動(dòng)鼠標(biāo)指針多少像素，才能點(diǎn)擊正確的位置。

在此期間，Claude迅速將學(xué)習(xí)成功從計(jì)算器和文本編輯器這類(lèi)簡(jiǎn)單軟件的訓(xùn)練中，遷移到了其他應(yīng)用（注意，期間它不允許聯(lián)網(wǎng)）。

這種訓(xùn)練讓它能將用戶(hù)指令轉(zhuǎn)化為一系列邏輯步驟，執(zhí)行操作。遇到障礙時(shí)，甚至還能自我糾正、重試任務(wù)。

小插曲

Anthropic開(kāi)發(fā)者關(guān)系主管Alex Albert還分享了，團(tuán)隊(duì)在開(kāi)發(fā)計(jì)算機(jī)使用功能時(shí)的一個(gè)有趣故事。

當(dāng)時(shí)，他們舉行了一場(chǎng)工程師的bug bash（漏洞排查活動(dòng)），以確保發(fā)現(xiàn)API所有潛在的問(wèn)題。

這意味著，要把一群工程師關(guān)在一個(gè)房間里幾個(gè)小時(shí)。

當(dāng)時(shí)，恰好大家都餓了。其中一位工程師靈機(jī)一閃，「不如讓Claude來(lái)個(gè)實(shí)戰(zhàn)演習(xí)，自主打開(kāi)DoorDash幫我們訂餐」。

沒(méi)想到，大約一分鐘后，Claude為工程師們定來(lái)了披薩。

展望未來(lái)

AI操作電腦能力代表了一種全新的人工智能開(kāi)發(fā)方法。

迄今為止，LLM開(kāi)發(fā)者一直在努力使工具適應(yīng)模型，創(chuàng)造特殊的環(huán)境，讓AI使用專(zhuān)門(mén)設(shè)計(jì)的工具來(lái)完成各種任務(wù)。

現(xiàn)在，Anthropic「反其道而行之」——他們選擇讓模型去適應(yīng)工具。也就是，Claude能像人類(lèi)一樣，融入我們?nèi)粘Ｊ褂玫挠?jì)算機(jī)環(huán)境，直接使用現(xiàn)有的軟件。

雖然Claude已經(jīng)達(dá)到了當(dāng)前的最高水平，但它的操作仍然相對(duì)緩慢且容易出錯(cuò)。我們?nèi)粘Ｊ褂秒娔X時(shí)的許多操作，如拖拽、縮放等，Claude都還無(wú)法做到。

此外，Claude目前觀察屏幕的方式類(lèi)似于快速翻閱一本「畫(huà)冊(cè)」——通過(guò)連續(xù)截圖并拼接在一起，而不是觀察連續(xù)的視頻流。這意味著它可能會(huì)錯(cuò)過(guò)一些短暫的動(dòng)作或通知。

有趣的是，Anthropic在錄制Demo時(shí)，還遇到了一些有趣的小插曲。

比如，在一次演示中，Claude不小心點(diǎn)擊停止了一個(gè)長(zhǎng)時(shí)間運(yùn)行的屏幕錄制，導(dǎo)致所有錄像都付諸東流。

而在另一次編碼演示中，Claude則突然「走神」，開(kāi)始饒有興趣地瀏覽起黃石國(guó)家公園的照片。

總之，Claude如今的表現(xiàn)讓人對(duì)未來(lái)充滿(mǎn)期待:AI操作電腦的能力將神速進(jìn)步，那一天，軟件開(kāi)發(fā)小白都能輕松使用它。

參考資料:

https://www.anthropic.com/news/3-5-models-and-computer-use

以上就是關(guān)于【Claude 3.5深夜覺(jué)醒，學(xué)會(huì)模仿人類(lèi)用電腦！編程干翻o1，Agent一夜變天】的相關(guān)內(nèi)容，希望對(duì)大家有幫助！

標(biāo)簽： Claude 3 5深夜覺(jué)醒，學(xué)會(huì)模仿人類(lèi)用電腦！編程干翻o1，Agent一夜變天

　　免責(zé)聲明：本文由用戶(hù)上傳，與本網(wǎng)站立場(chǎng)無(wú)關(guān)。財(cái)經(jīng)信息僅供讀者參考，并不構(gòu)成投資建議。投資者據(jù)此操作，風(fēng)險(xiǎn)自擔(dān)。如有侵權(quán)請(qǐng)聯(lián)系刪除！

相關(guān)閱讀

最新亚洲人成无码网站,夜夜操夜夜操夜夜爽,中文字日产幕乱五区,在线成人看片黄a免费看,亚洲自偷自拍另类11p

Claude 3.5深夜覺(jué)醒，學(xué)會(huì)模仿人類(lèi)用電腦！編程干翻o1，Agent一夜變天

Claude 3.5深夜覺(jué)醒，學(xué)會(huì)模仿人類(lèi)用電腦！編程干翻o1，Agent一夜變天