超越Devin!姚班帶隊(duì),他們創(chuàng)大模型編程新世界紀(jì)錄
相信很多大家對超越Devin!姚班帶隊(duì),他們創(chuàng)大模型編程新世界紀(jì)錄還不知道吧,今天菲菲就帶你們一起去了解一下~.~!
超越Devin!SWEBench排行榜上迎來了新玩家——
StarShip CodeGen Agent,姚班帶隊(duì)初創(chuàng)公司OpenCSG出品,以23.67%的成績獲得全球第二名的成績。
同時(shí)創(chuàng)造了非GPT-4o基模的最高紀(jì)錄(SOTA)。
我們都知道,SWEBench評測高度貼近真實(shí)編程場景,難度極高,不僅要求模型能理解需求、協(xié)調(diào)多個(gè)函數(shù)/類甚至文件的變更,還要求模型與執(zhí)行環(huán)境交互,處理超長上下文并執(zhí)行遠(yuǎn)超傳統(tǒng)代碼生成任務(wù)的復(fù)雜邏輯推理。
在這種高難度的真實(shí)測試中,行業(yè)中最先進(jìn)的GPT4和Devin,也僅能解決1.74%和13.86%的問題。
OpenCSG的這一成績,標(biāo)志著國內(nèi)公司在推動(dòng)語言模型向更實(shí)用、智能和自主化方向發(fā)展邁出了領(lǐng)先的一步。
大模型編程,到底有多難?
2024年3月,首個(gè)AI軟件工程師Devin的橫空出世,引爆了整個(gè)技術(shù)界。雖然伴隨著一系列爭議,但Devin本身強(qiáng)大的創(chuàng)新能力和巨大的潛力,帶給眾多AI愛好者和從業(yè)者新的期待。
Devin不僅能夠輕松解決編碼任務(wù),更可以自主完成軟件開發(fā)的整個(gè)周期——從項(xiàng)目規(guī)劃到部署,涵蓋但不限于構(gòu)建網(wǎng)站、自主尋找并修復(fù) BUG、訓(xùn)練以及微調(diào)AI模型等等。
為什么Devin敢于挑戰(zhàn)GPT4等基礎(chǔ)模型的編程能力呢?
核心在于軟件工程師并不只是編寫代碼,更涉及到需求理解、代碼解讀、編程計(jì)劃、代碼生成、調(diào)試與異常修復(fù)等等環(huán)節(jié),這里面的每個(gè)環(huán)節(jié)都會(huì)影響大模型編程的可用性和效果。
針對于這類真實(shí)場景,普林斯頓大學(xué)提出了SWEBench,這是一種量化評估端到端代碼生成能力的工具。
GPT-4在SWEBench上的評分僅有1.74%,即使加上RAG技術(shù),評分也不到3%,這表明單純依靠基礎(chǔ)模型來直接解決現(xiàn)實(shí)世界中的編程問題是不可能做到的。
而Devin的技術(shù)創(chuàng)新是基于Agent構(gòu)建工作流程,將SWEBench的解決率提升到了一個(gè)新高度。
3月份,Devin以獨(dú)立解決13.86%的問題解決率高居榜首,這直接將“大模型編程”從幾乎不可用的狀態(tài)提升到了“看到了曙光”。硅谷大廠和大模型創(chuàng)業(yè)公司紛紛闖入LLM for SE這個(gè)領(lǐng)域,這項(xiàng)記錄被連續(xù)改寫。
截止2024年4月底,最好的記錄由Amazon AI團(tuán)隊(duì)推出的 Amazon Q Developer Agent 創(chuàng)造的20.33%。
較為遺憾的是,相比于基礎(chǔ)模型榜單上中國公司的“百花齊放”,這項(xiàng)高難度的挑戰(zhàn)中國公司鮮少參與,直到這一次OpenCSG改寫了這一紀(jì)錄。
來自中國創(chuàng)業(yè)公司
SWEBench最新評測結(jié)果更新,OpenCSG躍居榜單第二名,該公司推出的OpenCSG StarShip CodeGen Agent在Lite評測中取得了23.67%的通過率,這一成績不僅超過了Devin和Amazon的成績。
OpenCSG(開放傳神)成立僅一年,是一家致力于大模型生態(tài)社區(qū)建設(shè),匯集人工智能行業(yè)上下游企業(yè)鏈共同為大模型在垂直行業(yè)的應(yīng)用提供解決方案和工具平臺(tái)的公司。
團(tuán)隊(duì)在開源及大模型復(fù)合經(jīng)驗(yàn)十分深厚——
CEO陳冉是開源軟件領(lǐng)域的知名企業(yè)家,曾成功打造過多家開源領(lǐng)域的商業(yè)公司。
CTO王偉來自清華05級姚班,在人工智能領(lǐng)域有多年研發(fā)經(jīng)驗(yàn)。
公司核心研發(fā)團(tuán)隊(duì)中還匯聚了來自清華、北大、沃頓、港科大等學(xué)府的精英學(xué)子。
那么這樣一支團(tuán)隊(duì)是如何打造出新的記錄的呢?
當(dāng)前許多企業(yè)正在積極探索和實(shí)踐基礎(chǔ)模型、垂直領(lǐng)域模型及RAG等技術(shù),而OpenCSG則選擇了專注的方向:致力于編程Agent的創(chuàng)新開發(fā)和大型模型算法的深度優(yōu)化。
Agent層面:不同于LLM+RAG或者通用Agent框架,OpenCSG StarShip CodeGen Agent針對軟件研發(fā)領(lǐng)域高度定制優(yōu)化Agent而設(shè)計(jì):將研發(fā)各個(gè)階段(需求理解、代碼檢索、編程計(jì)劃、編寫代碼、循環(huán)驗(yàn)證等)通過LLM Agent實(shí)現(xiàn),并結(jié)合軟件工程方法,例如AST語法分析、依賴檢索等進(jìn)行深度優(yōu)化的方式,在各個(gè)環(huán)節(jié)精益求精,最終整合實(shí)現(xiàn)了更高精度的代碼生成。
算法層面:針對代碼版本變更引起的API沖突等典型問題,OpenCSG提出了自適應(yīng)教師模式,通過教師模型分析代碼版本變更記錄,生成高質(zhì)量編程數(shù)據(jù)并用于改善基礎(chǔ)模型的生成效果。根據(jù)評測這些創(chuàng)新帶來的改進(jìn),顯著優(yōu)于當(dāng)前的RAG模式,尤其是在API結(jié)構(gòu)高頻更新的熱門項(xiàng)目場景中。這部分的相關(guān)成果已經(jīng)形成論文投遞到國際會(huì)議中。
正是這種算法+工程雙管齊下、精益求精的模式,讓OpenCSG CodeGen Agent能在一眾模型中脫穎而出。
“StarShip就是各種家電電器”
如果說CodeGen Agent的真實(shí)評測是牛刀小試,那么StarShip則是承載著OpenCSG的宏偉藍(lán)圖。
對于StarShip的產(chǎn)品定位,OpenCSG CEO陳冉表示:
CTO王偉則表示這條路徑充滿挑戰(zhàn)但非常有趣,“從第一性原理來看,大模型對于生產(chǎn)力的提升已經(jīng)不是’是’或者’否’的問題,而是何時(shí)、何地、何種形態(tài)的問題,StarShip正是我們嘗試給出的一個(gè)回答?!?/p>
除StarShip之外,OpenCSG團(tuán)隊(duì)還相當(dāng)高產(chǎn):CSGHub開源模型平臺(tái)、wukong預(yù)訓(xùn)練模型、CSGCoder微調(diào)代碼模型等,這些產(chǎn)品定位精準(zhǔn),在業(yè)內(nèi)頗受好評。
這些產(chǎn)品的快速推出與迭代,既滿足了市場需求,同時(shí)也為了一個(gè)共同的目標(biāo):讓大模型賦能每一個(gè)企業(yè)每一個(gè)人。
OpenCSG的理念是開源開放,作為一家堅(jiān)持以開源為核心的公司,不僅實(shí)現(xiàn)了模型開源、代碼開源,甚至將平臺(tái)開源。
CTO王偉這樣總結(jié),我們是一家年輕的公司,受益于開源,才能在較短的時(shí)間做出一些成果,同時(shí)也會(huì)全面回饋開源社區(qū),這是開源社區(qū)的基本原則。除此之外,我非常認(rèn)同Sam Altman的說法,開源只是一種模式,比模式更重要的是產(chǎn)品價(jià)值。
“Benchmark本身只是一個(gè)數(shù)字,隨著GPT4-o的推出,SWEBench的測試成績預(yù)計(jì)將會(huì)很快超過30%,樂觀估計(jì)明年可以突破50%。而我們更關(guān)注這些數(shù)字背后的產(chǎn)品價(jià)值:隨著模型能力和工程技術(shù)的提升,數(shù)字員工將會(huì)從量變引發(fā)質(zhì)變,從能用到好用,在各行業(yè)迎來全面的爆發(fā)”王偉解釋道“這可能會(huì)是大模型時(shí)代背景下的一個(gè)重大變化,從公司到個(gè)人,我們都要為此做好準(zhǔn)備?!?/p>
以上就是關(guān)于【超越Devin!姚班帶隊(duì),他們創(chuàng)大模型編程新世界紀(jì)錄】的相關(guān)內(nèi)容,希望對大家有幫助!
免責(zé)聲明:本文由用戶上傳,與本網(wǎng)站立場無關(guān)。財(cái)經(jīng)信息僅供讀者參考,并不構(gòu)成投資建議。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。 如有侵權(quán)請聯(lián)系刪除!
-
奔馳GLE作為豪華SUV市場中的佼佼者,憑借其卓越的性能、豪華的內(nèi)飾以及寬敞的空間,吸引了眾多消費(fèi)者的關(guān)注。...瀏覽全文>>
-
在2025年,安徽阜陽地區(qū)的帕薩特新能源汽車市場表現(xiàn)非?;钴S。作為一款備受關(guān)注的新能源車型,帕薩特新能源憑...瀏覽全文>>
-
近日,滁州地區(qū)的大眾汽車經(jīng)銷商傳來好消息:備受矚目的2025款T-ROC探歌正式上市,并且以極具競爭力的價(jià)格吸引...瀏覽全文>>
-
在選擇一款新能源汽車時(shí),了解其價(jià)格和配置是非常重要的一步。安徽淮南地區(qū)的長安啟源E07作為2024款的新車型,...瀏覽全文>>
-
阜陽長安啟源A05作為長安汽車旗下的全新車型,自推出以來便憑借其獨(dú)特的設(shè)計(jì)風(fēng)格和豐富的配置吸引了眾多消費(fèi)者...瀏覽全文>>
-
阜陽長安啟源A07作為一款備受矚目的新能源車型,以其豪華配置和親民的價(jià)格在市場上引起了廣泛關(guān)注。這款車型不...瀏覽全文>>
-
安徽淮南威然2024款價(jià)格及配置詳解隨著汽車市場的不斷更新?lián)Q代,上汽大眾旗下的MPV車型——威然(Viloran)憑...瀏覽全文>>
-
QQ多米新車報(bào)價(jià)2025款,買車省錢秘籍隨著汽車市場的不斷發(fā)展,消費(fèi)者在選購車輛時(shí)不僅關(guān)注車型的性能和配置,...瀏覽全文>>
-
滁州途觀X 2024款最新價(jià)格及買車省錢秘籍隨著汽車市場的不斷發(fā)展,大眾途觀X作為一款兼具時(shí)尚與性能的中型SUV...瀏覽全文>>
-
隨著汽車市場的不斷發(fā)展,大眾蔚攬以其優(yōu)雅的設(shè)計(jì)和卓越的性能贏得了眾多消費(fèi)者的青睞。作為一款兼具實(shí)用性和...瀏覽全文>>
- Alienware 在 2025 年 CES 上展示了一些超凡脫俗的技術(shù)
- Wickes 任命首席零售和分銷官
- 分析師稱GTA 6或?qū)淞⑿袠I(yè)新標(biāo)準(zhǔn)
- 索尼和本田在拉斯維加斯推出售價(jià) 89,900 美元的 Afeela 1
- 日本 11 月游客人數(shù)創(chuàng)月度新高
- 神經(jīng)認(rèn)知測試在 3 歲兒童白血病治療期間可行
- 牛津郡小學(xué)支持圣誕毛衣日
- S?strene Grene 投資歐洲物流中心
- 有人已經(jīng)在電視上直播 BNMC 打造的 1967 年福特野馬 Restomod
- 潛在的分子療法可以逆轉(zhuǎn)小鼠的胎盤發(fā)育問題
- 奔馳GLE預(yù)約試駕,新手必看的詳細(xì)流程
- 滁州T-ROC探歌 2025新款價(jià)格,最低售價(jià)15.89萬起,趕緊行動(dòng)
- 安徽淮南威然最新價(jià)格2024款,各配置車型售價(jià)全知曉
- 滁州途觀X最新價(jià)格2024款,買車省錢秘籍
- 淮南長安啟源Q05 2025新款價(jià)格,最低售價(jià)9.69萬起,入手正當(dāng)時(shí)
- 安徽淮南探影多少錢 2023款落地價(jià),各配置車型售價(jià)一目了然
- 淮南途觀X價(jià)格大揭秘,買車前必看
- 安徽淮南長安獵手K50新款價(jià)格2025款多少錢?買車攻略一網(wǎng)打盡
- 滁州ID.4 X新款價(jià)格2025款多少錢?買車攻略一網(wǎng)打盡
- QQ多米落地價(jià),購車前必看的費(fèi)用明細(xì)
- Nvidia DLSS 4 有望將游戲性能提高 8 倍
- 人工智能在預(yù)測自身免疫性疾病進(jìn)展方面顯示出良好的前景
- 心理物理實(shí)驗(yàn)揭示皮膚水分感知是如何改變的
- 科茨沃爾德公司慶祝圣誕節(jié)圓滿成功
- 南法納姆學(xué)校被評為薩里郡表現(xiàn)最好的小學(xué)
- 約克區(qū)九所小學(xué)將削減招生人數(shù)
- 松下新款電動(dòng)汽車電池為 Lucid Gravity 帶來 450 英里續(xù)航里程
- 泰國旅游呈現(xiàn)新趨勢
- 研究人員找到在細(xì)胞水平上餓死前列腺癌腫瘤的新方法
- 領(lǐng)先的人工智能聊天機(jī)器人在測試中表現(xiàn)出類似癡呆癥的認(rèn)知能力下降
- 龐大的 Project Zomboid build 42 終于可以玩了
- Steam Replay 回歸向您展示 2024 年您玩得最多的 PC 游戲
- Jollyes 推出強(qiáng)化的人才支持和招聘措施
- Karen Millen 與 Simon Harrison 共同推出全新高級珠寶系列
- 奇瑞風(fēng)云A8L電動(dòng)轎車刷新續(xù)航里程世界紀(jì)錄
- 虛擬藝術(shù)家將別克 Cascada 帶回 2026 款車型
- OnePlus 宣布推出新計(jì)劃解決綠線問題
- OnePlus Watch 3 將擁有更大的電池和更薄的機(jī)身
- 研究人員發(fā)現(xiàn)可變剪接與自身免疫性疾病遺傳之間的細(xì)胞類型特異性聯(lián)系
- 科學(xué)家確定腦細(xì)胞類型是排尿的主要控制者