用GPT-3.5生成數(shù)據(jù)集!北大天工等團隊圖像編輯新SOTA,可精準模擬物理世界場景
相信很多大家對用GPT-3.5生成數(shù)據(jù)集!北大天工等團隊圖像編輯新SOTA,可精準模擬物理世界場景還不知道吧,今天菲菲就帶你們一起去了解一下~.~!
高質(zhì)量圖像編輯的方法有很多,但都很難準確表達出真實的物理世界。
那么,Edit the World試試。
來自北京大學、Tiamat AI、天工AI、Mila實驗室提出了EditWorld,他們引入了一種新的編輯任務,即世界指令(world-instructed)圖像編輯,它定義和分類基于各種世界場景的指令。
在一組預訓練模型,比如GPT-3.5、Video-LLava 和 SDXL的支持下,建立了一個帶有世界指令的多模態(tài)數(shù)據(jù)集。
在該數(shù)據(jù)集訓練了一個基于擴散的圖像編輯模型EditWorld,結(jié)果在其新任務的表現(xiàn)明顯優(yōu)于現(xiàn)有的編輯方法,實現(xiàn)SOTA。
圖像編輯新SOTA
現(xiàn)有的方法通過多種途徑實現(xiàn)高質(zhì)量的圖像編輯,包括但不限于文本控制、拖動操作以及inpainting。其中,利用instruction進行編輯的方法由于使用方便受到廣泛的關(guān)注。
盡管現(xiàn)有的圖片編輯方法能夠產(chǎn)生高質(zhì)量的結(jié)果,但它們在處理傳達物理世界中真實視覺動態(tài)的世界動態(tài)方面仍然存在困難。
如圖1所示,無論是InstructPix2pix還是MagicBrush都無法生成合理的編輯結(jié)果。
為了解決這一問題,團隊引入了一項新的任務,稱為world-instructed image editing,使圖像編輯能夠反映真實物理世界和虛擬媒體中的“世界動態(tài)”。
具體來說,他們定義并分類了各種世界動態(tài)指令,并基于這些指令創(chuàng)建了一個新的多模態(tài)訓練數(shù)據(jù)集,該數(shù)據(jù)集包含大量的輸入-指令-輸出三元組。
最后,團隊使用精心制作的數(shù)據(jù)集訓練了一個文本引導的擴散模型,并提出了一種零樣本圖像操作策略,以實現(xiàn)world-instructed image editing。
根據(jù)現(xiàn)實世界以及虛擬媒體中的任務場景,將world-instructed image editing分為7種認為類別,并對每一種類別進行了定義與介紹,同時提供了一個數(shù)據(jù)樣例。
隨后團隊設計了文本到圖片生成以及視頻分鏡提取兩個分支來獲取數(shù)據(jù)集。
文本生成圖片分支是為了豐富數(shù)據(jù)場景的豐富性,在該分支下,團隊首先利用GPT生成文本四元組(包括input圖片描述、instruction、output圖片描述以及關(guān)鍵詞),接著利用input以及output描述生成對應文本的圖片,利用關(guān)鍵詞對應的attention map對編輯位置進行定位獲取編輯mask,與此同時為了保證前后兩張圖關(guān)鍵特征的一致性,團隊引入了image prompt adaption的方法IP-Adapter,最后團隊使用IP-Adapter以及ControlNet,結(jié)合output image的canny map以及input image的image prompt feature,利用Image Inpainting對output image進行調(diào)整,從而獲得比較有效的編輯數(shù)據(jù)。
利用文本生成圖片分支得到場景豐富的數(shù)據(jù)后,為了能向數(shù)據(jù)集中添加真實數(shù)據(jù),團隊從視頻中提取高質(zhì)量的關(guān)鍵幀作為編輯數(shù)據(jù)。具體來說,團隊從視頻分鏡中提取相關(guān)性強且結(jié)構(gòu)差異大兩幀作為起始與末尾幀,并切分出一段新的分鏡,利用多模態(tài)大模型對這段分鏡的變化進行描述,最后團隊以起始與末尾幀作為input image以及output image,以得到的描述作為instruction,這樣就獲得了需要的編輯數(shù)據(jù)。
再進一步,團隊利用人工對生成數(shù)據(jù)進行recheck,從而進一步提升數(shù)據(jù)質(zhì)量。
團隊利用數(shù)據(jù)集對InstructPix2Pix模型進行finetune,同時為了保護非編輯區(qū)域?qū)崿F(xiàn)更為精確的編輯,團隊提出了post-edit策略。
最終可以看到,團隊的方法可以很好地實現(xiàn)world-instructed image editing。
論文鏈接:
https://arxiv.org/abs/2405.14785
代碼鏈接:
https://github.com/YangLing0818/EditWorld
以上就是關(guān)于【用GPT-3.5生成數(shù)據(jù)集!北大天工等團隊圖像編輯新SOTA,可精準模擬物理世界場景】的相關(guān)內(nèi)容,希望對大家有幫助!
免責聲明:本文由用戶上傳,與本網(wǎng)站立場無關(guān)。財經(jīng)信息僅供讀者參考,并不構(gòu)成投資建議。投資者據(jù)此操作,風險自擔。 如有侵權(quán)請聯(lián)系刪除!
-
奔馳GLE作為豪華SUV市場中的佼佼者,憑借其卓越的性能、豪華的內(nèi)飾以及寬敞的空間,吸引了眾多消費者的關(guān)注。...瀏覽全文>>
-
在2025年,安徽阜陽地區(qū)的帕薩特新能源汽車市場表現(xiàn)非?;钴S。作為一款備受關(guān)注的新能源車型,帕薩特新能源憑...瀏覽全文>>
-
近日,滁州地區(qū)的大眾汽車經(jīng)銷商傳來好消息:備受矚目的2025款T-ROC探歌正式上市,并且以極具競爭力的價格吸引...瀏覽全文>>
-
在選擇一款新能源汽車時,了解其價格和配置是非常重要的一步。安徽淮南地區(qū)的長安啟源E07作為2024款的新車型,...瀏覽全文>>
-
阜陽長安啟源A05作為長安汽車旗下的全新車型,自推出以來便憑借其獨特的設計風格和豐富的配置吸引了眾多消費者...瀏覽全文>>
-
阜陽長安啟源A07作為一款備受矚目的新能源車型,以其豪華配置和親民的價格在市場上引起了廣泛關(guān)注。這款車型不...瀏覽全文>>
-
安徽淮南威然2024款價格及配置詳解隨著汽車市場的不斷更新?lián)Q代,上汽大眾旗下的MPV車型——威然(Viloran)憑...瀏覽全文>>
-
QQ多米新車報價2025款,買車省錢秘籍隨著汽車市場的不斷發(fā)展,消費者在選購車輛時不僅關(guān)注車型的性能和配置,...瀏覽全文>>
-
滁州途觀X 2024款最新價格及買車省錢秘籍隨著汽車市場的不斷發(fā)展,大眾途觀X作為一款兼具時尚與性能的中型SUV...瀏覽全文>>
-
隨著汽車市場的不斷發(fā)展,大眾蔚攬以其優(yōu)雅的設計和卓越的性能贏得了眾多消費者的青睞。作為一款兼具實用性和...瀏覽全文>>
- Nvidia DLSS 4 有望將游戲性能提高 8 倍
- 人工智能在預測自身免疫性疾病進展方面顯示出良好的前景
- 心理物理實驗揭示皮膚水分感知是如何改變的
- 科茨沃爾德公司慶祝圣誕節(jié)圓滿成功
- 南法納姆學校被評為薩里郡表現(xiàn)最好的小學
- 約克區(qū)九所小學將削減招生人數(shù)
- 松下新款電動汽車電池為 Lucid Gravity 帶來 450 英里續(xù)航里程
- 泰國旅游呈現(xiàn)新趨勢
- 研究人員找到在細胞水平上餓死前列腺癌腫瘤的新方法
- 領先的人工智能聊天機器人在測試中表現(xiàn)出類似癡呆癥的認知能力下降
- 龐大的 Project Zomboid build 42 終于可以玩了
- Steam Replay 回歸向您展示 2024 年您玩得最多的 PC 游戲
- Jollyes 推出強化的人才支持和招聘措施
- Karen Millen 與 Simon Harrison 共同推出全新高級珠寶系列
- 奇瑞風云A8L電動轎車刷新續(xù)航里程世界紀錄
- 虛擬藝術(shù)家將別克 Cascada 帶回 2026 款車型
- OnePlus 宣布推出新計劃解決綠線問題
- OnePlus Watch 3 將擁有更大的電池和更薄的機身
- 研究人員發(fā)現(xiàn)可變剪接與自身免疫性疾病遺傳之間的細胞類型特異性聯(lián)系
- 科學家確定腦細胞類型是排尿的主要控制者