文生圖參數(shù)量升至240億!Playground v3發(fā)布:深度融合LLM,圖形設(shè)計能力超越人類
相信很多大家對文生圖參數(shù)量升至240億!Playground v3發(fā)布:深度融合LLM,圖形設(shè)計能力超越人類還不知道吧,今天菲菲就帶你們一起去了解一下~.~!
【新智元導(dǎo)讀】Playground Research推出了新一代文本到圖像模型PGv3,具備240億參數(shù)量,采用深度融合的大型語言模型,實(shí)現(xiàn)了在圖形設(shè)計和遵循文本提示指令上甚至超越了人類設(shè)計師,同時支持精確的RGB顏色控制和多語言識別。
自去年以來,文本到圖像生成模型取得了巨大進(jìn)展,模型的架構(gòu)從傳統(tǒng)的基于UNet逐漸轉(zhuǎn)變?yōu)榛赥ransformer的模型。
Playground Research最近發(fā)布了一篇論文,詳細(xì)介紹了團(tuán)隊(duì)最新的、基于DiT的擴(kuò)散模型Playground v3(簡稱PGv3),將模型參數(shù)量擴(kuò)展到240億,在多個測試基準(zhǔn)上達(dá)到了最先進(jìn)的性能,更擅長圖形設(shè)計。
論文鏈接:https://arxiv.org/abs/2409.10695
數(shù)據(jù)鏈接:https://huggingface.co/datasets/playgroundai/CapsBench
與傳統(tǒng)依賴于預(yù)訓(xùn)練語言模型如T5或CLIP文本編碼器的文本到圖像生成模型不同,PGv3完全集成了大型語言模型(LLMs),基于全新的深度融合(Deep-Fusion)架構(gòu),利用僅解碼器(decoder-only)大型語言模型的知識,來進(jìn)行文本到圖像生成任務(wù)。
此外,為了提高圖像描述的質(zhì)量,研究人員開發(fā)了一個內(nèi)部描述生成器(in-house captioner),能夠生成不同詳細(xì)程度的描述,豐富了文本結(jié)構(gòu)的多樣性,還引入了一個新的基準(zhǔn)CapsBench來評估詳細(xì)的圖像描述性能。
實(shí)驗(yàn)結(jié)果表明,PGv3在文本提示遵循、復(fù)雜推理和文本渲染準(zhǔn)確率方面表現(xiàn)出色;用戶偏好研究表明,PGv3模型在常見的設(shè)計應(yīng)用中,如表情包(stickers)、海報和logo設(shè)計,具有超越人類的圖形設(shè)計能力,還能夠精確控制RGB顏色和多語言理解。
PGv3模型架構(gòu)
Playground v3(PGv3)是一個潛擴(kuò)散模型(LDM),使用EDM公式進(jìn)行訓(xùn)練。像DALL-E3、Imagen2和Stable Diffusion3等其他模型一樣,PGv3旨在執(zhí)行文本到圖像(t2i)生成任務(wù)。
PGv3完全集成了一個大型語言模型(Llama3-8B),以增強(qiáng)其在提示理解和遵循方面的能力。
文本編碼器
Transformer模型中的每層捕捉到的表示不同,包含不同級別的單詞級和句子級信息,標(biāo)準(zhǔn)做法是使用T5編碼器或CLIP文本編碼器的最后一層輸出,或是結(jié)合倒數(shù)第二層的輸出,不過,研究人員發(fā)現(xiàn)選擇用于調(diào)節(jié)文本轉(zhuǎn)圖像模型的最佳層非常麻煩,特別是使用解碼器風(fēng)格的大型語言模型時,具有更復(fù)雜的內(nèi)部表示。
研究人員認(rèn)為,信息流通過LLM每層的連續(xù)性是其生成能力的關(guān)鍵,而LLM中的知識橫跨了所有層,而不是被某一層的輸出所封裝,所以PGv3在設(shè)計時,復(fù)制了LLM的所有Transformer塊,可以從LLM的每個對應(yīng)層中都獲取隱藏嵌入輸出。
這種方法可以充分利用LLM完整的「思考過程」,能夠引導(dǎo)模型模仿LLM的推理和生成過程,所以在生成圖像時,可以實(shí)現(xiàn)更好的提示遵循和一致性能力。
模型結(jié)構(gòu)
PGv3采用了DiT風(fēng)格的模型結(jié)構(gòu),圖像模型中的每個Transformer塊都設(shè)置得與語言模型(Llama3-8B)中的對應(yīng)塊相同,僅包含一個注意力層和一個前饋層,參數(shù)也相同,如隱藏維度大小、注意力頭的數(shù)量和注意力頭的維度,并且只訓(xùn)練了圖像模型部分。
在擴(kuò)散采樣過程中,語言模型部分只需要運(yùn)行一次,就可以生成所有中間隱藏嵌入。
與大多數(shù)傳統(tǒng)的基于CNN的擴(kuò)散模型不同,Transformer模型將圖像特征的自注意力與圖像和文本特征之間的交叉注意力分開,然后進(jìn)行聯(lián)合注意力操作,可以從圖像和文本值的組合池中提取相關(guān)特征,并且能減少計算成本和推理時間,下面還有一些對性能提升有用的操作:
1. Transformer塊之間的U-Net跳躍連接。
2. 中間層的token下采樣,在32層中,在中間層將圖像鍵和值的序列長度減少了四倍,使整個網(wǎng)絡(luò)類似于只有一個下采樣的傳統(tǒng)卷積U-Net,略微加快了訓(xùn)練和推理時間,而且沒有性能下降。
3. 位置嵌入,與llama3中的旋轉(zhuǎn)位置嵌入(RoPE)相同,由于圖像是二維的特征,所以研究人員探索了2D版本的RoPE:
「插值-PE」(interpolating-PE)方法不管序列長度如何,保持起始和結(jié)束位置ID固定后,在中間插值位置ID,不過該方法在訓(xùn)練分辨率上嚴(yán)重過擬合,并且無法泛化到未見過的縱橫比。
相比之下,「擴(kuò)展-PE」(expand-PE)方法按序列長度成比例增加位置ID,不使用任何技巧或歸一化,性能表現(xiàn)良好,沒有顯示出分辨率過擬合的跡象。
新的VAE
潛擴(kuò)散模型(LDM)的變分自編碼器(VAE),對于確定模型的細(xì)粒度圖像質(zhì)量上限來說非常重要。
研究人員將VAE的潛通道數(shù)從4增加到16,增強(qiáng)了合成細(xì)節(jié)的能力,比如較小的面部和文字;除了在256×256分辨率下進(jìn)行訓(xùn)練外,還擴(kuò)展到512×512分辨率,進(jìn)一步提高了重建性能。
CapsBench描述基準(zhǔn)
圖像描述評估是一個復(fù)雜的問題,目前的評估指標(biāo)主要分為兩類:
1. 基于參考的指標(biāo),如BLEU、CIDEr、METEOR、SPICE,使用一個真實(shí)描述或一組描述來計算相似度作為質(zhì)量度量,模型得分受到參考格式的限制;
2. 無參考指標(biāo),如CLIPScore、InfoMetIC、TIGEr,使用參考圖像的語義向量或圖像的多個區(qū)域來計算所提出描述的相似度指標(biāo),但缺點(diǎn)是,對于密集圖像和長而詳細(xì)的描述,語義向量不具備代表性,因?yàn)榘母拍钐唷?/p>
一種新型的評估方法是基于問題的指標(biāo),從描述中生成問題,并使用這些問題評估所提出的描述,有助于全面評估文本到圖像模型。
受到DSG和DPG-bench的啟發(fā),研究人員提出了一種反向的圖像描述評估方法,在17個圖像類別中生成「是-否」問答對:通用、圖像類型、文本、顏色、位置、關(guān)系、相對位置、實(shí)體、實(shí)體大小、實(shí)體形狀、計數(shù)、情感、模糊、圖像偽影、專有名詞(世界知識)、調(diào)色板和色彩分級。
在評估過程中,使用語言模型僅基于候選描述回答問題,答案選項(xiàng)為「是」、「否」和「不適用」。
CapsBench包含200張圖像和2471個問題,平均每張圖像12個問題,覆蓋電影場景、卡通場景、電影海報、邀請函、廣告、休閑攝影、街頭攝影、風(fēng)景攝影和室內(nèi)攝影。
實(shí)驗(yàn)結(jié)果
研究人員對比了Ideogram-2(左上),PGv3(右上)和Flux-pro(左下),當(dāng)以縮略圖形式查看時,3個模型的圖像看起來相似,定性差異很小。
當(dāng)放大檢查細(xì)節(jié)和紋理時,就能看出明顯區(qū)別:Flux-pro生成的皮膚紋理過于平滑,類似于3D渲染的效果,不夠真實(shí);Ideogram-2提供了更真實(shí)的皮膚紋理,但在遵循提示詞方面表現(xiàn)不好,提示詞很長的情況下,就會丟失關(guān)鍵細(xì)節(jié)。
相比之下,PGv3在遵循提示和生成真實(shí)圖像方面都表現(xiàn)出色,還展現(xiàn)出明顯優(yōu)于其他模型的電影質(zhì)感。
指令遵循
彩色文本代表模型未能捕捉到的具體細(xì)節(jié),可以看到PGv3始終能夠遵循細(xì)節(jié)。隨著測試提示變長,并包含更多詳細(xì)信息時,PGv3的優(yōu)勢變得尤為明顯,研究人員將這種性能提升歸功于我們集成了大型語言模型(LLM)的模型結(jié)構(gòu)和先進(jìn)的視覺-語言模型(VLM)圖像描述系統(tǒng)。
文本渲染
模型能夠生成各種類別的圖像,包括海報、logo、表情包、書籍封面和演示幻燈片,PGv3還能夠復(fù)現(xiàn)帶有定制文本的表情包,并憑借其強(qiáng)大的提示遵循和文本渲染能力,創(chuàng)造出具有無限角色和構(gòu)圖的全新表情包。
RGB顏色控制
PGv3在生成內(nèi)容中實(shí)現(xiàn)了異常精細(xì)的顏色控制,超越了標(biāo)準(zhǔn)調(diào)色板,憑借其強(qiáng)大的提示遵循能力和專業(yè)訓(xùn)練,PGv3使用戶能夠使用精確的RGB值精確控制圖像中每個對象或區(qū)域的顏色,非常適合需要精確顏色匹配的專業(yè)設(shè)計場景。
多語言能力
得益于語言模型天生能夠理解多種語言,并構(gòu)建出良好的相關(guān)詞表示,PGv3能夠自然地解釋各種語言的提示,并且多語言能力僅通過少量的多語言文本和圖像對數(shù)據(jù)集(數(shù)萬張圖像)就足夠了。
參考資料:
https://arxiv.org/abs/2409.10695
以上就是關(guān)于【文生圖參數(shù)量升至240億!Playground v3發(fā)布:深度融合LLM,圖形設(shè)計能力超越人類】的相關(guān)內(nèi)容,希望對大家有幫助!
免責(zé)聲明:本文由用戶上傳,與本網(wǎng)站立場無關(guān)。財經(jīng)信息僅供讀者參考,并不構(gòu)成投資建議。投資者據(jù)此操作,風(fēng)險自擔(dān)。 如有侵權(quán)請聯(lián)系刪除!
-
奔馳GLE作為豪華SUV市場中的佼佼者,憑借其卓越的性能、豪華的內(nèi)飾以及寬敞的空間,吸引了眾多消費(fèi)者的關(guān)注。...瀏覽全文>>
-
在2025年,安徽阜陽地區(qū)的帕薩特新能源汽車市場表現(xiàn)非?;钴S。作為一款備受關(guān)注的新能源車型,帕薩特新能源憑...瀏覽全文>>
-
近日,滁州地區(qū)的大眾汽車經(jīng)銷商傳來好消息:備受矚目的2025款T-ROC探歌正式上市,并且以極具競爭力的價格吸引...瀏覽全文>>
-
在選擇一款新能源汽車時,了解其價格和配置是非常重要的一步。安徽淮南地區(qū)的長安啟源E07作為2024款的新車型,...瀏覽全文>>
-
阜陽長安啟源A05作為長安汽車旗下的全新車型,自推出以來便憑借其獨(dú)特的設(shè)計風(fēng)格和豐富的配置吸引了眾多消費(fèi)者...瀏覽全文>>
-
阜陽長安啟源A07作為一款備受矚目的新能源車型,以其豪華配置和親民的價格在市場上引起了廣泛關(guān)注。這款車型不...瀏覽全文>>
-
安徽淮南威然2024款價格及配置詳解隨著汽車市場的不斷更新?lián)Q代,上汽大眾旗下的MPV車型——威然(Viloran)憑...瀏覽全文>>
-
QQ多米新車報價2025款,買車省錢秘籍隨著汽車市場的不斷發(fā)展,消費(fèi)者在選購車輛時不僅關(guān)注車型的性能和配置,...瀏覽全文>>
-
滁州途觀X 2024款最新價格及買車省錢秘籍隨著汽車市場的不斷發(fā)展,大眾途觀X作為一款兼具時尚與性能的中型SUV...瀏覽全文>>
-
隨著汽車市場的不斷發(fā)展,大眾蔚攬以其優(yōu)雅的設(shè)計和卓越的性能贏得了眾多消費(fèi)者的青睞。作為一款兼具實(shí)用性和...瀏覽全文>>
- Alienware 在 2025 年 CES 上展示了一些超凡脫俗的技術(shù)
- Wickes 任命首席零售和分銷官
- 分析師稱GTA 6或?qū)淞⑿袠I(yè)新標(biāo)準(zhǔn)
- 索尼和本田在拉斯維加斯推出售價 89,900 美元的 Afeela 1
- 日本 11 月游客人數(shù)創(chuàng)月度新高
- 神經(jīng)認(rèn)知測試在 3 歲兒童白血病治療期間可行
- 牛津郡小學(xué)支持圣誕毛衣日
- S?strene Grene 投資歐洲物流中心
- 有人已經(jīng)在電視上直播 BNMC 打造的 1967 年福特野馬 Restomod
- 潛在的分子療法可以逆轉(zhuǎn)小鼠的胎盤發(fā)育問題
- 奔馳GLE預(yù)約試駕,新手必看的詳細(xì)流程
- 滁州T-ROC探歌 2025新款價格,最低售價15.89萬起,趕緊行動
- 安徽淮南威然最新價格2024款,各配置車型售價全知曉
- 滁州途觀X最新價格2024款,買車省錢秘籍
- 淮南長安啟源Q05 2025新款價格,最低售價9.69萬起,入手正當(dāng)時
- 安徽淮南探影多少錢 2023款落地價,各配置車型售價一目了然
- 淮南途觀X價格大揭秘,買車前必看
- 安徽淮南長安獵手K50新款價格2025款多少錢?買車攻略一網(wǎng)打盡
- 滁州ID.4 X新款價格2025款多少錢?買車攻略一網(wǎng)打盡
- QQ多米落地價,購車前必看的費(fèi)用明細(xì)
- Nvidia DLSS 4 有望將游戲性能提高 8 倍
- 人工智能在預(yù)測自身免疫性疾病進(jìn)展方面顯示出良好的前景
- 心理物理實(shí)驗(yàn)揭示皮膚水分感知是如何改變的
- 科茨沃爾德公司慶祝圣誕節(jié)圓滿成功
- 南法納姆學(xué)校被評為薩里郡表現(xiàn)最好的小學(xué)
- 約克區(qū)九所小學(xué)將削減招生人數(shù)
- 松下新款電動汽車電池為 Lucid Gravity 帶來 450 英里續(xù)航里程
- 泰國旅游呈現(xiàn)新趨勢
- 研究人員找到在細(xì)胞水平上餓死前列腺癌腫瘤的新方法
- 領(lǐng)先的人工智能聊天機(jī)器人在測試中表現(xiàn)出類似癡呆癥的認(rèn)知能力下降
- 龐大的 Project Zomboid build 42 終于可以玩了
- Steam Replay 回歸向您展示 2024 年您玩得最多的 PC 游戲
- Jollyes 推出強(qiáng)化的人才支持和招聘措施
- Karen Millen 與 Simon Harrison 共同推出全新高級珠寶系列
- 奇瑞風(fēng)云A8L電動轎車刷新續(xù)航里程世界紀(jì)錄
- 虛擬藝術(shù)家將別克 Cascada 帶回 2026 款車型
- OnePlus 宣布推出新計劃解決綠線問題
- OnePlus Watch 3 將擁有更大的電池和更薄的機(jī)身
- 研究人員發(fā)現(xiàn)可變剪接與自身免疫性疾病遺傳之間的細(xì)胞類型特異性聯(lián)系
- 科學(xué)家確定腦細(xì)胞類型是排尿的主要控制者