NVIDIA 自動(dòng)引導(dǎo)技術(shù)：改善擴(kuò)散模型中的圖像質(zhì)量和變化

2024-06-07 15:00:25 來(lái)源：用戶(hù)：

相信很多大家對(duì)NVIDIA 自動(dòng)引導(dǎo)技術(shù)：改善擴(kuò)散模型中的圖像質(zhì)量和變化還不知道吧，今天菲菲就帶你們一起去了解一下~.~！

站長(zhǎng)之家（ChinaZ.com）6月7日消息:NVIDIA 近期提出了一種名為自動(dòng)引導(dǎo)的新方法，旨在改善擴(kuò)散模型中圖像的質(zhì)量和變化，而不影響其與給定條件（如類(lèi)標(biāo)簽或文本提示）的一致性。當(dāng)前的方法通常會(huì)以犧牲多樣性為代價(jià)來(lái)提高圖像質(zhì)量，從而限制了它們?cè)卺t(yī)學(xué)診斷和自動(dòng)駕駛等各種現(xiàn)實(shí)場(chǎng)景中的適用性。然而，克服這一挑戰(zhàn)可以提升人工智能系統(tǒng)在生成逼真且多樣化圖像方面的性能，推動(dòng)當(dāng)前人工智能能力的邊界。

目前解決這一挑戰(zhàn)的方法主要是使用無(wú)分類(lèi)器引導(dǎo)（CFG），它使用無(wú)條件模型來(lái)引導(dǎo)有條件模型。雖然 CFG 改善了提示對(duì)齊和圖像質(zhì)量，但降低了圖像變化。這種權(quán)衡發(fā)生在圖像質(zhì)量和變化的影響在本質(zhì)上是糾纏在一起的，難以獨(dú)立控制它們。此外，CFG 局限于有條件生成，并存在任務(wù)差異問(wèn)題，導(dǎo)致圖像構(gòu)成的偏斜和過(guò)于簡(jiǎn)化的圖像。這些限制影響了方法的性能，并限制了它在生成多樣化和高質(zhì)量圖像方面的應(yīng)用。

NVIDIA 的研究人員提出了一種名為自動(dòng)引導(dǎo)的新方法，它涉及使用主模型的規(guī)模較小、訓(xùn)練時(shí)間較短的版本來(lái)引導(dǎo)生成過(guò)程，而不是使用無(wú)條件模型。這種方法通過(guò)將圖像質(zhì)量與變化解耦，從而更好地控制這些方面，同時(shí)保持與主模型相同的條件，確保生成圖像的一致性。這種創(chuàng)新方法顯著提高了圖像生成的質(zhì)量和變化，在 ImageNet-512和 ImageNet-64等基準(zhǔn)測(cè)試中刷新了記錄，可以應(yīng)用于有條件和無(wú)條件模型。

該方法的核心是訓(xùn)練主模型的規(guī)模較小、訓(xùn)練時(shí)間較短的引導(dǎo)模型。論文詳細(xì)介紹了去噪擴(kuò)散過(guò)程，通過(guò)反轉(zhuǎn)隨機(jī)損壞過(guò)程生成合成圖像。研究人員使用 Fréchet Inception Distance（FID）和 FDDINOv2等指標(biāo)對(duì)模型進(jìn)行評(píng)估，結(jié)果顯示圖像生成質(zhì)量有了顯著提高。例如，在 ImageNet-512中使用小模型(EDM2-S)，自動(dòng)引導(dǎo)將 FID 從2.56提高到1.34，超越了現(xiàn)有方法。

廣泛的定量結(jié)果證明了自動(dòng)引導(dǎo)的有效性。該方法在公開(kāi)可用的網(wǎng)絡(luò)上實(shí)現(xiàn)了64×64和512×512圖像分辨率的 FID 記錄，表明圖像質(zhì)量有了顯著提升，而沒(méi)有犧牲多樣性。評(píng)估包括比較不同方法的表格，展示了自動(dòng)引導(dǎo)在 CFG 和其他基線方法上的優(yōu)越性能。例如，該方法在 ImageNet 數(shù)據(jù)集上實(shí)現(xiàn)了87.5% 的準(zhǔn)確率，超過(guò)了先前的最先進(jìn)水平。

這種改進(jìn)擴(kuò)散模型中圖像質(zhì)量的新方法涉及使用模型的規(guī)模較小、訓(xùn)練時(shí)間較短的引導(dǎo)模型。所提出的自動(dòng)引導(dǎo)方法克服了像 CFG 這樣的現(xiàn)有方法的局限性。這種創(chuàng)新方法在基準(zhǔn)測(cè)試中取得了最先進(jìn)的成績(jī)，顯著推進(jìn)了人工智能研究領(lǐng)域，為生成高質(zhì)量和多樣化圖像提供了更高效、更有效的解決方案。

以上就是關(guān)于【NVIDIA 自動(dòng)引導(dǎo)技術(shù)：改善擴(kuò)散模型中的圖像質(zhì)量和變化】的相關(guān)內(nèi)容，希望對(duì)大家有幫助！

標(biāo)簽： Nvidia 自動(dòng)引導(dǎo)技術(shù)：改善擴(kuò)散模型中的圖像質(zhì)量和變化

　　免責(zé)聲明：本文由用戶(hù)上傳，與本網(wǎng)站立場(chǎng)無(wú)關(guān)。財(cái)經(jīng)信息僅供讀者參考，并不構(gòu)成投資建議。投資者據(jù)此操作，風(fēng)險(xiǎn)自擔(dān)。如有侵權(quán)請(qǐng)聯(lián)系刪除！

相關(guān)閱讀

最新亚洲人成无码网站,夜夜操夜夜操夜夜爽,中文字日产幕乱五区,在线成人看片黄a免费看,亚洲自偷自拍另类11p

NVIDIA 自動(dòng)引導(dǎo)技術(shù)：改善擴(kuò)散模型中的圖像質(zhì)量和變化