蘋(píng)果多模態(tài)模型大升級(jí)!文本密集、多圖理解,全能小鋼炮
相信很多大家對(duì)蘋(píng)果多模態(tài)模型大升級(jí)!文本密集、多圖理解,全能小鋼炮還不知道吧,今天菲菲就帶你們一起去了解一下~.~!
【新智元導(dǎo)讀】近日,一向畫(huà)風(fēng)精致的「蘋(píng)果牌AI」,也推出了升級(jí)版的多模態(tài)大模型,從1B到30B參數(shù),涵蓋密集和專(zhuān)家混合模型,密集文本、多圖理解,多項(xiàng)能力大提升。
多模態(tài)大語(yǔ)言模型(MLLM)如今已是大勢(shì)所趨。
過(guò)去的一年中,閉源陣營(yíng)的GPT-4o、GPT-4V、Gemini-1.5和Claude-3.5等模型引領(lǐng)了時(shí)代。
而開(kāi)源MLLM也同樣在蓬勃發(fā)展,LLaVA系列,InternVL2,Cambrian-1和Qwen2-VL的強(qiáng)勁表現(xiàn),讓作為老大哥的GPT-4o時(shí)常躺槍。
開(kāi)源與閉源之間差距縮小,兼具單圖、多圖、視頻理解能力的MLLM也成為大家研究的重點(diǎn)。
說(shuō)到潮流,怎么能沒(méi)有蘋(píng)果的一席之地?
近日,一向畫(huà)風(fēng)精致的「蘋(píng)果牌AI」,也推出了升級(jí)版的多模態(tài)大模型——MM1.5。
論文地址:https://arxiv.org/pdf/2409.20566
MM1.5以前代MM1模型為基礎(chǔ),采用數(shù)據(jù)為中心的方法進(jìn)行訓(xùn)練,顯著增強(qiáng)了文本密集型圖像理解、視覺(jué)指代和定位、以及多圖像推理的能力。
MM1.5系列的參數(shù)量從1B到30B,涵蓋密集和專(zhuān)家混合(MoE)模型,即使較小的尺寸也有優(yōu)異的表現(xiàn)。
具體來(lái)說(shuō),MM1.5提升了OCR(光學(xué)字符識(shí)別)能力,支持任意圖像長(zhǎng)寬比和高達(dá)4M像素的分辨率,并且擅長(zhǎng)理解富含文本的圖像。
在強(qiáng)大而細(xì)粒度的圖像理解能力加持下,MM1.5能夠超越文本提示來(lái)解釋視覺(jué)內(nèi)容,例如點(diǎn)和邊界框。
研究人員還通過(guò)對(duì)額外的高質(zhì)量多圖像數(shù)據(jù)進(jìn)行監(jiān)督微調(diào)(SFT),進(jìn)一步提高了模型的上下文學(xué)習(xí)和開(kāi)箱即用的多圖像推理能力。
本文作者重點(diǎn)關(guān)注兩種小規(guī)模的MLLM,包括1B和3B的密集模型與MoE模型,其中小尺寸的密集模型可以輕松部署在移動(dòng)設(shè)備上。
「小模型」也符合蘋(píng)果一貫的作風(fēng),在自家的各種設(shè)備上,能夠更好地與用戶(hù)場(chǎng)景(如隱私和安全性)融為一體。
之前微軟和蘋(píng)果的很多實(shí)踐也證明了,利用高質(zhì)量數(shù)據(jù)和先進(jìn)的訓(xùn)練策略,小個(gè)子的模型在各種下游任務(wù)中同樣表現(xiàn)強(qiáng)勁,足以超越大尺寸的模型。
當(dāng)然了,光是小還不夠,通用性更為重要。
MM1.5系列模型在30B參數(shù)的范圍之內(nèi),都能很好地符合縮放定律,模型越大,性能越強(qiáng)。
另一方面,研究人員以MM1.5為基礎(chǔ),微調(diào)出服務(wù)于視頻理解的MM1.5-Video,以及為移動(dòng)UI(比如iPhone屏幕)理解定制的MM1.5-UI。
模型構(gòu)建
MM1.5保留了與MM1相同的模型架構(gòu),并將改進(jìn)的努力集中在以下幾個(gè)關(guān)鍵方面:
持續(xù)的預(yù)訓(xùn)練
作者在SFT階段之前引入了一個(gè)額外的高分辨率連續(xù)預(yù)訓(xùn)練階段,這對(duì)于提高富含文本的圖像理解性能至關(guān)重要。
作者探索了用于持續(xù)預(yù)訓(xùn)練的富含文本的OCR數(shù)據(jù),重點(diǎn)關(guān)注圖像中文本的詳細(xì)轉(zhuǎn)錄,還嘗試了高質(zhì)量的合成圖像字幕。
SFT
混合中的每一類(lèi)SFT數(shù)據(jù)如何影響最終模型的性能?特別是支持每種功能的數(shù)據(jù)對(duì)其他功能有何影響,作者對(duì)此進(jìn)行了廣泛的消融實(shí)驗(yàn)。
動(dòng)態(tài)高分辨率
對(duì)于高分辨率圖像編碼,作者遵循流行的任意分辨率方法,將圖像動(dòng)態(tài)劃分為子圖像,并進(jìn)行徹底的消融以細(xì)化設(shè)計(jì)中的關(guān)鍵細(xì)節(jié)。
為了保留前代模型的零樣本和少樣本學(xué)習(xí)能力,并更有效地將它們轉(zhuǎn)移到SFT階段,在開(kāi)發(fā)MM1.5時(shí),研究人員通過(guò)探索純文本數(shù)據(jù)的影響,并優(yōu)化不同預(yù)訓(xùn)練數(shù)據(jù)類(lèi)型的比例,來(lái)進(jìn)一步擴(kuò)展MM1的預(yù)訓(xùn)練。
這種方法提高了知識(shí)密集型基準(zhǔn)測(cè)試的性能,并增強(qiáng)了模型整體的多模態(tài)理解能力。
如上圖所示,模型訓(xùn)練包含三個(gè)階段:
在每個(gè)階段,都需要確定最佳數(shù)據(jù)組合并評(píng)估每種數(shù)據(jù)類(lèi)型的影響。
消融實(shí)驗(yàn)設(shè)置在消融研究中遵循以下默認(rèn)設(shè)置:
靜態(tài)圖像分割通過(guò)4個(gè)子圖像分割(加上一個(gè)概覽圖像)來(lái)實(shí)現(xiàn),并且每個(gè)子圖像通過(guò)位置嵌入插值調(diào)整為672×672分辨率。為了加快實(shí)驗(yàn)迭代速度,在消融過(guò)程中沒(méi)有使用動(dòng)態(tài)圖像分割。
對(duì)于多圖像數(shù)據(jù)的編碼,僅當(dāng)當(dāng)前訓(xùn)練樣本包含少于三幅圖像時(shí)才啟用圖像分割,以避免序列長(zhǎng)度過(guò)長(zhǎng)。
如下圖所示,模型可以以引用坐標(biāo)和邊界框的形式,解釋對(duì)輸入圖像中的點(diǎn)和區(qū)域的引用。
MM1.5采用與前代相同的CLIP圖像編碼器和LLM主干網(wǎng)絡(luò),并以C-Abstractor作為視覺(jué)語(yǔ)言連接器。
對(duì)于連續(xù)預(yù)訓(xùn)練和SFT,作者將批量大小設(shè)置為256。使用AdaFactor優(yōu)化器,峰值學(xué)習(xí)率為1e-5,余弦衰減為0。對(duì)于連續(xù)預(yù)訓(xùn)練,最多訓(xùn)練30k步。在SFT期間,所有模型都針對(duì)一個(gè)epoch進(jìn)行優(yōu)化。
模型使用MM1的預(yù)訓(xùn)練檢查點(diǎn)進(jìn)行初始化。這個(gè)階段對(duì)45M高分辨率OCR數(shù)據(jù)(包括PDFA、IDL、Renderedtext和DocStruct-4M)進(jìn)行持續(xù)的預(yù)訓(xùn)練,每個(gè)訓(xùn)練批次從這四個(gè)數(shù)據(jù)集中均勻采樣數(shù)據(jù)。
與SFT階段類(lèi)似,作者使用靜態(tài)圖像分割,將每個(gè)圖像分為五個(gè)子圖像,每個(gè)子圖像的大小調(diào)整為672×672分辨率。作者發(fā)現(xiàn)這種高分辨率設(shè)置對(duì)于持續(xù)預(yù)訓(xùn)練至關(guān)重要。
最后,將數(shù)據(jù)集分組有助于數(shù)據(jù)平衡和簡(jiǎn)化分析。在較高層面上,作者根據(jù)每個(gè)示例中呈現(xiàn)的圖像數(shù)量將數(shù)據(jù)集分為單圖像、多圖像和純文本類(lèi)別,詳細(xì)的分類(lèi)情況如下圖所示:
研究人員根據(jù)主要衡量的功能將基準(zhǔn)分為幾類(lèi),并提出類(lèi)別平均分?jǐn)?shù)(每個(gè)子類(lèi)別的所有基準(zhǔn)數(shù)字的平均分?jǐn)?shù)),以代表該功能的平均性能。
SFT消融然后是對(duì)于SFT數(shù)據(jù)混合的全面消融。作者首先評(píng)估一般數(shù)據(jù)類(lèi)別,然后逐步評(píng)估單獨(dú)添加其他子類(lèi)別的影響。
在訓(xùn)練過(guò)程中,作者混合來(lái)自不同子類(lèi)別的數(shù)據(jù),通過(guò)從混合物中隨機(jī)采樣數(shù)據(jù)來(lái)構(gòu)建每個(gè)訓(xùn)練批次,并使用類(lèi)別平均得分來(lái)比較使用每種功能的模型,結(jié)果如下圖所示。
作者觀察到,添加富含文本的數(shù)據(jù)可以顯著提高文本密集型和知識(shí)基準(zhǔn)的性能,數(shù)學(xué)數(shù)據(jù)也遵循類(lèi)似的趨勢(shì)。
以一般數(shù)據(jù)類(lèi)別為參考,對(duì)目標(biāo)類(lèi)別數(shù)據(jù)進(jìn)行上采樣/下采樣,使得在每個(gè)訓(xùn)練批次中,一般數(shù)據(jù)類(lèi)別和目標(biāo)類(lèi)別的數(shù)據(jù)比例為1:α。
為了衡量α的平均影響,作者提出MMBase分?jǐn)?shù)用于模型比較。如下圖所示,作者針對(duì)不同的數(shù)據(jù)類(lèi)別改變?chǔ)?。?duì)于科學(xué)、數(shù)學(xué)和代碼類(lèi)別,作者發(fā)現(xiàn)α的最佳比率分別為0.1、0.5和0.2。
下一項(xiàng)需要探究的是單圖像、多圖像和純文本數(shù)據(jù)的混合比例。
枚舉三個(gè)比率之間的所有組合將產(chǎn)生大量的計(jì)算成本。因此,作者分別對(duì)純文本數(shù)據(jù)和多圖像數(shù)據(jù)進(jìn)行消融,以評(píng)估模型對(duì)比例的敏感程度。
對(duì)于純文本數(shù)據(jù),作者測(cè)試了0到0.2的范圍,下圖結(jié)果表明,不同的w值對(duì)模型的基礎(chǔ)影響較小。
通過(guò)圖7(右)還可以觀察到,增加多圖像數(shù)據(jù)的采樣率會(huì)導(dǎo)致基本功能的性能下降(MMBase分?jǐn)?shù)減少),而多圖像平均分?jǐn)?shù)會(huì)增加。所以作者選擇w=0.1為單圖像數(shù)據(jù)分配更高的權(quán)重,以提高潛在的性能。
基于上述研究,作者提出了三種混合:基礎(chǔ)混合、單圖像混合、全混合。
下圖前三列表明,包含參考數(shù)據(jù)和多圖像數(shù)據(jù)會(huì)稍微降低密集文本、知識(shí)和一般基準(zhǔn)的平均性能。
最后一欄表明,作者優(yōu)化的組合實(shí)現(xiàn)了最佳的整體性能,平衡了基準(zhǔn)測(cè)試中的所有功能。
最后,放幾張跑分對(duì)比,包括Text-rich、In Context Learning和Multi-image:
以上就是關(guān)于【蘋(píng)果多模態(tài)模型大升級(jí)!文本密集、多圖理解,全能小鋼炮】的相關(guān)內(nèi)容,希望對(duì)大家有幫助!
免責(zé)聲明:本文由用戶(hù)上傳,與本網(wǎng)站立場(chǎng)無(wú)關(guān)。財(cái)經(jīng)信息僅供讀者參考,并不構(gòu)成投資建議。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。 如有侵權(quán)請(qǐng)聯(lián)系刪除!
- 董明珠曾喊話雷軍給股民分多少錢(qián)!格力:擬分紅超55億
- Epic喜+1:動(dòng)作游戲《師父》免費(fèi)領(lǐng) 立省139元
- 雷軍辟謠只招聘35歲以下員工:僅針對(duì)未來(lái)之星項(xiàng)目
- 普華永道發(fā)布2025年AI預(yù)測(cè):AI Agents將勞動(dòng)力提升1倍
- 雷軍回應(yīng)股價(jià)暴跌:年年難過(guò)年年過(guò)
- 一天100座!理想汽車(chē)第1700座超充站正式建成
- 《守望先鋒》國(guó)服宣布2月19日回歸:賬號(hào)數(shù)據(jù)完整保留
- 雷軍建議創(chuàng)業(yè)者要多留點(diǎn)錢(qián)給員工:別到山窮水盡才講問(wèn)題
- 雷軍新年第一天收到200元紅包 自侃年入百萬(wàn)的開(kāi)始
- 雷軍親自展示REDMI Turbo 4!2025年第一款新機(jī)
- 雷軍:小米未來(lái)10年建至少20座世界頂級(jí)工廠
- 雷軍辟謠只招聘35歲以下員工:只有招聘未來(lái)之星時(shí)才有年齡限制
- 雷軍回應(yīng)100億造車(chē):沒(méi)有好到“封神” 不要神話我
- 雷軍表態(tài):一心做好小米汽車(chē) 大家可以在“許愿池”尋找商機(jī)
- 雷軍:中國(guó)汽車(chē)產(chǎn)業(yè)應(yīng)少些歪門(mén)邪道 不要發(fā)黑稿、背后捅刀子
- 小米SU7選配色都是7000元 為什么璀璨洋紅卻需要9000元
-
奔馳GLE作為豪華SUV市場(chǎng)中的佼佼者,憑借其卓越的性能、豪華的內(nèi)飾以及寬敞的空間,吸引了眾多消費(fèi)者的關(guān)注。...瀏覽全文>>
-
在2025年,安徽阜陽(yáng)地區(qū)的帕薩特新能源汽車(chē)市場(chǎng)表現(xiàn)非?;钴S。作為一款備受關(guān)注的新能源車(chē)型,帕薩特新能源憑...瀏覽全文>>
-
近日,滁州地區(qū)的大眾汽車(chē)經(jīng)銷(xiāo)商傳來(lái)好消息:備受矚目的2025款T-ROC探歌正式上市,并且以極具競(jìng)爭(zhēng)力的價(jià)格吸引...瀏覽全文>>
-
在選擇一款新能源汽車(chē)時(shí),了解其價(jià)格和配置是非常重要的一步。安徽淮南地區(qū)的長(zhǎng)安啟源E07作為2024款的新車(chē)型,...瀏覽全文>>
-
阜陽(yáng)長(zhǎng)安啟源A05作為長(zhǎng)安汽車(chē)旗下的全新車(chē)型,自推出以來(lái)便憑借其獨(dú)特的設(shè)計(jì)風(fēng)格和豐富的配置吸引了眾多消費(fèi)者...瀏覽全文>>
-
阜陽(yáng)長(zhǎng)安啟源A07作為一款備受矚目的新能源車(chē)型,以其豪華配置和親民的價(jià)格在市場(chǎng)上引起了廣泛關(guān)注。這款車(chē)型不...瀏覽全文>>
-
安徽淮南威然2024款價(jià)格及配置詳解隨著汽車(chē)市場(chǎng)的不斷更新?lián)Q代,上汽大眾旗下的MPV車(chē)型——威然(Viloran)憑...瀏覽全文>>
-
QQ多米新車(chē)報(bào)價(jià)2025款,買(mǎi)車(chē)省錢(qián)秘籍隨著汽車(chē)市場(chǎng)的不斷發(fā)展,消費(fèi)者在選購(gòu)車(chē)輛時(shí)不僅關(guān)注車(chē)型的性能和配置,...瀏覽全文>>
-
滁州途觀X 2024款最新價(jià)格及買(mǎi)車(chē)省錢(qián)秘籍隨著汽車(chē)市場(chǎng)的不斷發(fā)展,大眾途觀X作為一款兼具時(shí)尚與性能的中型SUV...瀏覽全文>>
-
隨著汽車(chē)市場(chǎng)的不斷發(fā)展,大眾蔚攬以其優(yōu)雅的設(shè)計(jì)和卓越的性能贏得了眾多消費(fèi)者的青睞。作為一款兼具實(shí)用性和...瀏覽全文>>
- Alienware 在 2025 年 CES 上展示了一些超凡脫俗的技術(shù)
- Wickes 任命首席零售和分銷(xiāo)官
- 分析師稱(chēng)GTA 6或?qū)?shù)立行業(yè)新標(biāo)準(zhǔn)
- 索尼和本田在拉斯維加斯推出售價(jià) 89,900 美元的 Afeela 1
- 日本 11 月游客人數(shù)創(chuàng)月度新高
- 神經(jīng)認(rèn)知測(cè)試在 3 歲兒童白血病治療期間可行
- 牛津郡小學(xué)支持圣誕毛衣日
- S?strene Grene 投資歐洲物流中心
- 有人已經(jīng)在電視上直播 BNMC 打造的 1967 年福特野馬 Restomod
- 潛在的分子療法可以逆轉(zhuǎn)小鼠的胎盤(pán)發(fā)育問(wèn)題
- 奔馳GLE預(yù)約試駕,新手必看的詳細(xì)流程
- 滁州T-ROC探歌 2025新款價(jià)格,最低售價(jià)15.89萬(wàn)起,趕緊行動(dòng)
- 安徽淮南威然最新價(jià)格2024款,各配置車(chē)型售價(jià)全知曉
- 滁州途觀X最新價(jià)格2024款,買(mǎi)車(chē)省錢(qián)秘籍
- 淮南長(zhǎng)安啟源Q05 2025新款價(jià)格,最低售價(jià)9.69萬(wàn)起,入手正當(dāng)時(shí)
- 安徽淮南探影多少錢(qián) 2023款落地價(jià),各配置車(chē)型售價(jià)一目了然
- 淮南途觀X價(jià)格大揭秘,買(mǎi)車(chē)前必看
- 安徽淮南長(zhǎng)安獵手K50新款價(jià)格2025款多少錢(qián)?買(mǎi)車(chē)攻略一網(wǎng)打盡
- 滁州ID.4 X新款價(jià)格2025款多少錢(qián)?買(mǎi)車(chē)攻略一網(wǎng)打盡
- QQ多米落地價(jià),購(gòu)車(chē)前必看的費(fèi)用明細(xì)
- Nvidia DLSS 4 有望將游戲性能提高 8 倍
- 人工智能在預(yù)測(cè)自身免疫性疾病進(jìn)展方面顯示出良好的前景
- 心理物理實(shí)驗(yàn)揭示皮膚水分感知是如何改變的
- 科茨沃爾德公司慶祝圣誕節(jié)圓滿成功
- 南法納姆學(xué)校被評(píng)為薩里郡表現(xiàn)最好的小學(xué)
- 約克區(qū)九所小學(xué)將削減招生人數(shù)
- 松下新款電動(dòng)汽車(chē)電池為 Lucid Gravity 帶來(lái) 450 英里續(xù)航里程
- 泰國(guó)旅游呈現(xiàn)新趨勢(shì)
- 研究人員找到在細(xì)胞水平上餓死前列腺癌腫瘤的新方法
- 領(lǐng)先的人工智能聊天機(jī)器人在測(cè)試中表現(xiàn)出類(lèi)似癡呆癥的認(rèn)知能力下降
- 龐大的 Project Zomboid build 42 終于可以玩了
- Steam Replay 回歸向您展示 2024 年您玩得最多的 PC 游戲
- Jollyes 推出強(qiáng)化的人才支持和招聘措施
- Karen Millen 與 Simon Harrison 共同推出全新高級(jí)珠寶系列
- 奇瑞風(fēng)云A8L電動(dòng)轎車(chē)刷新續(xù)航里程世界紀(jì)錄
- 虛擬藝術(shù)家將別克 Cascada 帶回 2026 款車(chē)型
- OnePlus 宣布推出新計(jì)劃解決綠線問(wèn)題
- OnePlus Watch 3 將擁有更大的電池和更薄的機(jī)身
- 研究人員發(fā)現(xiàn)可變剪接與自身免疫性疾病遺傳之間的細(xì)胞類(lèi)型特異性聯(lián)系
- 科學(xué)家確定腦細(xì)胞類(lèi)型是排尿的主要控制者