Post-Training有多重要?AI2研究員長文詳解前沿模型的后訓(xùn)練秘籍
相信很多大家對Post-Training有多重要?AI2研究員長文詳解前沿模型的后訓(xùn)練秘籍還不知道吧,今天菲菲就帶你們一起去了解一下~.~!
越來越多研究發(fā)現(xiàn),后訓(xùn)練對模型性能同樣重要。Allen AI的機(jī)器學(xué)習(xí)研究員Nathan Lambert最近發(fā)表了一篇技術(shù)博文,總結(jié)了科技巨頭們所使用的模型后訓(xùn)練配方。
隨著LLM學(xué)界和工業(yè)界日新月異的發(fā)展,不僅預(yù)訓(xùn)練所用的算力和數(shù)據(jù)正在瘋狂內(nèi)卷,后訓(xùn)練(post-training)的對齊和微調(diào)方法也在不斷更新。
InstructGPT、WebGPT等較早發(fā)布的模型使用標(biāo)準(zhǔn)RLHF方法,其中的數(shù)據(jù)管理風(fēng)格和規(guī)模似乎已經(jīng)過時。
最近幾個月來,Meta、谷歌和英偉達(dá)等AI巨頭紛紛發(fā)布開源模型,附帶發(fā)布詳盡的論文或報告,包括Llama3.1、Nemotron340B、Gemma2,以及Apple Intellegence的基礎(chǔ)模型報告。
從這些披露的信息中,我們可以看到后訓(xùn)練方法的一些前沿變化趨勢。Allen AI研究科學(xué)家Nathan Lambert最近就這個話題發(fā)布了一篇文章。
原文地址:https://www.interconnects.ai/p/frontier-model-post-training
Nathan Lambert博士畢業(yè)于UC伯克利,曾在HuggingFace領(lǐng)導(dǎo)RLHF團(tuán)隊,目前是Allen AI的機(jī)器學(xué)習(xí)研究員。
他在文章中指出,合成數(shù)據(jù)、迭代訓(xùn)練、人類偏好標(biāo)簽和大量過濾,是這些模型所用后訓(xùn)練方法的共同特點。具體來說,新的后訓(xùn)練配方建立在以下預(yù)設(shè)的基礎(chǔ)上:
- 合成數(shù)據(jù)的質(zhì)量可能高于人類數(shù)據(jù),特別是對于具有挑戰(zhàn)性的任務(wù)
- RLHF可以比指令微調(diào)擴(kuò)展到更大規(guī)模
- 需要多輪訓(xùn)練和生成才能得到最佳模型
- 數(shù)據(jù)過濾是訓(xùn)練中最重要的部分
這些假設(shè)在很大程度上相互交織,構(gòu)成了可以擴(kuò)展到大型團(tuán)隊的訓(xùn)練方案,非常適用于科技巨頭。文章的具體內(nèi)容對以上四點分別做出了詳細(xì)闡釋。
新的標(biāo)準(zhǔn)Pipeline
如果我們認(rèn)為ChatBot Arena分?jǐn)?shù)衡量了模型的后訓(xùn)練表現(xiàn),這就很大程度上與風(fēng)格和魯棒性相關(guān),幾乎所有的主要實驗室都通過迭代訓(xùn)練獲得了顯著收益。
我們還沒有看到Gemini2或GPT-5發(fā)布,它們也許會重置目前的后訓(xùn)練范式,并有可能解鎖我們對模型更深層次的控制能力。
但從目前來看,各個頂級實驗室所用的方法明顯趨同,這種趨勢比預(yù)期中要清晰得多。
人類偏好數(shù)據(jù)最初的RLHF管道的重點是人類數(shù)據(jù),主要有兩種形式:1)用于對專門任務(wù)進(jìn)行指令微調(diào)的人類數(shù)據(jù);2)有關(guān)任務(wù)完成度的人類偏好數(shù)據(jù)。
這類微調(diào)數(shù)據(jù)集成本高昂且被嚴(yán)格保護(hù),據(jù)我所知,唯一的公開的應(yīng)該只有Lambert在HuggingFace團(tuán)隊時發(fā)布的No Robots。
倉庫地址:https://huggingface.co/datasets/HuggingFaceH4/no_robots
人類偏好數(shù)據(jù)很大程度上與特定模型的改進(jìn)有關(guān)。但即使在數(shù)據(jù)可以開放的情況下,也不能確定可以將一個模型的偏好遷移至另一個模型。
Lambert在HuggingFace時曾和團(tuán)隊做過類似的嘗試,但在小型付費(fèi)數(shù)據(jù)合同上失敗了。
現(xiàn)在,唯一用到人類數(shù)據(jù)的方面就是偏好數(shù)據(jù)。從Llama2披露的數(shù)據(jù)和其他傳聞來看,Meta可能在偏好數(shù)據(jù)上花費(fèi)了10M-20M美元,甚至更多。這還僅限于最終發(fā)布的模型,不包括更廣泛的實驗和評估。
Nemotron則使用大量合成數(shù)據(jù)來替代人類數(shù)據(jù),但相對而言,這個模型的微調(diào)并不那么出色。
對開放社區(qū)而言,有一個迫在眉睫的挑戰(zhàn),但同時也是機(jī)遇:弄清這類數(shù)據(jù)中的人為干預(yù)的程度,能否用LLM-as-a-Judge或獎勵模型等方法代替。
擴(kuò)展RLHFLlama3的對齊負(fù)責(zé)人Thomas Scialom在播客節(jié)目Latent Space上曾說道:
他還表示,自己會將「100%的對齊數(shù)據(jù)預(yù)算用于RL階段所需的對齊數(shù)據(jù),而不是在指令上花費(fèi)更多時間?!?/p>
開源的對齊工作中大多專注于擴(kuò)展指令微調(diào)(IFT,或稱為 SFT)。IFT容易操作、適用于多種任務(wù),而且方便與合成數(shù)據(jù)共同使用。
但很明顯,產(chǎn)業(yè)界僅將IFT作為擴(kuò)展RLHF的起點。SFT數(shù)據(jù)主要關(guān)注以前模型未能覆蓋的特定領(lǐng)域,然后在此基礎(chǔ)上擴(kuò)展RLHF。
RLHF是一個迭代過程,模型的生成過程可以讓它繼續(xù)改進(jìn)。Llama2和 Nemotron論文中詳細(xì)介紹了5輪訓(xùn)練,但我們不知道這個數(shù)字是否有上限。
Llama3.1進(jìn)行了6輪偏好數(shù)據(jù)的訓(xùn)練,Llama2是5輪,Nemotron是4輪,之前還有多輪指令微調(diào)。
對于人類偏好數(shù)據(jù)而言,進(jìn)行多輪迭代可能主要出于可行性方面的考量:
1. 數(shù)據(jù)從注釋公司分批傳送到實驗室
2. 進(jìn)行多輪小規(guī)模的訓(xùn)練可以降低最終產(chǎn)品交付的風(fēng)險。與其等待所有數(shù)據(jù)到位后才開始訓(xùn)練,不如讓模型逐漸步入正軌
這類現(xiàn)實因素看起來無關(guān)緊要,但往往會觸發(fā)某種行業(yè)規(guī)范。
下面這張圖片來自Llama2論文,記錄了5輪拒絕采樣和PPO相關(guān)的數(shù)據(jù)。
Nemotron還進(jìn)行了2輪SFT微調(diào)和4輪對齊。其中,RPO是用DPO優(yōu)化器加權(quán)的獎勵模型。
類似的迭代RLHF方法可以追溯到Anthropic提出的「憲法人工智能」,但開源社區(qū)似乎沒有大規(guī)模復(fù)現(xiàn)這個結(jié)果。
目前,學(xué)術(shù)界正在關(guān)注「在線DPO訓(xùn)練」,這在方向上是相似的,但對各輪之間數(shù)據(jù)沒有那么關(guān)注。這種方法目前仍需要大量手動操作,但一旦實現(xiàn)流程自動化,在線DPO將成為未來。
事實上,各個團(tuán)隊對后訓(xùn)練階段的算法選擇不應(yīng)該如此一成不變。DPO和PPO各有優(yōu)劣,前者更容易擴(kuò)展,但PPO啟發(fā)的方法(如在線RL)具有更高的性能上限。
目前這些方案主要出于簡潔性考量,因為這些團(tuán)隊仍然相對較新并且正在構(gòu)建模塊化系統(tǒng),Llama3后訓(xùn)練團(tuán)隊中一名成員的說法也證實了這種具備工程簡潔性的方法。
合成數(shù)據(jù)這種新的RLHF循環(huán)中,很重要的一環(huán)是在大多數(shù)任務(wù)上超越人類能力的合成指令數(shù)據(jù)。
如果可以讓模型有一點點提升、生成更好的指令,那就「重新開始」,更新檢查點。
Meta在論文中明確表示,他們「使用405B模型來提高我們較小模型的后訓(xùn)練質(zhì)量」;谷歌通過蒸餾出Gemini Flash來做到這一點,但實際上大多數(shù)前沿模型可能都包含一些類似步驟。
我聽說OpenAI正在使用50萬億token的數(shù)據(jù)訓(xùn)練下一代模型,其中大部分為合成數(shù)據(jù)。去年有一個傳言,Anthropic擁有「預(yù)訓(xùn)練規(guī)模的憲法AI語料庫」,現(xiàn)在看來這也很合理。
這些AI公司意識到合成數(shù)據(jù)的重要性應(yīng)該是在12~18個月之前,當(dāng)他們不再使用模型輸出進(jìn)行自我迭代訓(xùn)練的時候。但Meta不一樣,因為受益于其他更好的開放模型。
看看當(dāng)今的后訓(xùn)練就可以清楚知道,合成數(shù)據(jù)造成模型崩潰的問題被過分夸大了。只有在人為設(shè)置的環(huán)境中,丟棄原始數(shù)據(jù)、只留下生成的新數(shù)據(jù)時,才會發(fā)生模型崩潰。
數(shù)據(jù)質(zhì)量是王道Llama3.1報告的大部分內(nèi)容都是關(guān)于數(shù)據(jù)管理的細(xì)節(jié),其中每個相關(guān)的子領(lǐng)域都需要廣泛而具體的管理說明。
這與我所知的OpenAI John Schulman領(lǐng)導(dǎo)的后訓(xùn)練團(tuán)隊以及其他類似團(tuán)隊的工作情況相符——指定一個特定領(lǐng)域,獲得相關(guān)數(shù)據(jù),然后模型就會變得更好。
但如果沒有大量的數(shù)據(jù)過濾和管理,上述的RLHF方法都不起作用。
在Allen AI,我們在后訓(xùn)練流程中開始更加優(yōu)先考慮數(shù)據(jù),可以立即感受到模型提升速度的變化。
案例分析——Nemotron和Llama
Llama的后訓(xùn)練流程如下:
Nemotron的這張圖比較簡略:
綜合起來可以看到大多數(shù)方法的共同點。
但下面這張圖表,以及大多數(shù)行業(yè)研究論文都忽視了數(shù)據(jù)。
Llama3.1等模型到報告中有提及了很多細(xì)節(jié),比如正則化、對損失函數(shù)的調(diào)整、模型平均等等,但這些都是模型性能的邊際收益,很大程度上超出了核心微調(diào)循環(huán)的范圍。
到了一定的時間節(jié)點,這些細(xì)節(jié)都會變得微不足道。
參考資料:
https://www.interconnects.ai/p/frontier-model-post-training
以上就是關(guān)于【Post-Training有多重要?AI2研究員長文詳解前沿模型的后訓(xùn)練秘籍】的相關(guān)內(nèi)容,希望對大家有幫助!
免責(zé)聲明:本文由用戶上傳,與本網(wǎng)站立場無關(guān)。財經(jīng)信息僅供讀者參考,并不構(gòu)成投資建議。投資者據(jù)此操作,風(fēng)險自擔(dān)。 如有侵權(quán)請聯(lián)系刪除!
-
奔馳GLE作為豪華SUV市場中的佼佼者,憑借其卓越的性能、豪華的內(nèi)飾以及寬敞的空間,吸引了眾多消費(fèi)者的關(guān)注。...瀏覽全文>>
-
在2025年,安徽阜陽地區(qū)的帕薩特新能源汽車市場表現(xiàn)非?;钴S。作為一款備受關(guān)注的新能源車型,帕薩特新能源憑...瀏覽全文>>
-
近日,滁州地區(qū)的大眾汽車經(jīng)銷商傳來好消息:備受矚目的2025款T-ROC探歌正式上市,并且以極具競爭力的價格吸引...瀏覽全文>>
-
在選擇一款新能源汽車時,了解其價格和配置是非常重要的一步。安徽淮南地區(qū)的長安啟源E07作為2024款的新車型,...瀏覽全文>>
-
阜陽長安啟源A05作為長安汽車旗下的全新車型,自推出以來便憑借其獨特的設(shè)計風(fēng)格和豐富的配置吸引了眾多消費(fèi)者...瀏覽全文>>
-
阜陽長安啟源A07作為一款備受矚目的新能源車型,以其豪華配置和親民的價格在市場上引起了廣泛關(guān)注。這款車型不...瀏覽全文>>
-
安徽淮南威然2024款價格及配置詳解隨著汽車市場的不斷更新?lián)Q代,上汽大眾旗下的MPV車型——威然(Viloran)憑...瀏覽全文>>
-
QQ多米新車報價2025款,買車省錢秘籍隨著汽車市場的不斷發(fā)展,消費(fèi)者在選購車輛時不僅關(guān)注車型的性能和配置,...瀏覽全文>>
-
滁州途觀X 2024款最新價格及買車省錢秘籍隨著汽車市場的不斷發(fā)展,大眾途觀X作為一款兼具時尚與性能的中型SUV...瀏覽全文>>
-
隨著汽車市場的不斷發(fā)展,大眾蔚攬以其優(yōu)雅的設(shè)計和卓越的性能贏得了眾多消費(fèi)者的青睞。作為一款兼具實用性和...瀏覽全文>>
- Alienware 在 2025 年 CES 上展示了一些超凡脫俗的技術(shù)
- Wickes 任命首席零售和分銷官
- 分析師稱GTA 6或?qū)淞⑿袠I(yè)新標(biāo)準(zhǔn)
- 索尼和本田在拉斯維加斯推出售價 89,900 美元的 Afeela 1
- 日本 11 月游客人數(shù)創(chuàng)月度新高
- 神經(jīng)認(rèn)知測試在 3 歲兒童白血病治療期間可行
- 牛津郡小學(xué)支持圣誕毛衣日
- S?strene Grene 投資歐洲物流中心
- 有人已經(jīng)在電視上直播 BNMC 打造的 1967 年福特野馬 Restomod
- 潛在的分子療法可以逆轉(zhuǎn)小鼠的胎盤發(fā)育問題
- 奔馳GLE預(yù)約試駕,新手必看的詳細(xì)流程
- 滁州T-ROC探歌 2025新款價格,最低售價15.89萬起,趕緊行動
- 安徽淮南威然最新價格2024款,各配置車型售價全知曉
- 滁州途觀X最新價格2024款,買車省錢秘籍
- 淮南長安啟源Q05 2025新款價格,最低售價9.69萬起,入手正當(dāng)時
- 安徽淮南探影多少錢 2023款落地價,各配置車型售價一目了然
- 淮南途觀X價格大揭秘,買車前必看
- 安徽淮南長安獵手K50新款價格2025款多少錢?買車攻略一網(wǎng)打盡
- 滁州ID.4 X新款價格2025款多少錢?買車攻略一網(wǎng)打盡
- QQ多米落地價,購車前必看的費(fèi)用明細(xì)
- Nvidia DLSS 4 有望將游戲性能提高 8 倍
- 人工智能在預(yù)測自身免疫性疾病進(jìn)展方面顯示出良好的前景
- 心理物理實驗揭示皮膚水分感知是如何改變的
- 科茨沃爾德公司慶祝圣誕節(jié)圓滿成功
- 南法納姆學(xué)校被評為薩里郡表現(xiàn)最好的小學(xué)
- 約克區(qū)九所小學(xué)將削減招生人數(shù)
- 松下新款電動汽車電池為 Lucid Gravity 帶來 450 英里續(xù)航里程
- 泰國旅游呈現(xiàn)新趨勢
- 研究人員找到在細(xì)胞水平上餓死前列腺癌腫瘤的新方法
- 領(lǐng)先的人工智能聊天機(jī)器人在測試中表現(xiàn)出類似癡呆癥的認(rèn)知能力下降
- 龐大的 Project Zomboid build 42 終于可以玩了
- Steam Replay 回歸向您展示 2024 年您玩得最多的 PC 游戲
- Jollyes 推出強(qiáng)化的人才支持和招聘措施
- Karen Millen 與 Simon Harrison 共同推出全新高級珠寶系列
- 奇瑞風(fēng)云A8L電動轎車刷新續(xù)航里程世界紀(jì)錄
- 虛擬藝術(shù)家將別克 Cascada 帶回 2026 款車型
- OnePlus 宣布推出新計劃解決綠線問題
- OnePlus Watch 3 將擁有更大的電池和更薄的機(jī)身
- 研究人員發(fā)現(xiàn)可變剪接與自身免疫性疾病遺傳之間的細(xì)胞類型特異性聯(lián)系
- 科學(xué)家確定腦細(xì)胞類型是排尿的主要控制者