微軟Phi-4封神,14B小模型數(shù)學擊敗GPT-4o,合成數(shù)據(jù)占比40%,36頁技術(shù)報告出爐
相信很多大家對微軟Phi-4封神,14B小模型數(shù)學擊敗GPT-4o,合成數(shù)據(jù)占比40%,36頁技術(shù)報告出爐還不知道吧,今天菲菲就帶你們一起去了解一下~.~!
微軟下一代14B小模型Phi-4出世了!僅用了40%合成數(shù)據(jù),在數(shù)學性能上擊敗了GPT-4o,最新36頁技術(shù)報告出爐。
140億參數(shù),40%合成數(shù)據(jù),年度SLM之王誕生!
最近,微軟下一代小模型Phi-4正式亮相。在GPQA和MATH基準上,其數(shù)學性能直接碾壓GPT-4o、Gemini Pro1.5。
而且,Phi-4粉碎了其他小模型,與Llama-3.3-70B-Instruct的性能不相上下。
甚至,在2024ACM數(shù)學競賽問題上,Phi-4取得了91.8%準確率。
Phi系列前負責人Sebastien Bubeck看到這個結(jié)果后,感到非常驚訝。
下面這個例子,展示了Phi-4在數(shù)學推理方面的能力,不僅神速還準確。
深挖背后,Phi-4繼承了Phi系列前幾代的傳統(tǒng),同樣是在教科書級別的「合成數(shù)據(jù)」上完成了訓練。
合成數(shù)據(jù)比例高達40%
除了合成數(shù)據(jù),它共實現(xiàn)了三大核心技術(shù)突破,包括精選的原生數(shù)據(jù),以及領(lǐng)先的后訓練技術(shù),如DPO中的關(guān)鍵token搜索(Pivotal Tokens Search)。
Phi-4的成功,從側(cè)面推翻了Ilya、Alexander Wang多位大佬宣稱的「數(shù)據(jù)墻」的觀點。
目前,新模型在微軟Azure AI Foundry上提供,下周將在HuggingFace上線。
數(shù)學擊敗GPT-4o,36頁技術(shù)報告出爐
Phi-4與大多數(shù)語言模型不同,那些模型的預訓練主要基于諸如網(wǎng)絡(luò)內(nèi)容或代碼這類自然產(chǎn)生的數(shù)據(jù)來源,而Phi-4則有策略地在整個訓練過程中融入了合成數(shù)據(jù)。
雖然Phi系列先前的模型表現(xiàn)主要來源于蒸餾了教師模型(特別是GPT-4)的能力,但Phi-4在STEM領(lǐng)域的問答能力上顯著超越了其教師模型,證明了數(shù)據(jù)生成和后訓練技術(shù)比模型蒸餾更能帶來能力上的提升。
論文地址:https://arxiv.org/abs/2412.08905
Phi-4主要是由三部分核心技術(shù)構(gòu)成:
- 預訓練和中訓練的合成數(shù)據(jù)
- 高質(zhì)量有機數(shù)據(jù)的篩選和過濾
- 后訓練
得益于這些創(chuàng)新,Phi-4在推理相關(guān)任務(wù)上的性能與更大的模型相當,甚至超越它們。
例如,在許多廣泛使用的推理相關(guān)基準測試中,其性能達到或超過了Llama-3.1-405B。
通過表1可以發(fā)現(xiàn),Phi-4在GPQA(研究生水平的STEM問答)和MATH(數(shù)學競賽)基準測試中均顯著超過了其教師模型GPT-4o。
表1Phi-4在經(jīng)典基準測試上的表現(xiàn)
為了驗證Phi-4是否存在過擬合和數(shù)據(jù)污染問題,研究者在2024年11月的AMC-10和AMC-12數(shù)學競賽上測試了該模型。
這兩場競賽中的數(shù)據(jù)均未曾在訓練時被收集過,所以其競賽表現(xiàn)可以有效地作為檢驗模型泛化性能的指標。
從下圖中可以看出,Phi-4雖然僅僅只有14B,但是其平均得分甚至大幅超過了其教師模型GPT-4o。
Phi-4在數(shù)學競賽問題上優(yōu)于許多更大的模型,包括Gemini Pro1.5
合成數(shù)據(jù)的優(yōu)勢
合成數(shù)據(jù)構(gòu)成了Phi-4訓練數(shù)據(jù)的大部分,其通過多種技術(shù)生成,包括多智能體提示(multi-agent prompting)、自修訂工作流(self-revision workflows)和指令反轉(zhuǎn)(instruction reversal)。
這些技術(shù)方法能夠構(gòu)建促使模型具備更強推理和問題解決能力的數(shù)據(jù)集,解決了傳統(tǒng)無監(jiān)督數(shù)據(jù)集中的一些弱點。
合成數(shù)據(jù)不是有機數(shù)據(jù)的廉價替代品,而是相對于有機數(shù)據(jù)具有幾個直接優(yōu)勢。
數(shù)據(jù)結(jié)構(gòu)化和支持漸進式學習
在有機數(shù)據(jù)集中,token之間的關(guān)系往往復雜且間接??赡苄枰S多推理步驟才能將當前token與下一個token聯(lián)系起來,這使得模型難以從預測下一個token的目標任務(wù)中有效學習。
相比之下,由于從語言模型生成的每個token都是根據(jù)前面的token預測而來的,而這樣結(jié)構(gòu)化的token也可以讓模型的訓練變得更加高效。
將訓練與推理上下文對齊
合成數(shù)據(jù)可以規(guī)避掉模型從有機數(shù)據(jù)集中學習到一些并不適合后續(xù)訓練的數(shù)據(jù)特性。
比如說,網(wǎng)絡(luò)論壇往往有著自身特定的交流風格、用語習慣等,而人們與大模型對話時,其語言風格、交互邏輯又是另外一種情況。
此時如果直接采用網(wǎng)絡(luò)論壇的數(shù)據(jù)進行訓練,假設(shè)有一些內(nèi)容的風格比較獨特,模型就會認為在對話中該內(nèi)容出現(xiàn)的幾率會很低。因此在后續(xù)對話中模型進行推理時,便不能將對話內(nèi)容精準匹配到對應的論壇內(nèi)容上去。
而合成數(shù)據(jù)會將網(wǎng)絡(luò)論壇中的內(nèi)容改寫成與LLM交互時的語言風格,使得其在LLM聊天推理的上下文中更容易匹配。
合成數(shù)據(jù)在Phi-4的后訓練中也發(fā)揮著關(guān)鍵作用,其中采用了諸如拒絕采樣和直接偏好優(yōu)化(DPO)的新方法來優(yōu)化模型的輸出。
合成數(shù)據(jù)的來源
預訓練和訓練中數(shù)據(jù)為此,研究團隊創(chuàng)建了50種廣泛的合成數(shù)據(jù)集類型,每個數(shù)據(jù)集都依賴于不同的種子和不同的多階段提示程序,涵蓋了各種主題、技能和交互性質(zhì),累計約4000億個無權(quán)重的token。
通過以下方法,他們確保了合成數(shù)據(jù)并不被一些低質(zhì)量的網(wǎng)絡(luò)數(shù)據(jù)所污染,從而成為高質(zhì)量訓練數(shù)據(jù)集。
種子數(shù)據(jù)集的構(gòu)建
1. 網(wǎng)頁和代碼種子:從網(wǎng)頁、書籍和代碼庫中提取摘錄和代碼片段,重點關(guān)注具有高復雜性、推理深度和教育價值的內(nèi)容。為確保質(zhì)量,團隊采用兩階段篩選流程:首先,識別需要關(guān)注的重點高價值頁面,其次,將選定的頁面分割成段落,并對每個段落的客觀和推理內(nèi)容進行評分。
2. 問題數(shù)據(jù)集:從網(wǎng)站、論壇和問答平臺上收集了大量問題。然后使用投票技術(shù)對這些問題進行篩選以平衡難度。具體來說,團隊為每個問題生成多個獨立的答案,并應用多數(shù)投票來評估答案的一致性。然后丟棄所有答案都一致(表明問題太簡單)或答案完全不一致(表明問題太難或模糊)的問題。
3. 從多種來源創(chuàng)建問答對:利用語言模型從書籍、科學論文和代碼等有機來源中提取問答對。這種方法不僅僅依賴于在文本中識別顯式的問答對。相反,它涉及一個旨在檢測文本中的推理鏈或邏輯進程的pipeline。語言模型識別推理或問題解決過程中的關(guān)鍵步驟,并將它們重新表述為問題和相應的答案。實驗表明,如果操作得當,在生成內(nèi)容上進行訓練(在學術(shù)和內(nèi)部基準上的改進方面)可以比在原始內(nèi)容上進行訓練更加有效。
重寫和增強:種子通過多步驟提示工作流程轉(zhuǎn)化為合成數(shù)據(jù)。這包括將給定段落中的大部分有用內(nèi)容重寫為練習、討論或結(jié)構(gòu)化推理任務(wù)。
自我修訂:初始響應會通過一個反饋回路進行迭代式優(yōu)化,在該回路中,模型會依據(jù)側(cè)重于推理和事實準確性的評判標準進行自我評判,并隨后改進自身的輸出內(nèi)容。
指令反轉(zhuǎn)用于代碼和其他任務(wù):為了提高模型從指令生成輸出的能力,團隊采用了指令反轉(zhuǎn)技術(shù)。例如,他們從代碼數(shù)據(jù)語料庫中選取現(xiàn)有的代碼片段,并利用它們生成包含問題描述或任務(wù)提示的相應指令。只有原始代碼和根據(jù)生成指令而重新生成的代碼之間相似度高的指令才會被保留,以確保指令與輸出內(nèi)容相匹配。
后訓練數(shù)據(jù)在后訓練階段中,數(shù)據(jù)集主要由兩部分組成:
- 監(jiān)督微調(diào)(SFT)數(shù)據(jù)集:使用從公開數(shù)據(jù)集和合成數(shù)據(jù)中精心篩選的用戶提示,再生成多個模型響應,并使用基于LLM的評估過程選擇最佳響應。
- 直接偏好優(yōu)化(DPO):基于拒絕采樣和LLM評估生成DPO對,其中部分基于創(chuàng)建關(guān)鍵詞token對的方法。
研究者利用生成的SFT數(shù)據(jù)和DPO數(shù)據(jù)對,來緩解模型的幻覺問題。
如下圖6結(jié)果顯示,這種方法大大減少了SimpleQA中的幻覺現(xiàn)象。
預訓練
Phi-4同樣基于Transformer架構(gòu)構(gòu)建,具有14B參數(shù)和默認的上下文長度4096。在訓練中期,擴展到16K上下文。
由于預訓練模型不擅長遵循指令,因此使用需要答案采用特定格式(例如簡單評估)的零樣本評估不是很有參考價值。
因此,團隊采用了內(nèi)部實現(xiàn)的基準測試進行預訓練評估,該基準測試對各種任務(wù)使用混合的對數(shù)似然與少量樣本提示。
具體來說,他們對 MMLU(5-shot)、MMLU-pro和ARCC(1-shot)使用對數(shù)似然評估,而對TriviaQA(TQA)、MBPP、MATH和GSM8k分別使用1、3、4和8個少樣本的示例,以幫助模型遵循答案格式。
表2phi-4較phi-3-medium在預訓練后基準測試評估的提升值
在長上下文基準HELMET測試中,Phi-4在召回率、最大上下文等指標上,幾乎取得了領(lǐng)先的優(yōu)勢。
后訓練
如前所述,在后訓練階段過程中,最重要的一個技術(shù)是關(guān)鍵token搜索(PTS),那么這究竟是什么呢?
關(guān)鍵token搜索(Pivotal Token Search)當模型對一個提示逐token生成回應時,每個token都對應著模型回答的一個前綴。
對于每個這樣的前綴,可以考慮兩個關(guān)鍵token:一是在改前綴下,模型回答正確的條件概率;另一個是該token帶來的概率增量,即生成這個token前后正確率的差值。
其實,在AI模型生成答案時,往往只有少數(shù)幾個關(guān)鍵token決定了整個答案的正確與否。
在研究中,團隊觀察到一個有趣的現(xiàn)象是:當模型在解答數(shù)學問題時,僅僅生成了negative關(guān)鍵token,就讓原本可能失敗的解答轉(zhuǎn)向了成功。
而隨后,它生成了(a token又可能讓正確率急劇下降。
現(xiàn)在,將這個方法與DPO訓練方法結(jié)合思考后,發(fā)現(xiàn)了幾個值得注意的問題。
如上圖3所示,實驗中有許多token概率遠低于關(guān)鍵token「negative」的0.31,這些token會在訓練中產(chǎn)生噪聲,稀釋來自關(guān)鍵token的有效信號。
更糟糕的是,像(a這樣導致解題不穩(wěn)定的token,反而會因其低概率(0.12)收到強烈的正向?qū)W習信號。
此外,直覺表明,當兩個文本內(nèi)容出現(xiàn)實質(zhì)性偏差時,比較它們各自下一個token概率(DPO的做法)可能失去意義。
總之,更有意義的信號,應該來自于文本開始偏離時的首批token。
為了緩解之前的問題,微軟團隊提出了一種創(chuàng)新的方法——關(guān)鍵token搜索(PTS)。
這個方法專門針對單個關(guān)鍵token生成偏好數(shù)據(jù),在使用DPO優(yōu)化效果精準作用于特定token。
PTS的核心任務(wù)是,在完整的token序列(T_full = t1, t2, ...)中找出那些關(guān)鍵token。
具體來說,它需要找出那些能顯著影響成功率的token的位置,即p(success | t1, ..., ti)。
PTS會將發(fā)現(xiàn)的關(guān)鍵token轉(zhuǎn)化為訓練數(shù)據(jù),先將Q + t1, ..., ti-1作為查詢基準,再選擇能提高/降低成功率的單個token分別作為「接受」和「拒絕」的樣本。
雖然PTS使用的二分查找算法不能保證找出所有的關(guān)鍵token,但它具有兩個重要特性。
- 找到的一定是關(guān)鍵token
- 如果成功概率再解題過程中接近單調(diào)變化,則能找出所有關(guān)鍵token
下圖5所示,是使用PTS生成的偏好數(shù)據(jù)的示例。
在數(shù)學問答示例中,研究發(fā)現(xiàn)了一個有趣的現(xiàn)象,關(guān)鍵token往往不是明顯的錯誤,而是引導模型走向不同解題路徑的選擇點。
比如,方法A——分別乘以分母;方法B——直接交叉相乘。
雖然這兩種方法在數(shù)學上都是正確的,但對于模型來說,往往后者更加穩(wěn)健。
通過PTS生成的訓練數(shù)據(jù),可以幫助Phi-4在這些關(guān)鍵決策點上做出更優(yōu)的選擇。
以小博大,Phi-4贏麻了
基于以上技術(shù)的創(chuàng)新,Phi-4才能在各項基準測試中展現(xiàn)出驚艷的一面。
上表1中,相較于同級別的Qwen-2.5-14B-Instruct模型,在12個基準測試中,Phi-4在九項測試中贏得優(yōu)勢。
而且,研究人員認為Phi-4在SimpleQA上的表現(xiàn)實際上比Qwen更好。
事實上,他們的基礎(chǔ)模型在SimpleQA上獲得了比Qwen-2.5-14B-Instruct更高的基準分數(shù),只不過團隊在后訓練中有意修改了模型的行為,以優(yōu)化用戶體驗而不是追求更高的基準分數(shù)。
此外,Phi-4在STEM問答任務(wù)上展現(xiàn)出卓越的實力。
比如,在GPQA(研究生水平的STEM問題)和MATH(數(shù)學競賽)上,它甚至超過了其教師模型GPT-4。
在HumanEval和HumanEval+衡量的編碼能力方面,它也比任何其他開源模型(包括更大的Llama模型)得分更高。
而Phi-4表現(xiàn)欠佳的領(lǐng)域,分別在SimpleQA、DROP和IFEval上。
至于前兩個,研究人員認為simple-evals報告的數(shù)字過于簡化,并不能準確反映模型在基準問題上的表現(xiàn)。
然而,IFEval揭示了Phi-4的一個真實的弱點——在嚴格遵循指令方面存在困難。
在未來下一步研究中,研究人員相信通過有針對性的合成數(shù)據(jù),讓Phi系列模型的指令跟隨性能得到顯著改善。
接下來,還真有點期待,下一個Phi系列小模型的發(fā)布了。
參考資料:
https://x.com/iScienceLuvr/status/1867377384145727635
https://x.com/peteratmsr/status/1867375567739482217
https://x.com/VentureBeat/status/1867376462589739098
以上就是關(guān)于【微軟Phi-4封神,14B小模型數(shù)學擊敗GPT-4o,合成數(shù)據(jù)占比40%,36頁技術(shù)報告出爐】的相關(guān)內(nèi)容,希望對大家有幫助!
免責聲明:本文由用戶上傳,與本網(wǎng)站立場無關(guān)。財經(jīng)信息僅供讀者參考,并不構(gòu)成投資建議。投資者據(jù)此操作,風險自擔。 如有侵權(quán)請聯(lián)系刪除!
-
奔馳GLE作為豪華SUV市場中的佼佼者,憑借其卓越的性能、豪華的內(nèi)飾以及寬敞的空間,吸引了眾多消費者的關(guān)注。...瀏覽全文>>
-
在2025年,安徽阜陽地區(qū)的帕薩特新能源汽車市場表現(xiàn)非常活躍。作為一款備受關(guān)注的新能源車型,帕薩特新能源憑...瀏覽全文>>
-
近日,滁州地區(qū)的大眾汽車經(jīng)銷商傳來好消息:備受矚目的2025款T-ROC探歌正式上市,并且以極具競爭力的價格吸引...瀏覽全文>>
-
在選擇一款新能源汽車時,了解其價格和配置是非常重要的一步。安徽淮南地區(qū)的長安啟源E07作為2024款的新車型,...瀏覽全文>>
-
阜陽長安啟源A05作為長安汽車旗下的全新車型,自推出以來便憑借其獨特的設(shè)計風格和豐富的配置吸引了眾多消費者...瀏覽全文>>
-
阜陽長安啟源A07作為一款備受矚目的新能源車型,以其豪華配置和親民的價格在市場上引起了廣泛關(guān)注。這款車型不...瀏覽全文>>
-
安徽淮南威然2024款價格及配置詳解隨著汽車市場的不斷更新?lián)Q代,上汽大眾旗下的MPV車型——威然(Viloran)憑...瀏覽全文>>
-
QQ多米新車報價2025款,買車省錢秘籍隨著汽車市場的不斷發(fā)展,消費者在選購車輛時不僅關(guān)注車型的性能和配置,...瀏覽全文>>
-
滁州途觀X 2024款最新價格及買車省錢秘籍隨著汽車市場的不斷發(fā)展,大眾途觀X作為一款兼具時尚與性能的中型SUV...瀏覽全文>>
-
隨著汽車市場的不斷發(fā)展,大眾蔚攬以其優(yōu)雅的設(shè)計和卓越的性能贏得了眾多消費者的青睞。作為一款兼具實用性和...瀏覽全文>>
- Nvidia DLSS 4 有望將游戲性能提高 8 倍
- 人工智能在預測自身免疫性疾病進展方面顯示出良好的前景
- 心理物理實驗揭示皮膚水分感知是如何改變的
- 科茨沃爾德公司慶祝圣誕節(jié)圓滿成功
- 南法納姆學校被評為薩里郡表現(xiàn)最好的小學
- 約克區(qū)九所小學將削減招生人數(shù)
- 松下新款電動汽車電池為 Lucid Gravity 帶來 450 英里續(xù)航里程
- 泰國旅游呈現(xiàn)新趨勢
- 研究人員找到在細胞水平上餓死前列腺癌腫瘤的新方法
- 領(lǐng)先的人工智能聊天機器人在測試中表現(xiàn)出類似癡呆癥的認知能力下降
- 龐大的 Project Zomboid build 42 終于可以玩了
- Steam Replay 回歸向您展示 2024 年您玩得最多的 PC 游戲
- Jollyes 推出強化的人才支持和招聘措施
- Karen Millen 與 Simon Harrison 共同推出全新高級珠寶系列
- 奇瑞風云A8L電動轎車刷新續(xù)航里程世界紀錄
- 虛擬藝術(shù)家將別克 Cascada 帶回 2026 款車型
- OnePlus 宣布推出新計劃解決綠線問題
- OnePlus Watch 3 將擁有更大的電池和更薄的機身
- 研究人員發(fā)現(xiàn)可變剪接與自身免疫性疾病遺傳之間的細胞類型特異性聯(lián)系
- 科學家確定腦細胞類型是排尿的主要控制者