只激活3.8B參數(shù),性能比肩同款7B模型!訓(xùn)練微調(diào)都能用,來自微軟
相信很多大家對(duì)只激活3.8B參數(shù),性能比肩同款7B模型!訓(xùn)練微調(diào)都能用,來自微軟還不知道吧,今天菲菲就帶你們一起去了解一下~.~!
只需激活60%的參數(shù),就能實(shí)現(xiàn)與全激活稠密模型相當(dāng)?shù)男阅堋?/p>
微軟亞洲研究院的一項(xiàng)新研究,實(shí)現(xiàn)了模型的完全稀疏激活,讓推理成本大幅下降。
而且適用范圍廣泛,無論是從頭訓(xùn)練、繼續(xù)訓(xùn)練還是微調(diào),都能提供有效支持。
該方法名為Q-Sparse,在神經(jīng)元級(jí)別上實(shí)現(xiàn)了模型稀疏化,相比于其他方式粒度更細(xì),在相同推理開銷下,無論性能還是稀疏率都更好。
名稱之中,Q指的是量化(Quantization),意味著它除了普通模型之外,也兼容量化技術(shù),適用于各種量化方式的模型。
作者進(jìn)一步表示,如果把Q-Sparse與模型量化技術(shù)結(jié)合,還可以實(shí)現(xiàn)更大程度的降本增效。
另外在研究Q-Sparse的同時(shí),團(tuán)隊(duì)也對(duì)參數(shù)規(guī)模、稀疏率和模型性能三者之間的關(guān)系進(jìn)行了深入探尋,并發(fā)現(xiàn)了適用于模型推理優(yōu)化的“Scaling Law”。
有網(wǎng)友認(rèn)為,這項(xiàng)技術(shù)確實(shí)不錯(cuò),而且比ReLU要更好。
還有人開啟了許愿模式,表示如果(AMD的)ROCm能比英偉達(dá)更快支持這項(xiàng)技術(shù)就好了。
用Top-K函數(shù)實(shí)現(xiàn)稀疏化
Q-Sparse所做的最核心的操作,是對(duì)輸入的張量應(yīng)用Top-K稀疏化函數(shù)。
具體來說,Transformer架構(gòu)在注意力層和前饋層中都使用nn.Linear線性層(矩陣乘法)進(jìn)行投影,可以表示為Y=X·W^T。(其中X就是輸入張量,W代表其權(quán)重,Y為輸出張量)
Q-Sparse中,對(duì)于一個(gè)輸入激活張量X,首先會(huì)計(jì)算其絕對(duì)值|X|并進(jìn)行排序,找出其中絕對(duì)值最大的K個(gè)元素。
這里的K是預(yù)先設(shè)定的超參數(shù),決定了稀疏化的程度。
之后Q-Sparse會(huì)創(chuàng)建一個(gè)與X形狀相同的二進(jìn)制掩碼張量M,對(duì)于一系列|X|中絕對(duì)值最大的K個(gè)元素對(duì)應(yīng)的位置,將M中的相應(yīng)位置設(shè)置為1,其余位置設(shè)置為0。
接著,將輸入張量X與掩碼張量M進(jìn)行Hadamard積(逐元素相乘)運(yùn)算,就得到了稀疏化的張量X_sparse。
在前向傳播過程中,稀疏化后的張量X_sparse將代替原始的輸入張量X參與后續(xù)的計(jì)算(如矩陣乘法)。
由于X_sparse中大部分元素已經(jīng)被設(shè)置為零,因此可以顯著減少計(jì)算量和內(nèi)存帶寬需求。
在反向傳播過程中,Q-Sparse使用了直通估計(jì)器(Straight-Through Estimator,STE)來計(jì)算Top-K函數(shù)的梯度。
傳統(tǒng)的訓(xùn)練方式中,通常需要計(jì)算損失函數(shù)對(duì)網(wǎng)絡(luò)參數(shù)的梯度,并使用梯度下降法更新參數(shù)以最小化損失。
但當(dāng)網(wǎng)絡(luò)中存在量化、Top-K等一些不可微的操作時(shí),梯度的計(jì)算就會(huì)遇到問題,因?yàn)檫@些操作的輸出對(duì)輸入的梯度在大多數(shù)點(diǎn)上都是0,導(dǎo)致梯度無法有效傳播。
STE通過直接將梯度傳遞給稀疏化之前的張量,避免了梯度消失的問題。
一般的反向傳播中,損失函數(shù)L對(duì)x的梯度?L/?x=?L/?y??y/?x,但由于不可微分無法直接計(jì)算。
STE的解決方案是只計(jì)算損失函數(shù)對(duì)稀疏化張量y的梯度,然后將其直接復(fù)制給原始張量x,也就是直接將?L/?y作為?L/?x的估計(jì)。
△有/無STE時(shí)的梯度比較對(duì)于前饋層,Q-Sparse使用平方ReLU函數(shù)代替常規(guī)的ReLU激活函數(shù),平方運(yùn)算可以進(jìn)一步提高激活的稀疏性(⊙表示Hadamard積)。
另外,為了適配量化模型,Q-Sparse在應(yīng)用Top-K稀疏化之前,會(huì)先對(duì)輸入張量進(jìn)行量化,以確保稀疏化操作與量化表示兼容,其函數(shù)表示如下:
其中,ε是一個(gè)小常數(shù),用于避免出現(xiàn)分母為零的情況。
特別的,對(duì)于1-bit量化的權(quán)重,Q-Sparse使用以下量化函數(shù),其中α是權(quán)重張量W的平均絕對(duì)值。
60%激活參數(shù)達(dá)到相同效果
對(duì)比實(shí)驗(yàn)表明,無論是稀疏率還是模型表現(xiàn),Q-Sparse都顯著優(yōu)于此前的ReLU方法。
針對(duì)Q-Sparse的具體效果,作者對(duì)其在從頭訓(xùn)練、繼續(xù)訓(xùn)練和微調(diào)三項(xiàng)任務(wù)上的性能進(jìn)行了評(píng)估。
從頭訓(xùn)練實(shí)驗(yàn)使用的模型為L(zhǎng)lama,結(jié)果在700M和7B模型上,使用70% top-K(即40%的整體稀疏率)的Q-Sparse可以達(dá)到與密集baseline相當(dāng)?shù)挠?xùn)練損失。
繼續(xù)訓(xùn)練的目的是將稠密模型稀疏化,這里的實(shí)驗(yàn)對(duì)象是Mistral-7B。
結(jié)果,在激活參數(shù)為2.9B和3.8B的情況下,模型在ARC、MMLU等數(shù)據(jù)集中的得分均未發(fā)生明顯下降。
在微調(diào)實(shí)驗(yàn)中,對(duì)于Qwen-7B和Mistral-7B兩種模型,Q-Sparse顯示出了與繼續(xù)訓(xùn)練相似的結(jié)果,用60%左右的激活參數(shù)實(shí)現(xiàn)了與密集模型十分接近的表現(xiàn)。
這些結(jié)果意味著,在相同的性能下,與密集模型相比,稀疏激活模型在推理過程中可以顯著減少激活參數(shù),進(jìn)而降低消耗FLOPS的數(shù)量。
對(duì)于量化模型,團(tuán)隊(duì)在自研的BitNet b1.58模型上應(yīng)用了Q-Sparse,并在多個(gè)數(shù)據(jù)集上進(jìn)行了訓(xùn)練和評(píng)估。
可以看到,在700M和7B兩種規(guī)模下,使用Q-Sparse的量化模型的收斂速度和最終損失函數(shù)值與未使用Q-Sparse的量化模型(BitNet b1.58)相當(dāng)。
這說明Q-Sparse可以無縫集成到量化模型中,而不會(huì)顯著影響模型的訓(xùn)練和收斂。
據(jù)此作者認(rèn)為,將Q-Sparse與量化技術(shù)相結(jié)合,可以進(jìn)一步提高大語言模型在推理階段的效率。
發(fā)現(xiàn)推理優(yōu)化新“Scaling Law”
除了測(cè)評(píng)這些模型采取稀疏激活時(shí)的表現(xiàn),作者也對(duì)模型性能、規(guī)模和稀疏率三者之間的關(guān)系進(jìn)行了探究,并有了一些新的發(fā)現(xiàn)。
稀疏激活模型的性能縮放定律: 作者發(fā)現(xiàn),與密集模型類似,稀疏激活模型的性能也遵循一個(gè)冪律縮放關(guān)系。
具體來說,給定稀疏率S,模型在收斂時(shí)的損失函數(shù)值L(N,S)可以用以下公式近似:
其中,N是模型參數(shù)的數(shù)量;E是一個(gè)常數(shù),表示模型在無限大時(shí)的損失;A(S)是一個(gè)與稀疏率S有關(guān)的縮放因子。
這個(gè)縮放定律表明,稀疏激活模型的性能隨著模型規(guī)模的增大而提高,但提高的速度會(huì)逐漸變慢。
同時(shí)作者發(fā)現(xiàn),模型的性能也會(huì)受到稀疏率的影響。
在參數(shù)規(guī)模與性能之間關(guān)系的部分提到,A(S)是一個(gè)與稀疏率S有關(guān)的縮放因子,可以用以下公式近似:
其中B和C是常數(shù),β是一個(gè)控制指數(shù)衰減速度的參數(shù)。
這個(gè)公式表明,當(dāng)稀疏率S增大(模型變得更稀疏)時(shí),意味著更高的稀疏率會(huì)導(dǎo)致性能的下降,下降的速度是指數(shù)級(jí)的。
基于上述發(fā)現(xiàn),作者得出了一個(gè)推理最優(yōu)的稀疏率S*,能在預(yù)算(推理時(shí)的浮點(diǎn)操作數(shù))一定時(shí),實(shí)現(xiàn)模型損失函數(shù)值的最小化。
對(duì)于全精度(FP32)模型,最優(yōu)稀疏率約為45.58%;而低精度(如1.58-bit)模型的最優(yōu)稀疏率則更高,約為61.25%。
作者觀察到,隨著模型規(guī)模的增大,稀疏激活模型與密集模型之間的性能差距逐漸縮小。
這可以從縮放定律中得到解釋:當(dāng)模型規(guī)模N趨于無窮大時(shí),稀疏激活模型的損失函數(shù)值趨于L(∞,S)=E,而密集模型的損失函數(shù)值趨于L(∞,0)=E。
這意味著,在極大規(guī)模下,稀疏激活模型有可能達(dá)到與密集模型相當(dāng)?shù)男阅?,為設(shè)計(jì)和訓(xùn)練大規(guī)模稀疏激活模型提供了一個(gè)有用的參考。
論文地址:https://arxiv.org/abs/2407.10969
—完—
以上就是關(guān)于【只激活3.8B參數(shù),性能比肩同款7B模型!訓(xùn)練微調(diào)都能用,來自微軟】的相關(guān)內(nèi)容,希望對(duì)大家有幫助!
免責(zé)聲明:本文由用戶上傳,與本網(wǎng)站立場(chǎng)無關(guān)。財(cái)經(jīng)信息僅供讀者參考,并不構(gòu)成投資建議。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。 如有侵權(quán)請(qǐng)聯(lián)系刪除!
-
奔馳GLE作為豪華SUV市場(chǎng)中的佼佼者,憑借其卓越的性能、豪華的內(nèi)飾以及寬敞的空間,吸引了眾多消費(fèi)者的關(guān)注。...瀏覽全文>>
-
在2025年,安徽阜陽地區(qū)的帕薩特新能源汽車市場(chǎng)表現(xiàn)非?;钴S。作為一款備受關(guān)注的新能源車型,帕薩特新能源憑...瀏覽全文>>
-
近日,滁州地區(qū)的大眾汽車經(jīng)銷商傳來好消息:備受矚目的2025款T-ROC探歌正式上市,并且以極具競(jìng)爭(zhēng)力的價(jià)格吸引...瀏覽全文>>
-
在選擇一款新能源汽車時(shí),了解其價(jià)格和配置是非常重要的一步。安徽淮南地區(qū)的長(zhǎng)安啟源E07作為2024款的新車型,...瀏覽全文>>
-
阜陽長(zhǎng)安啟源A05作為長(zhǎng)安汽車旗下的全新車型,自推出以來便憑借其獨(dú)特的設(shè)計(jì)風(fēng)格和豐富的配置吸引了眾多消費(fèi)者...瀏覽全文>>
-
阜陽長(zhǎng)安啟源A07作為一款備受矚目的新能源車型,以其豪華配置和親民的價(jià)格在市場(chǎng)上引起了廣泛關(guān)注。這款車型不...瀏覽全文>>
-
安徽淮南威然2024款價(jià)格及配置詳解隨著汽車市場(chǎng)的不斷更新?lián)Q代,上汽大眾旗下的MPV車型——威然(Viloran)憑...瀏覽全文>>
-
QQ多米新車報(bào)價(jià)2025款,買車省錢秘籍隨著汽車市場(chǎng)的不斷發(fā)展,消費(fèi)者在選購車輛時(shí)不僅關(guān)注車型的性能和配置,...瀏覽全文>>
-
滁州途觀X 2024款最新價(jià)格及買車省錢秘籍隨著汽車市場(chǎng)的不斷發(fā)展,大眾途觀X作為一款兼具時(shí)尚與性能的中型SUV...瀏覽全文>>
-
隨著汽車市場(chǎng)的不斷發(fā)展,大眾蔚攬以其優(yōu)雅的設(shè)計(jì)和卓越的性能贏得了眾多消費(fèi)者的青睞。作為一款兼具實(shí)用性和...瀏覽全文>>
- Alienware 在 2025 年 CES 上展示了一些超凡脫俗的技術(shù)
- Wickes 任命首席零售和分銷官
- 分析師稱GTA 6或?qū)淞⑿袠I(yè)新標(biāo)準(zhǔn)
- 索尼和本田在拉斯維加斯推出售價(jià) 89,900 美元的 Afeela 1
- 日本 11 月游客人數(shù)創(chuàng)月度新高
- 神經(jīng)認(rèn)知測(cè)試在 3 歲兒童白血病治療期間可行
- 牛津郡小學(xué)支持圣誕毛衣日
- S?strene Grene 投資歐洲物流中心
- 有人已經(jīng)在電視上直播 BNMC 打造的 1967 年福特野馬 Restomod
- 潛在的分子療法可以逆轉(zhuǎn)小鼠的胎盤發(fā)育問題
- 奔馳GLE預(yù)約試駕,新手必看的詳細(xì)流程
- 滁州T-ROC探歌 2025新款價(jià)格,最低售價(jià)15.89萬起,趕緊行動(dòng)
- 安徽淮南威然最新價(jià)格2024款,各配置車型售價(jià)全知曉
- 滁州途觀X最新價(jià)格2024款,買車省錢秘籍
- 淮南長(zhǎng)安啟源Q05 2025新款價(jià)格,最低售價(jià)9.69萬起,入手正當(dāng)時(shí)
- 安徽淮南探影多少錢 2023款落地價(jià),各配置車型售價(jià)一目了然
- 淮南途觀X價(jià)格大揭秘,買車前必看
- 安徽淮南長(zhǎng)安獵手K50新款價(jià)格2025款多少錢?買車攻略一網(wǎng)打盡
- 滁州ID.4 X新款價(jià)格2025款多少錢?買車攻略一網(wǎng)打盡
- QQ多米落地價(jià),購車前必看的費(fèi)用明細(xì)
- Nvidia DLSS 4 有望將游戲性能提高 8 倍
- 人工智能在預(yù)測(cè)自身免疫性疾病進(jìn)展方面顯示出良好的前景
- 心理物理實(shí)驗(yàn)揭示皮膚水分感知是如何改變的
- 科茨沃爾德公司慶祝圣誕節(jié)圓滿成功
- 南法納姆學(xué)校被評(píng)為薩里郡表現(xiàn)最好的小學(xué)
- 約克區(qū)九所小學(xué)將削減招生人數(shù)
- 松下新款電動(dòng)汽車電池為 Lucid Gravity 帶來 450 英里續(xù)航里程
- 泰國旅游呈現(xiàn)新趨勢(shì)
- 研究人員找到在細(xì)胞水平上餓死前列腺癌腫瘤的新方法
- 領(lǐng)先的人工智能聊天機(jī)器人在測(cè)試中表現(xiàn)出類似癡呆癥的認(rèn)知能力下降
- 龐大的 Project Zomboid build 42 終于可以玩了
- Steam Replay 回歸向您展示 2024 年您玩得最多的 PC 游戲
- Jollyes 推出強(qiáng)化的人才支持和招聘措施
- Karen Millen 與 Simon Harrison 共同推出全新高級(jí)珠寶系列
- 奇瑞風(fēng)云A8L電動(dòng)轎車刷新續(xù)航里程世界紀(jì)錄
- 虛擬藝術(shù)家將別克 Cascada 帶回 2026 款車型
- OnePlus 宣布推出新計(jì)劃解決綠線問題
- OnePlus Watch 3 將擁有更大的電池和更薄的機(jī)身
- 研究人員發(fā)現(xiàn)可變剪接與自身免疫性疾病遺傳之間的細(xì)胞類型特異性聯(lián)系
- 科學(xué)家確定腦細(xì)胞類型是排尿的主要控制者