首頁 >> 今日更新 >

力壓70B Llama 3，Gemma 2成最強開源模型，大佬質疑用榜單prompt微調引全網(wǎng)熱議

2024-07-02 11:00:09 來源：用戶：

相信很多大家對力壓70B Llama 3，Gemma 2成最強開源模型，大佬質疑用榜單prompt微調引全網(wǎng)熱議還不知道吧，今天菲菲就帶你們一起去了解一下~.~！

導讀:時隔4個月上新的Gemma2模型在LMSYS Chatbot Arena的排行上，以27B的參數(shù)擊敗了許多更大規(guī)模的模型，甚至超過了70B的Llama-3-Instruct，成為開源模型的性能第一!

谷歌出手，果然非同凡響。

Gemma2上周剛剛發(fā)布，就在LMSYS競技場上取得了亮眼的成績。

在整體評分上Gemma2拿到了開源模型最高分，而且用27B的參數(shù)「以小搏大」，超過了Llama3-70B-Instruct、Claude3Sonnet等更大量級的知名模型。

開源模型的頭把交椅真的要易主Gemma了?

對于這個成績，谷歌研究院首席科學家Jeff Dean也發(fā)文慶祝。

不僅是總體評分，在LMSYS昨天剛發(fā)布的「多輪對話」排行榜上，Gemma2的表現(xiàn)依舊強勁。

LMSYS表示，LLM的多輪對話在當今許多應用場景中非常重要。

在競技場的投票中，多輪對話的占比為14%，占到了不可忽視的比例。

因此他們推出了新的排行類別「多輪對話」，其中包括兩輪或多輪的測試，以衡量模型在更長時間內交互的能力。

在這個全新的排行榜中，Claude家族的排名顯著提升。

總分屈居亞軍的Claude3.5Sonnet，成功地與GPT-4o并列第一;Claude3Opus也從原來的第8名躍居第三。

我們本次的主角Gemma2也實現(xiàn)了2個名次的進步，進入前十行列，而且壓了Llama3-70B-Instruct一頭。

在Gemma2放出9B和27B兩個版本的同時，DeepMind研究員Clement在推特上透露，接下來還會有2B版本和大家見面!

曾經(jīng)只靠開源「一招鮮」的Meta終于迎來了強勁對手。Gemma2和Llama3的競爭想必會在未來一段時間內持續(xù)下去。

Gemma為什么這么強?

為什么27B的Gemma2能打敗70B的Llama3?谷歌究竟用了什么技術實現(xiàn)如此高的參數(shù)效率?

或許我們可以從官方發(fā)布的技術報告中找到蛛絲馬跡。

報告地址:https://developers.googleblog.com/en/fine-tuning-gemma-2-with-keras-hugging-face-update/

訓練數(shù)據(jù)方面，可想而知，并沒有具體的數(shù)據(jù)來源和組成，只有數(shù)據(jù)量。

由于Gemma既沒有多模態(tài)又不針對多語言任務，因此訓練語料只包含各種類型的文本和代碼，且主要語言為英語。

27B模型的訓練數(shù)據(jù)有13萬億token，9B模型和2.6B模型則分別為8萬億、2萬億token。

架構上，Gemma2從Gemini團隊和Gemma1沿用了很多方面，包括旋轉位置編碼（RoPE）、SentencePiece分詞器、Logit軟上限、GeGLU激活函數(shù)等等。

相比Gemma1，Gemma2采用了更深的網(wǎng)絡，且在某些部分做了更新——

局部滑動窗口和全局注意力

Gemma2交替使用局部滑動窗口和全局注意力，滑動窗口大小設置為4096token，而全局注意力層的設置為8192token。

這種方法在正確捕捉文本細節(jié)的同時，又能保持對上下文和全局的正確理解。

知識蒸餾

能夠訓練出有競爭力性能的9B和27B模型，成功的知識蒸餾過程估計是最為重要的環(huán)節(jié)。

傳統(tǒng)訓練大語言模型的方法主要是根據(jù)之前的token，預測下一個token，需要大量的數(shù)據(jù)進行訓練。

但是，人類的學習過程并不依賴走量的知識輸入。比如，一位學生由于閱讀原著的需要學習一門外語，他并不需要看遍所有的書籍，只需要以一本書為綱，通過理解后融會貫通。

而知識蒸餾法與人的學習過程更加類似。一個小模型向另一個已經(jīng)進行過預訓練的大模型學習，通過這種方式助產(chǎn)小模型對于token的預測。

站在老師模型的肩膀上，學生模型能用較少的訓練數(shù)據(jù)、更少的參數(shù)量提升性能。

用LMSYS數(shù)據(jù)微調，引AI2研究員質疑

開源模型界終于在Llama之后迎來了Gemma2這個最新的扛把子選手，就在大家忙著興奮的同時，Allen AI的研究員Nathan Lambert冷靜地在技術報告中發(fā)現(xiàn)了華點:

微調數(shù)據(jù)的來源包括LMSYS的聊天數(shù)據(jù)集!

似乎是預想到了可能的質疑，論文中特意強調只使用了prompt，把答案剔出去了。

Lambert依舊不認可這種行為。他發(fā)了一篇推特，疑惑的語氣中帶著一絲嘲諷:為了在競技場上刷分數(shù)，你們谷歌團隊挺有想象力的。

這位Nathan Lambert其實算是LLM領域比較資深的專業(yè)人士，他博士畢業(yè)于UC伯克利大學，在DeepMind和FAIR都有實習經(jīng)歷。

針對Lambert的質疑，LMSYS隨后回復了一篇意義不明的超長推特，似乎透露出了為谷歌辯護的隱晦立場。

推特全文如下:

這有些讓人摸不著頭腦，既說「用數(shù)據(jù)改進模型是受歡迎的」，又說「我們開放數(shù)據(jù)和論文是為了回應質疑」。

發(fā)帖的Lambert也同樣被搞糊涂了，他進一步闡明了自己的立場。

「感覺我們討論的不是同一件事，我的觀點依舊成立。很可能有更多的人也在這樣做，但我們并不知道?！?/p>

LMSYS最新回復的內容更加讓人內心復雜——

「對不起，雖然我貼上了你的推特，但不是在特意回復你?！?/p>

對于微調應不應該使用LMSYS數(shù)據(jù)這個問題，評論區(qū)的網(wǎng)友也吵得熱火朝天。

有些人覺得Lambert的質疑毫無道理。畢竟LMSYS公開了數(shù)據(jù)集，用來做微調有什么不可以的?而且只使用了prompt，答案是教師模型生成的。

畢竟大家都在看LMSYS的聊天機器人Arena的分數(shù)，如果大家都不用這個數(shù)據(jù)才比較出乎意料。

這個立場得到了大部分人的認同。雖然谷歌是為數(shù)不多的坦誠，敢把用了LMSYS數(shù)據(jù)這件事寫進論文，但他們絕對不是第一個使用這些數(shù)據(jù)的人。

「我打賭GPT-4o和Llama3也這么干了?！?/p>

畢竟在一段時間內，LMSYS競技場曾經(jīng)是唯一可信的基準測試。

而這也正是Lambert所擔心的——LMSYS是業(yè)界為數(shù)不多的得到大多數(shù)人認可的基準測試，如果大家再用它的數(shù)據(jù)微調甚至訓練，豈不很快又會失去公信力?

更糟糕的情況是，不是每一個模型都像Gemma2這樣會承認這件事。

不少觀點比較中肯的網(wǎng)友也點出了這一點。

「我相信這會降低Arena的信噪比。」

看來在基準測試領域，重復的歷史總在不斷上演，而那個金句也總是適用——

「當一個衡量標準成為目標時，它就不再是一個好的衡量標準了?！?/p>

參考資料:

https://x.com/JeffDean/status/1807407880766726464

https://x.com/lmsysorg/status/1807503885181006236

https://x.com/natolambert/status/1806384821826109597

https://storage.googleapis.com/deepmind-media/gemma/gemma-2-report.pdf

以上就是關于【力壓70B Llama 3，Gemma 2成最強開源模型，大佬質疑用榜單prompt微調引全網(wǎng)熱議】的相關內容，希望對大家有幫助！

標簽：力壓70B Llama 3，Gemma 2成最強開源模型，大佬質疑用榜單prompt微調引全網(wǎng)熱議

　　免責聲明：本文由用戶上傳，與本網(wǎng)站立場無關。財經(jīng)信息僅供讀者參考，并不構成投資建議。投資者據(jù)此操作，風險自擔。如有侵權請聯(lián)系刪除！

最新亚洲人成无码网站,夜夜操夜夜操夜夜爽,中文字日产幕乱五区,在线成人看片黄a免费看,亚洲自偷自拍另类11p

力壓70B Llama 3，Gemma 2成最強開源模型，大佬質疑用榜單prompt微調引全網(wǎng)熱議

力壓70B Llama 3，Gemma 2成最強開源模型，大佬質疑用榜單prompt微調引全網(wǎng)熱議