現(xiàn)在的大模型榜單，真就沒一個可信的。

2024-09-10 09:00:58 來源：用戶：

相信很多大家對現(xiàn)在的大模型榜單，真就沒一個可信的。還不知道吧，今天菲菲就帶你們一起去了解一下~.~！

現(xiàn)在的大模型榜單上，真的都是水分。

全是作弊的考生，真的。

上周，AI圈有個很炸裂的大模型發(fā)布，在全網(wǎng)引起了山呼海嘯，一眾從業(yè)者和媒體尊稱它為開源新王。

就是Reflection70B。

在每項基準(zhǔn)測試上都超過了 GPT-4o，還只用70B的參數(shù)，就擊敗了405B的Llama3.1，模型中還有一個叫「Reflection-Tuning」的技術(shù)，能讓模型能夠在最終回復(fù)之前，先識別自己有沒有錯誤，如果有，糾正以后再回答。

其實這個東西當(dāng)時我就很存疑，因為在我的理解里，這玩意，就是個CoT，就是個純Prompt，一個Prompt把70B模型直接帶的螺旋升天?

你這玩意，真要是能做到，奧特曼就真的直接原地給你磕頭了。。。

最關(guān)鍵的是，還有一個很離譜的點，這個模型就兩個人做，而且，從一拍即合、到找數(shù)據(jù)集、到模型微調(diào)完成并正式發(fā)布，一共就花了3周。

這效率，這速度，直接卷的螺旋升天，國內(nèi)大廠速度沒卷到這個地步...

于是我就觀望了幾天。

直到昨天，發(fā)現(xiàn)這模型底都快被人扒掉了。

模型結(jié)果造假，提供給開發(fā)者的API，還是造假。

先是跑分評測上面，這是他們老板Matt自己發(fā)出來的跑分結(jié)果，勇奪第一。

看這個結(jié)果，你就說屌不屌吧，拳打Claude3.5，腳踢GPT-4o，還把Gemini1.5Pro和Llama3.1405B給摁在地上摩擦。

你很難想象這只是一個兩個人花三周訓(xùn)的70B的模型能干出來的事。

直到7號，Artificial Analysis用他們自己的標(biāo)準(zhǔn)評測集跑了一通，發(fā)現(xiàn)這事不對啊，你這么多項評測集都登頂了，你應(yīng)該很牛逼才對啊，這得分什么情況???

他們是這么說的:

“哥們，我們測完了咋感覺你比Llama3.170B更拉了呢?老實說，你是不是在騙兄弟們?！?/p>

Matt看到了以后，開始說臥槽不對勁啊，我們內(nèi)部是好的啊，怎么你們測試結(jié)果這么爛?

花了好半天，Matt終于說，哦是Hugging Face 權(quán)重出現(xiàn)了問題，我也不知道咋回事，你們等一等。

說完還不忘凡爾賽一下，說:

翻譯一下就是:我們是在太太太太火啦，你們再等等啊，乖。

直到今天凌晨，最騷的事情來了，Matt說，我們終于解決了問題，開放了新的API。

他們提供了一個私有接口，說這個才是Reflection70B完全體。

大家一測，臥槽，果然牛逼，牛逼炸了。

真的好像比GPT4o還有那些大廠的模型強哎。

就差點直接給Reflection70B開香檳了。

2個人，3周時間，創(chuàng)了AI行業(yè)的奇跡。

但是大家香檳剛開一半，就被生生的摁回去了。

大家發(fā)現(xiàn)，這個所謂的“Reflection70B”的API，怎么跟Claude3.5回復(fù)的東西，一模一樣。。。

于是有人，又做了一個驗證測試，他把所有API的參數(shù)全部設(shè)為10個Token、0溫度、top_k1，然后讓大模型，重復(fù)entsprechend這個詞20次，因為大模型對token的計算都不太一樣，所以其實10個token限制輸出的內(nèi)容也不太一樣，你既然說你是基于Llama3.1微調(diào)的，那你肯定得跟Llama3.1輸出內(nèi)容一樣對吧。

但是，結(jié)果直接讓人大跌眼鏡。

好兄弟，你怎么，跟Claude的長度一樣，你到底是Llama3.1生出的Reflection70B，還是披著狗皮的Claude啊???

更狗的是，他們居然，還把Claude設(shè)成了屏蔽詞，在用戶的對話中，一旦你發(fā)Claude，就直接剔除。

騷啊，實在是太騷了。。。

這下，所有AI行業(yè)的人，都知道，Reflection70B就是一場徹頭徹尾的鬧劇。

這個鬧劇背后，我覺得反應(yīng)出了現(xiàn)在整個AI領(lǐng)域，一個非常詭異的現(xiàn)象。

刷榜。

回到整個事情的起點，就是模型能力的強度，和榜單。

正是因為Reflection70B在評測集上屠榜了，秒殺Claude3.5和GPT4o，才讓大家如此興奮。

但是結(jié)果大家發(fā)現(xiàn)，臥槽你怎么就做那些特定評測集的題目那么牛逼?換個別的題就直接變廢物了?不是細(xì)狗你行不行啊?

直接對著答案抄，還不行，那不扯淡嗎。

大模型目前的評測體系，從來就不復(fù)雜，就是考試，純純的考試。

評測數(shù)據(jù)集相當(dāng)于試卷，模型就是正在考試的學(xué)生，最后交卷，看誰的分高。

聽起來是不是很科學(xué)?理論上是的，但是大模型評測領(lǐng)域有一個非常嚴(yán)重的BUG，就是評測集，就是考試試卷，是公開的，所有人在考試之前，都可以看到考卷。

為什么評測機構(gòu)要公開評測集?不公開不就行了?

答案是不行。

高考和學(xué)校的考試，是權(quán)威的考試，我不差你一個，你愛考不考，我就是天，我就是規(guī)則，所以，他們當(dāng)然不會公開試卷，一切以公平說話。

但是大模型領(lǐng)域，太新了，這些評測榜單，比如SuperCLUE、C-Eval、HuggingFace，話語權(quán)沒那么大，供需關(guān)系倒過來了，如果機構(gòu)在評測時用什么問題以及對應(yīng)什么答案是什么一直不公開，如果機構(gòu)的評測邏輯與工具、評分方法與過程是封閉的“黑盒子”，那一定會被招來無數(shù)質(zhì)疑，先被干躺的是這些評測機構(gòu)你信不信。

兩害相權(quán)取其輕，所以就變成了現(xiàn)在的情況了。

人們總是單純的，總是喜歡量化的，也總是喜歡用一些固定的標(biāo)準(zhǔn)，來恒定一個東西的好與差。

所以在這一年半的白模大戰(zhàn)中，我們經(jīng)常能聽到各種奇奇怪怪的第一，每個模型，都說自己超越GPT4o了，把它按在腳下摩擦。

6月27日:“ 訊飛星火V4.0不僅在8個國際主流測試集中排名第一，領(lǐng)先國內(nèi)大模型，并在文本生成、語言理解、知識問答、邏輯推理、數(shù)學(xué)能力等方面實現(xiàn)了對GPT-4Turbo的整體超越?！?/em>

5月21日:"在 LMSYS最新排名中，零一萬物的最新千億參數(shù)模型 Yi-Large 總榜排名世界模型第7，中國大模型中第一，已經(jīng)超過 Llama-3-70B、Claude3Sonnet;其中文分榜更是與 GPT4o 并列世界第一。"

3月26日:"沙利文發(fā)布了《2024年中國大模型能力評測》，評測顯示，百度文心一言穩(wěn)居國產(chǎn)大模型首位，拿下數(shù)理科學(xué)、語言能力、道德責(zé)任、行業(yè)能力及綜合能力等五大評測維度的四項第一"

我不想說什么模型好什么模型不好，這種刷榜到底有沒有意義，我只想說，使用者一定會用腳投票的。

況且，有的排行榜，那是真的不能看，比如前段時間看到的一個權(quán)威機構(gòu)的文生視頻排行榜，用量化指標(biāo)來恒量視頻生成質(zhì)量。

別的我不說了，我就說你把智譜清影排在可靈上面，你自己去問問智譜的人，他們敢接這個第二嗎?智譜是一家很實誠的公司，所以他們品牌市場也沒拿這玩意去做宣傳，你要是一些別的公司，又得PR起飛了。

這個榜單創(chuàng)作者們看到也只會笑笑，大家不傻，真的。

在經(jīng)濟學(xué)中，有一個著名的理論，叫做古德哈特定律。

原意是:一項社會指標(biāo)或經(jīng)濟指標(biāo)，一旦成為一個用以指引宏觀政策制定的既定目標(biāo)，那么該指標(biāo)就會喪失其原本具有的信息價值。因為政策制定者會犧牲其他方面來強化這個指標(biāo)，從而使這個指標(biāo)不再具有指示整體情況的作用。

用最簡單的話來說，就是:

"當(dāng)一個指標(biāo)成為目標(biāo)時，它就不再是一個好的指標(biāo)。"

萬物皆如此。

所以這里，我想說一個暴論:現(xiàn)在的大模型榜單，還有各種亂七八糟的AI產(chǎn)品榜單，參考看看可以，但是不要奉為圣經(jīng)，更不要當(dāng)真，拿來做你跟別人吵架的憑據(jù)。

騙騙兄弟可以，別把自己也騙了。

當(dāng)所有的大模型，都用MMLU、MATH、IFEval、GSM8K之類的基準(zhǔn)測試來衡量自己模型的能力，那這些基準(zhǔn)測試，也就不再是一個好的基準(zhǔn)了。

去年一篇論文讓我印象非常的深刻，叫《Don’t Make Your LLM an Evaluation Benchmark Cheater》，來自中國人民大學(xué)。

里面詳細(xì)的闡述了因為數(shù)據(jù)泄露而引起的整個大模型刷榜情況的虛假繁榮。

N多模型，直接把評測集的數(shù)據(jù)訓(xùn)在了模型里面，從而直接屠榜，來引起聲量和討論。

這就像學(xué)校里考試，我們每個人都公平的在考場上，一起考試答題，大家各憑本事一決勝負(fù)。

但是偏偏有個學(xué)生，平時滿分750他只能考個299，但是這次，他在考試前，已經(jīng)提前知道了所有卷子的題目和答案，都在腦子里背了下來，只有一些語文之類的主觀題沒有滿分，其他全是滿分，考了720分。

那你會覺得，他考了720分，是因為他真的牛逼嗎?

傻子才會。

大模型的評測，跟這種考試，沒有任何區(qū)別。刷題而已，人類刷了幾千年的題，這點手段，還能難倒背后的人?開什么玩笑。

所以《Don’t Make Your LLM an Evaluation Benchmark Cheater》的作者，提出一種方法，用n-gram哈希算法在考試前對數(shù)據(jù)污染現(xiàn)象，進行嚴(yán)格檢查，只要是作弊的，一律滾出去。

可惜，因為我上面說的那些亂七八糟的問題，并沒有辦法用上，現(xiàn)在所有的榜單，都還是充斥著無數(shù)的水分。

榜單不再可信，但是普通用戶和開發(fā)者，永遠(yuǎn)會用腳投票。

請在手機微信登錄投票

你心中No.1的大模型是哪個?單選文心一言騰訊混元字節(jié)豆包阿里通義GPT-4oClaude3.5智譜清言KimiGemini訊飛星火

所以，真的，騙騙哥們可以，別把你自己也騙了。

AI這行里，真的充斥著各種各樣奇奇怪怪的現(xiàn)象。

腳踏實地做點事吧。

站在普通人的場景想想未來。

我覺得，比那一瞬的泡沫，更重要。

以上就是關(guān)于【現(xiàn)在的大模型榜單，真就沒一個可信的?！康南嚓P(guān)內(nèi)容，希望對大家有幫助！

標(biāo)簽：現(xiàn)在的大模型榜單，真就沒一個可信的。

　　免責(zé)聲明：本文由用戶上傳，與本網(wǎng)站立場無關(guān)。財經(jīng)信息僅供讀者參考，并不構(gòu)成投資建議。投資者據(jù)此操作，風(fēng)險自擔(dān)。如有侵權(quán)請聯(lián)系刪除！

分享：

相關(guān)閱讀

董明珠曾喊話雷軍給股民分多少錢！格力：擬分紅超55億

Epic喜+1：動作游戲《師父》免費領(lǐng) 立省139元

雷軍辟謠只招聘35歲以下員工：僅針對未來之星項目

普華永道發(fā)布2025年AI預(yù)測：AI Agents將勞動力提升1倍

雷軍回應(yīng)股價暴跌：年年難過年年過

一天100座！理想汽車第1700座超充站正式建成

《守望先鋒》國服宣布2月19日回歸：賬號數(shù)據(jù)完整保留

雷軍建議創(chuàng)業(yè)者要多留點錢給員工：別到山窮水盡才講問題

雷軍新年第一天收到200元紅包自侃年入百萬的開始

雷軍親自展示REDMI Turbo 4！2025年第一款新機

雷軍：小米未來10年建至少20座世界頂級工廠

雷軍辟謠只招聘35歲以下員工：只有招聘未來之星時才有年齡限制

雷軍回應(yīng)100億造車：沒有好到“封神” 不要神話我

雷軍表態(tài)：一心做好小米汽車大家可以在“許愿池”尋找商機

雷軍：中國汽車產(chǎn)業(yè)應(yīng)少些歪門邪道不要發(fā)黑稿、背后捅刀子

小米SU7選配色都是7000元為什么璀璨洋紅卻需要9000元

最新文章

奔馳GLE預(yù)約試駕，新手必看的詳細(xì)流程

奔馳GLE作為豪華SUV市場中的佼佼者，憑借其卓越的性能、豪華的內(nèi)飾以及寬敞的空間，吸引了眾多消費者的關(guān)注。...瀏覽全文>>

安徽阜陽帕薩特新能源新車報價2025款走勢，市場優(yōu)惠力度持續(xù)加大

在2025年，安徽阜陽地區(qū)的帕薩特新能源汽車市場表現(xiàn)非?；钴S。作為一款備受關(guān)注的新能源車型，帕薩特新能源憑...瀏覽全文>>

滁州T-ROC探歌 2025新款價格，最低售價15.89萬起，趕緊行動

近日，滁州地區(qū)的大眾汽車經(jīng)銷商傳來好消息：備受矚目的2025款T-ROC探歌正式上市，并且以極具競爭力的價格吸引...瀏覽全文>>

安徽淮南長安啟源E07多少錢 2024款落地價，買車前的全方位指南

在選擇一款新能源汽車時，了解其價格和配置是非常重要的一步。安徽淮南地區(qū)的長安啟源E07作為2024款的新車型，...瀏覽全文>>

阜陽長安啟源A05最新價格2025款，配置升級，值不值得買？

阜陽長安啟源A05作為長安汽車旗下的全新車型，自推出以來便憑借其獨特的設(shè)計風(fēng)格和豐富的配置吸引了眾多消費者...瀏覽全文>>

阜陽長安啟源A07價格，豪華配置超值價來襲

阜陽長安啟源A07作為一款備受矚目的新能源車型，以其豪華配置和親民的價格在市場上引起了廣泛關(guān)注。這款車型不...瀏覽全文>>

安徽淮南威然最新價格2024款，各配置車型售價全知曉

安徽淮南威然2024款價格及配置詳解隨著汽車市場的不斷更新?lián)Q代，上汽大眾旗下的MPV車型——威然（Viloran）憑...瀏覽全文>>

QQ多米新車報價2025款，買車省錢秘籍

QQ多米新車報價2025款，買車省錢秘籍隨著汽車市場的不斷發(fā)展，消費者在選購車輛時不僅關(guān)注車型的性能和配置，...瀏覽全文>>

滁州途觀X最新價格2024款，買車省錢秘籍

滁州途觀X 2024款最新價格及買車省錢秘籍隨著汽車市場的不斷發(fā)展，大眾途觀X作為一款兼具時尚與性能的中型SUV...瀏覽全文>>

滁州蔚攬 2022新款價格，豪華配置超值價來襲

隨著汽車市場的不斷發(fā)展，大眾蔚攬以其優(yōu)雅的設(shè)計和卓越的性能贏得了眾多消費者的青睞。作為一款兼具實用性和...瀏覽全文>>

大家愛看

Alienware 在 2025 年 CES 上展示了一些超凡脫俗的技術(shù)

Wickes 任命首席零售和分銷官

分析師稱GTA 6或?qū)淞⑿袠I(yè)新標(biāo)準(zhǔn)

索尼和本田在拉斯維加斯推出售價 89,900 美元的 Afeela 1

日本 11 月游客人數(shù)創(chuàng)月度新高

神經(jīng)認(rèn)知測試在 3 歲兒童白血病治療期間可行

牛津郡小學(xué)支持圣誕毛衣日

S?strene Grene 投資歐洲物流中心

有人已經(jīng)在電視上直播 BNMC 打造的 1967 年福特野馬 Restomod

潛在的分子療法可以逆轉(zhuǎn)小鼠的胎盤發(fā)育問題

頻道推薦

奔馳GLE預(yù)約試駕，新手必看的詳細(xì)流程

滁州T-ROC探歌 2025新款價格，最低售價15.89萬起，趕緊行動

安徽淮南威然最新價格2024款，各配置車型售價全知曉

滁州途觀X最新價格2024款，買車省錢秘籍

淮南長安啟源Q05 2025新款價格，最低售價9.69萬起，入手正當(dāng)時

安徽淮南探影多少錢 2023款落地價，各配置車型售價一目了然

淮南途觀X價格大揭秘，買車前必看

安徽淮南長安獵手K50新款價格2025款多少錢？買車攻略一網(wǎng)打盡

滁州ID.4 X新款價格2025款多少錢？買車攻略一網(wǎng)打盡

QQ多米落地價，購車前必看的費用明細(xì)

站長推薦

Nvidia DLSS 4 有望將游戲性能提高 8 倍

人工智能在預(yù)測自身免疫性疾病進展方面顯示出良好的前景

心理物理實驗揭示皮膚水分感知是如何改變的

科茨沃爾德公司慶祝圣誕節(jié)圓滿成功

南法納姆學(xué)校被評為薩里郡表現(xiàn)最好的小學(xué)

約克區(qū)九所小學(xué)將削減招生人數(shù)

松下新款電動汽車電池為 Lucid Gravity 帶來 450 英里續(xù)航里程

泰國旅游呈現(xiàn)新趨勢

研究人員找到在細(xì)胞水平上餓死前列腺癌腫瘤的新方法

領(lǐng)先的人工智能聊天機器人在測試中表現(xiàn)出類似癡呆癥的認(rèn)知能力下降

龐大的 Project Zomboid build 42 終于可以玩了

Steam Replay 回歸向您展示 2024 年您玩得最多的 PC 游戲

Jollyes 推出強化的人才支持和招聘措施

Karen Millen 與 Simon Harrison 共同推出全新高級珠寶系列

奇瑞風(fēng)云A8L電動轎車刷新續(xù)航里程世界紀(jì)錄

虛擬藝術(shù)家將別克 Cascada 帶回 2026 款車型

OnePlus 宣布推出新計劃解決綠線問題

OnePlus Watch 3 將擁有更大的電池和更薄的機身

研究人員發(fā)現(xiàn)可變剪接與自身免疫性疾病遺傳之間的細(xì)胞類型特異性聯(lián)系

科學(xué)家確定腦細(xì)胞類型是排尿的主要控制者

最新亚洲人成无码网站,夜夜操夜夜操夜夜爽,中文字日产幕乱五区,在线成人看片黄a免费看,亚洲自偷自拍另类11p

現(xiàn)在的大模型榜單，真就沒一個可信的。

現(xiàn)在的大模型榜單，真就沒一個可信的。