現(xiàn)在的大模型榜單,真就沒一個可信的。
相信很多大家對現(xiàn)在的大模型榜單,真就沒一個可信的。還不知道吧,今天菲菲就帶你們一起去了解一下~.~!
現(xiàn)在的大模型榜單上,真的都是水分。
全是作弊的考生,真的。
上周,AI圈有個很炸裂的大模型發(fā)布,在全網(wǎng)引起了山呼海嘯,一眾從業(yè)者和媒體尊稱它為開源新王。
就是Reflection70B。
在每項基準(zhǔn)測試上都超過了 GPT-4o,還只用70B的參數(shù),就擊敗了405B的Llama3.1,模型中還有一個叫「Reflection-Tuning」的技術(shù),能讓模型能夠在最終回復(fù)之前,先識別自己有沒有錯誤,如果有,糾正以后再回答。
其實這個東西當(dāng)時我就很存疑,因為在我的理解里,這玩意,就是個CoT,就是個純Prompt,一個Prompt把70B模型直接帶的螺旋升天?
你這玩意,真要是能做到,奧特曼就真的直接原地給你磕頭了。。。
最關(guān)鍵的是,還有一個很離譜的點,這個模型就兩個人做,而且,從一拍即合、到找數(shù)據(jù)集、到模型微調(diào)完成并正式發(fā)布,一共就花了3周。
這效率,這速度,直接卷的螺旋升天,國內(nèi)大廠速度沒卷到這個地步...
于是我就觀望了幾天。
直到昨天,發(fā)現(xiàn)這模型底都快被人扒掉了。
模型結(jié)果造假,提供給開發(fā)者的API,還是造假。
先是跑分評測上面,這是他們老板Matt自己發(fā)出來的跑分結(jié)果,勇奪第一。
看這個結(jié)果,你就說屌不屌吧,拳打Claude3.5,腳踢GPT-4o,還把Gemini1.5Pro和Llama3.1405B給摁在地上摩擦。
你很難想象這只是一個兩個人花三周訓(xùn)的70B的模型能干出來的事。
直到7號,Artificial Analysis用他們自己的標(biāo)準(zhǔn)評測集跑了一通,發(fā)現(xiàn)這事不對啊,你這么多項評測集都登頂了,你應(yīng)該很牛逼才對啊,這得分什么情況???
他們是這么說的:
“哥們,我們測完了咋感覺你比Llama3.170B更拉了呢?老實說,你是不是在騙兄弟們?!?/p>
Matt看到了以后,開始說臥槽不對勁啊,我們內(nèi)部是好的啊,怎么你們測試結(jié)果這么爛?
花了好半天,Matt終于說,哦是Hugging Face 權(quán)重出現(xiàn)了問題,我也不知道咋回事,你們等一等。
說完還不忘凡爾賽一下,說:
翻譯一下就是:我們是在太太太太火啦,你們再等等啊,乖。
直到今天凌晨,最騷的事情來了,Matt說,我們終于解決了問題,開放了新的API。
他們提供了一個私有接口,說這個才是Reflection70B完全體。
大家一測,臥槽,果然牛逼,牛逼炸了。
真的好像比GPT4o還有那些大廠的模型強哎。
就差點直接給Reflection70B開香檳了。
2個人,3周時間,創(chuàng)了AI行業(yè)的奇跡。
但是大家香檳剛開一半,就被生生的摁回去了。
大家發(fā)現(xiàn),這個所謂的“Reflection70B”的API,怎么跟Claude3.5回復(fù)的東西,一模一樣。。。
于是有人,又做了一個驗證測試,他把所有API的參數(shù)全部設(shè)為10個Token、0溫度、top_k1,然后讓大模型,重復(fù)entsprechend這個詞20次,因為大模型對token的計算都不太一樣,所以其實10個token限制輸出的內(nèi)容也不太一樣,你既然說你是基于Llama3.1微調(diào)的,那你肯定得跟Llama3.1輸出內(nèi)容一樣對吧。
但是,結(jié)果直接讓人大跌眼鏡。
好兄弟,你怎么,跟Claude的長度一樣,你到底是Llama3.1生出的Reflection70B,還是披著狗皮的Claude啊???
更狗的是,他們居然,還把Claude設(shè)成了屏蔽詞,在用戶的對話中,一旦你發(fā)Claude,就直接剔除。
騷啊,實在是太騷了。。。
這下,所有AI行業(yè)的人,都知道,Reflection70B就是一場徹頭徹尾的鬧劇。
這個鬧劇背后,我覺得反應(yīng)出了現(xiàn)在整個AI領(lǐng)域,一個非常詭異的現(xiàn)象。
刷榜。
回到整個事情的起點,就是模型能力的強度,和榜單。
正是因為Reflection70B在評測集上屠榜了,秒殺Claude3.5和GPT4o,才讓大家如此興奮。
但是結(jié)果大家發(fā)現(xiàn),臥槽你怎么就做那些特定評測集的題目那么牛逼?換個別的題就直接變廢物了?不是細(xì)狗你行不行啊?
直接對著答案抄,還不行,那不扯淡嗎。
大模型目前的評測體系,從來就不復(fù)雜,就是考試,純純的考試。
評測數(shù)據(jù)集相當(dāng)于試卷,模型就是正在考試的學(xué)生,最后交卷,看誰的分高。
聽起來是不是很科學(xué)?理論上是的,但是大模型評測領(lǐng)域有一個非常嚴(yán)重的BUG,就是評測集,就是考試試卷,是公開的,所有人在考試之前,都可以看到考卷。
為什么評測機構(gòu)要公開評測集?不公開不就行了?
答案是不行。
高考和學(xué)校的考試,是權(quán)威的考試,我不差你一個,你愛考不考,我就是天,我就是規(guī)則,所以,他們當(dāng)然不會公開試卷,一切以公平說話。
但是大模型領(lǐng)域,太新了,這些評測榜單,比如SuperCLUE、C-Eval、HuggingFace,話語權(quán)沒那么大,供需關(guān)系倒過來了,如果機構(gòu)在評測時用什么問題以及對應(yīng)什么答案是什么一直不公開,如果機構(gòu)的評測邏輯與工具、評分方法與過程是封閉的“黑盒子”,那一定會被招來無數(shù)質(zhì)疑,先被干躺的是這些評測機構(gòu)你信不信。
兩害相權(quán)取其輕,所以就變成了現(xiàn)在的情況了。
人們總是單純的,總是喜歡量化的,也總是喜歡用一些固定的標(biāo)準(zhǔn),來恒定一個東西的好與差。
所以在這一年半的白模大戰(zhàn)中,我們經(jīng)常能聽到各種奇奇怪怪的第一,每個模型,都說自己超越GPT4o了,把它按在腳下摩擦。
6月27日:“ 訊飛星火V4.0不僅在8個國際主流測試集中排名第一,領(lǐng)先國內(nèi)大模型,并在文本生成、語言理解、知識問答、邏輯推理、數(shù)學(xué)能力等方面實現(xiàn)了對GPT-4Turbo的整體超越?!?/em>
5月21日:"在 LMSYS最新排名中,零一萬物的最新千億參數(shù)模型 Yi-Large 總榜排名世界模型第7,中國大模型中第一,已經(jīng)超過 Llama-3-70B、Claude3Sonnet;其中文分榜更是與 GPT4o 并列世界第一。"
3月26日:"沙利文發(fā)布了《2024年中國大模型能力評測》,評測顯示,百度文心一言穩(wěn)居國產(chǎn)大模型首位,拿下數(shù)理科學(xué)、語言能力、道德責(zé)任、行業(yè)能力及綜合能力等五大評測維度的四項第一"
我不想說什么模型好什么模型不好,這種刷榜到底有沒有意義,我只想說,使用者一定會用腳投票的。
況且,有的排行榜,那是真的不能看,比如前段時間看到的一個權(quán)威機構(gòu)的文生視頻排行榜,用量化指標(biāo)來恒量視頻生成質(zhì)量。
別的我不說了,我就說你把智譜清影排在可靈上面,你自己去問問智譜的人,他們敢接這個第二嗎?智譜是一家很實誠的公司,所以他們品牌市場也沒拿這玩意去做宣傳,你要是一些別的公司,又得PR起飛了。
這個榜單創(chuàng)作者們看到也只會笑笑,大家不傻,真的。
在經(jīng)濟學(xué)中,有一個著名的理論,叫做古德哈特定律。
原意是:一項社會指標(biāo)或經(jīng)濟指標(biāo),一旦成為一個用以指引宏觀政策制定的既定目標(biāo),那么該指標(biāo)就會喪失其原本具有的信息價值。因為政策制定者會犧牲其他方面來強化這個指標(biāo),從而使這個指標(biāo)不再具有指示整體情況的作用。
用最簡單的話來說,就是:
"當(dāng)一個指標(biāo)成為目標(biāo)時,它就不再是一個好的指標(biāo)。"
萬物皆如此。
所以這里,我想說一個暴論:現(xiàn)在的大模型榜單,還有各種亂七八糟的AI產(chǎn)品榜單,參考看看可以,但是不要奉為圣經(jīng),更不要當(dāng)真,拿來做你跟別人吵架的憑據(jù)。
騙騙兄弟可以,別把自己也騙了。
當(dāng)所有的大模型,都用MMLU、MATH、IFEval、GSM8K之類的基準(zhǔn)測試來衡量自己模型的能力,那這些基準(zhǔn)測試,也就不再是一個好的基準(zhǔn)了。
去年一篇論文讓我印象非常的深刻,叫《Don’t Make Your LLM an Evaluation Benchmark Cheater》,來自中國人民大學(xué)。
里面詳細(xì)的闡述了因為數(shù)據(jù)泄露而引起的整個大模型刷榜情況的虛假繁榮。
N多模型,直接把評測集的數(shù)據(jù)訓(xùn)在了模型里面,從而直接屠榜,來引起聲量和討論。
這就像學(xué)校里考試,我們每個人都公平的在考場上,一起考試答題,大家各憑本事一決勝負(fù)。
但是偏偏有個學(xué)生,平時滿分750他只能考個299,但是這次,他在考試前,已經(jīng)提前知道了所有卷子的題目和答案,都在腦子里背了下來,只有一些語文之類的主觀題沒有滿分,其他全是滿分,考了720分。
那你會覺得,他考了720分,是因為他真的牛逼嗎?
傻子才會。
大模型的評測,跟這種考試,沒有任何區(qū)別。刷題而已,人類刷了幾千年的題,這點手段,還能難倒背后的人?開什么玩笑。
所以《Don’t Make Your LLM an Evaluation Benchmark Cheater》的作者,提出一種方法,用n-gram哈希算法在考試前對數(shù)據(jù)污染現(xiàn)象,進行嚴(yán)格檢查,只要是作弊的,一律滾出去。
可惜,因為我上面說的那些亂七八糟的問題,并沒有辦法用上,現(xiàn)在所有的榜單,都還是充斥著無數(shù)的水分。
榜單不再可信,但是普通用戶和開發(fā)者,永遠(yuǎn)會用腳投票。
請在手機微信登錄投票
你心中No.1的大模型是哪個?單選
所以,真的,騙騙哥們可以,別把你自己也騙了。
AI這行里,真的充斥著各種各樣奇奇怪怪的現(xiàn)象。
腳踏實地做點事吧。
站在普通人的場景想想未來。
我覺得,比那一瞬的泡沫,更重要。
以上就是關(guān)于【現(xiàn)在的大模型榜單,真就沒一個可信的?!康南嚓P(guān)內(nèi)容,希望對大家有幫助!
免責(zé)聲明:本文由用戶上傳,與本網(wǎng)站立場無關(guān)。財經(jīng)信息僅供讀者參考,并不構(gòu)成投資建議。投資者據(jù)此操作,風(fēng)險自擔(dān)。 如有侵權(quán)請聯(lián)系刪除!
-
奔馳GLE作為豪華SUV市場中的佼佼者,憑借其卓越的性能、豪華的內(nèi)飾以及寬敞的空間,吸引了眾多消費者的關(guān)注。...瀏覽全文>>
-
在2025年,安徽阜陽地區(qū)的帕薩特新能源汽車市場表現(xiàn)非?;钴S。作為一款備受關(guān)注的新能源車型,帕薩特新能源憑...瀏覽全文>>
-
近日,滁州地區(qū)的大眾汽車經(jīng)銷商傳來好消息:備受矚目的2025款T-ROC探歌正式上市,并且以極具競爭力的價格吸引...瀏覽全文>>
-
在選擇一款新能源汽車時,了解其價格和配置是非常重要的一步。安徽淮南地區(qū)的長安啟源E07作為2024款的新車型,...瀏覽全文>>
-
阜陽長安啟源A05作為長安汽車旗下的全新車型,自推出以來便憑借其獨特的設(shè)計風(fēng)格和豐富的配置吸引了眾多消費者...瀏覽全文>>
-
阜陽長安啟源A07作為一款備受矚目的新能源車型,以其豪華配置和親民的價格在市場上引起了廣泛關(guān)注。這款車型不...瀏覽全文>>
-
安徽淮南威然2024款價格及配置詳解隨著汽車市場的不斷更新?lián)Q代,上汽大眾旗下的MPV車型——威然(Viloran)憑...瀏覽全文>>
-
QQ多米新車報價2025款,買車省錢秘籍隨著汽車市場的不斷發(fā)展,消費者在選購車輛時不僅關(guān)注車型的性能和配置,...瀏覽全文>>
-
滁州途觀X 2024款最新價格及買車省錢秘籍隨著汽車市場的不斷發(fā)展,大眾途觀X作為一款兼具時尚與性能的中型SUV...瀏覽全文>>
-
隨著汽車市場的不斷發(fā)展,大眾蔚攬以其優(yōu)雅的設(shè)計和卓越的性能贏得了眾多消費者的青睞。作為一款兼具實用性和...瀏覽全文>>
- Alienware 在 2025 年 CES 上展示了一些超凡脫俗的技術(shù)
- Wickes 任命首席零售和分銷官
- 分析師稱GTA 6或?qū)淞⑿袠I(yè)新標(biāo)準(zhǔn)
- 索尼和本田在拉斯維加斯推出售價 89,900 美元的 Afeela 1
- 日本 11 月游客人數(shù)創(chuàng)月度新高
- 神經(jīng)認(rèn)知測試在 3 歲兒童白血病治療期間可行
- 牛津郡小學(xué)支持圣誕毛衣日
- S?strene Grene 投資歐洲物流中心
- 有人已經(jīng)在電視上直播 BNMC 打造的 1967 年福特野馬 Restomod
- 潛在的分子療法可以逆轉(zhuǎn)小鼠的胎盤發(fā)育問題
- 奔馳GLE預(yù)約試駕,新手必看的詳細(xì)流程
- 滁州T-ROC探歌 2025新款價格,最低售價15.89萬起,趕緊行動
- 安徽淮南威然最新價格2024款,各配置車型售價全知曉
- 滁州途觀X最新價格2024款,買車省錢秘籍
- 淮南長安啟源Q05 2025新款價格,最低售價9.69萬起,入手正當(dāng)時
- 安徽淮南探影多少錢 2023款落地價,各配置車型售價一目了然
- 淮南途觀X價格大揭秘,買車前必看
- 安徽淮南長安獵手K50新款價格2025款多少錢?買車攻略一網(wǎng)打盡
- 滁州ID.4 X新款價格2025款多少錢?買車攻略一網(wǎng)打盡
- QQ多米落地價,購車前必看的費用明細(xì)
- Nvidia DLSS 4 有望將游戲性能提高 8 倍
- 人工智能在預(yù)測自身免疫性疾病進展方面顯示出良好的前景
- 心理物理實驗揭示皮膚水分感知是如何改變的
- 科茨沃爾德公司慶祝圣誕節(jié)圓滿成功
- 南法納姆學(xué)校被評為薩里郡表現(xiàn)最好的小學(xué)
- 約克區(qū)九所小學(xué)將削減招生人數(shù)
- 松下新款電動汽車電池為 Lucid Gravity 帶來 450 英里續(xù)航里程
- 泰國旅游呈現(xiàn)新趨勢
- 研究人員找到在細(xì)胞水平上餓死前列腺癌腫瘤的新方法
- 領(lǐng)先的人工智能聊天機器人在測試中表現(xiàn)出類似癡呆癥的認(rèn)知能力下降
- 龐大的 Project Zomboid build 42 終于可以玩了
- Steam Replay 回歸向您展示 2024 年您玩得最多的 PC 游戲
- Jollyes 推出強化的人才支持和招聘措施
- Karen Millen 與 Simon Harrison 共同推出全新高級珠寶系列
- 奇瑞風(fēng)云A8L電動轎車刷新續(xù)航里程世界紀(jì)錄
- 虛擬藝術(shù)家將別克 Cascada 帶回 2026 款車型
- OnePlus 宣布推出新計劃解決綠線問題
- OnePlus Watch 3 將擁有更大的電池和更薄的機身
- 研究人員發(fā)現(xiàn)可變剪接與自身免疫性疾病遺傳之間的細(xì)胞類型特異性聯(lián)系
- 科學(xué)家確定腦細(xì)胞類型是排尿的主要控制者