豆包說要「普惠」，于是大模型處理圖片按「厘」計價了

2024-12-23 14:30:02 來源：用戶：

相信很多大家對豆包說要「普惠」，于是大模型處理圖片按「厘」計價了還不知道吧，今天菲菲就帶你們一起去了解一下~.~！

這段時間，OpenAI 宣告連續(xù)12輪轟炸，讓2024年底的大模型領域熱鬧起來了。

但堅持每個凌晨看直播的話會發(fā)現(xiàn)，越到后面的發(fā)布越平淡，內心的波動也越少了。

今年的大模型就卷到這里了嗎?并沒有，國產(chǎn)大模型又卷起來了，還給 OpenAI 來了一記「重拳」。

就在前幾天，2024冬季火山引擎 FORCE 原動力大會上，字節(jié)跳動的豆包大模型家族，來了一場爆發(fā)式上新。

最受關注的是豆包大模型家族的新成員 ——豆包?視覺理解模型。顧名思義，它讓豆包有了「看懂」世界的能力。更重要的是，這款新模型一千個 token 的輸入價格僅3厘錢，也就是說花一塊錢就能處理284張720P 的圖片，比行業(yè)價格便宜了85%。

價格官宣的那一刻，或許眾多企業(yè)用戶在心里默念了一句:太好了，是豆包，我們有救了。

至于這款模型的理解能力有多強，請看 VCR:

火山引擎，贊4054

與此同時，三位成員豆包通用模型 Pro、豆包?音樂生成模型、豆包?文生圖模型宣布升級，一起發(fā)布的還有豆包?3D 模型。

回想年中的時候，豆包還是國產(chǎn)大模型中的「新秀」。短短半年多，竟然已經(jīng)紅透了半邊天，成為了眾多用戶首選的生產(chǎn)力工具。

七個月的時間，能發(fā)生什么?對于 OpenAI 來說，可能只是一項新功能從「期貨」到「全量上線」的準備時長。

但對于豆包大模型，這段時間已經(jīng)足以拿下日均 tokens 使用量超4萬億的優(yōu)秀成績，比最初發(fā)布的那天增長了33倍。

經(jīng)過此次升級后，豆包大模型家族的實力又壯大了一波。

據(jù)智源研究院12月19日發(fā)布的國內外100余個開源和商業(yè)閉源的大模型綜合及專項評測結果，「大語言模型評測能力榜單」中，豆包通用模型 pro 在重點考察中文能力的主觀評測中排名第一，「多模態(tài)模型評測榜單」中，豆包·視覺理解模型在視覺語言模型中排名第二，僅次于 GPT-4o，是得分最高的國產(chǎn)大模型?！窮lagEval 大模型角斗場榜單」中，豆包通用模型 pro 在大語言模型榜單中位居第一梯隊，評分排名第二，僅次于 OpenAI 的 o1-mini，是得分最高的國產(chǎn)大模型。

不得不說，國產(chǎn) AI 進化的速度是真的驚人。

會讀論文、看梗圖

豆包的「秒懂」能力強得可怕

回望2024年的大模型技術發(fā)展，除了文本能力的繼續(xù)提升外，從單模態(tài)過渡到多模態(tài)也是基礎模型的演進趨勢之一。

一個關鍵方向是，增加對視覺模態(tài)輸入的支持。這就像是給 LLM 裝上了「眼睛」和「大腦」，使其能夠理解圖像并進行相應的自然語言生成。

在不斷進化的豆包大模型中，我們也看到了驚人的「秒懂」能力。

具體來說，豆包?視覺理解模型具備精準的指令理解能力，能夠精準提取圖像文本信息，因此可應用于更復雜、更廣泛的視覺問答任務，比如描述圖片中的內容以及對圖片中包含的內容進行提問。另一方面，該模型可完成深度的圖片理解與推理，在表格圖像、數(shù)學問題、代碼圖像等復雜推理場景下都能發(fā)揮所長。

豆包?視覺理解模型接入豆包 App 和 PC 端產(chǎn)品已經(jīng)有段時間了，機器之心也測試了一番，實際體驗很不錯。

在此之前，人們公認體驗比較好的是 GPT-4o 模型，但這次測試下來，豆包?視覺理解模型毫不遜色。

首先能感受到，豆包的內容識別能力很強，比如對于視覺內容中的知識、文化背景、狀態(tài)、數(shù)量、文字等信息都識別得很準確，特別是能理解中國傳統(tǒng)文化知識。

比如問一個生活化的問題。站在超市貨架前，每個人都有過難以抉擇的時刻。但顯然，大模型比我們更懂傳統(tǒng)食物:

當然，它不只是擅長識別現(xiàn)實中的物品，即使圖片只有光影、輪廓、位置這些特征，也能一眼辨別:

其次，豆包對于視覺內容信息的推理能力也很強，包括數(shù)學、邏輯、代碼等。

就拿難懂的論文架構圖來說吧，在沒有給出任何論文背景信息的前提下，豆包不僅能看懂、講透，特別是針對整體流程的解讀，將階段1和階段2的因果邏輯表達得非常清楚，還能如數(shù)列出背景知識:

假如同事交接給你一些代碼，別焦慮，叫上豆包一起看能效率加倍:

再說到視覺描述能力，它也非常擅長「看圖說話」，完全可以用來編寫社交媒體文案，或者任何你需要啟發(fā)靈感的創(chuàng)作任務:

還有一個很巧妙的用途 —— 幫助2G 沖浪的「老年人」看懂新梗:

多模態(tài)能力的突破，讓今年的大模型應用給用戶帶來了諸多驚喜。此次視覺理解能力的增強，也將是豆包大模型打開更多落地場景的關鍵一步。當模型能夠將圖像和文字信息相結合，我們就能夠獲得更自然、直觀的交互體驗。例如，在產(chǎn)品推薦、教育輔助或虛擬助手場景中，用戶可以通過圖片與模型互動，獲得更豐富的反饋。此外，結合視覺和文本信息，模型對輸入的洞察水準也會更上一層樓。例如，在新聞分析或知識圖譜構建中，模型能夠關聯(lián)文字和圖片，提供更完整的背景和見解。

加上以「厘」為單位的定價，這些應用場景的解鎖速度會比想象中更快。秉承「讓每家企業(yè)都用得起好模型」的原則，豆包一發(fā)力，實實在在是把視覺理解模型的應用成本打下來了，將以更低成本推動 AI 技術普惠和應用發(fā)展。

三大主力模型升級

視頻模型下月上線

在新成員誕生的同時，豆包大模型家族的三位重要成員也迎來了本年度的最后一次重大升級。

首先是大語言模型 ——豆包通用模型 Pro。對比今年5月最初公開發(fā)布的版本，這款模型在綜合能力上已經(jīng)提升了32%，與 GPT-4o 持平，但價格僅是其八分之一。

此外，豆包通用模型 Pro在指令遵循、代碼、專業(yè)知識、數(shù)學層面全面對齊了 GPT-4o 水平。其中指令遵循能力提升9%，代碼能力提升58%，GPQA 專業(yè)知識方面能力提升54%，數(shù)學能力提升43%，推理能力提升13%。

然后是語音，豆包?音樂模型的生成水平已經(jīng)從「高光片段」躍升到「完整樂章」。

現(xiàn)在，用戶只需要簡單描述或上傳一張圖片，就能生成一首長達3分鐘的包含旋律、歌詞和演唱的高質量音樂作品，包括前奏、主歌、副歌、間奏、過渡段等復雜結構。并且，豆包?音樂模型提供了局部修改功能，在針對部分歌詞修改后仍能在原有旋律的節(jié)奏框架內適配。

體驗地址:https://www.haimian.com/create （APP 端:海綿音樂）

從原來的1分鐘，升級為現(xiàn)在的3分鐘，豆包?音樂模型克服了挑戰(zhàn)，在較長的時間跨度內容保持了音樂元素的連貫性。

最后，在視覺層面，豆包?文生圖模型本次也迎來了新一波升級，在通用性、可控性、高質量三方面取得了新突破。具體來說，豆包?文生圖模型2.1新增了「一鍵海報」和「一鍵 P 圖」能力，目前已接入即夢 AI 和豆包 App。

一鍵海報的關鍵點在于「寫字」。在實際體驗中，我們可以感受到，豆包?文生圖模型對文字細節(jié)的指令遵循能力很強，特別是非常擅長「寫漢字」:

Prompt:生成一張卡通土撥鼠的圖片衣服上的文字圖案是 “機器之心”

背后的技術源自豆包?文生圖模型原生的文字渲染能力，豆包大模型團隊通過打通 LLM 和 DiT 架構和構建高質量文字渲染數(shù)據(jù)，大幅提升了模型在文字生成方面的準確率，尤其是結構復雜、字符數(shù)量較多的漢字場景。

一鍵 P 圖功能的實現(xiàn)，則基于豆包大模型團隊近期在圖像編輯技術上取得的重大突破:SeedEdit。

近年來，基于擴散模型的圖像生成技術進展飛速，然而，圖像編輯技術還難以滿足人們對于生成內容可控性的需求，關鍵挑戰(zhàn)在于實現(xiàn)「維持原始圖像」和「生成新圖像」之間的最優(yōu)平衡。

SeedEdit 框架在不引入新參數(shù)的前提下，將圖像生成擴散模型轉為圖像編輯模型，也是國內首個產(chǎn)品化的通用圖像編輯模型。無需描邊涂抹，用戶只需要給出簡單的自然語言指示，就能換背景、轉風格，或者在指定區(qū)域進行元素的增刪和替換。

Prompt:驢打滾變成拿破侖

相比于傳統(tǒng)涂抹選中的方法，這種編輯方式更加精準，不會誤傷無關區(qū)域。還有一點好處是，這種編輯技術能夠一次性完成多項編輯任務，效率大大提升。

關于最近非常火熱的3D 賽道，豆包家族也添加了一位新成員:豆包?3D 生成模型。將這款模型與火山引擎數(shù)字孿生平臺 veOmniverse 結合使用，可以高效完成智能訓練、數(shù)據(jù)合成和數(shù)字資產(chǎn)制作，成為一套支持 AIGC 創(chuàng)作的物理世界仿真模擬器。

如視頻所示，通過疊加一句一句的文字 Prompt，就能搭建起一個工廠車間場景:

后來居上，一飛沖天

「豆包」憑借的是什么?

自2024年5月發(fā)布至今，只用了七個月，豆包大模型就成為了國產(chǎn)大模型中當之無愧的頂流。

后來者如何居上?在豆包家族做大做強的道路上，為其提供底層支撐的火山引擎云服務平臺的價值不可忽視。

一直以來，字節(jié)跳動的豆包大模型都通過火山引擎對外提供服務，「更強模型、更低價格、更易落地」，這三個關鍵詞成為了其別于眾多大模型服務平臺的特質。

除了不斷升級的模型能力之外，火山引擎還解決了「成本太高」和「落地太難」兩項大模型應用挑戰(zhàn)。目前，這個平臺提供從云計算、技術引擎、智能應用到行業(yè)解決方案的全棧服務。

模型層面，豆包大模型家族已經(jīng)有十幾位成員，覆蓋了常見應用場景。

特別地，火山引擎為大模型落地提供了一系列覆蓋全流程的工具，包括一站式大模型服務平臺火山方舟、大模型應用開發(fā)平臺扣子、企業(yè)專屬 AI 應用創(chuàng)新平臺 HiAgent。這些工具，在本次大會上也都同步升級。

火山引擎這次一口氣推出了Prompt 優(yōu)解、大模型記憶應用等產(chǎn)品，持續(xù)保障企業(yè)級 AI 應用的落地。Prompt 優(yōu)解是全新一代提示詞工具，通過自動 + 互動的方式，解決了人工編寫 Prompt 難度高、耗時寫、重新適配的問題。大模型記憶應用基于知識庫 RAG 技術和上下文緩存技術，能夠幫助企業(yè)用戶打造靈活的大模型記憶方案，并推出 prefix cache 和 session cache API，降低延遲和成本。

扣子也在這次大會上升級到了1.5版本，還公布了開發(fā)者生態(tài)方面的亮眼成績:目前平臺已有超過100萬的活躍開發(fā)者，共發(fā)布過200萬個智能體。包括最新發(fā)布的豆包多模態(tài)模型們，用戶們都能第一時間在扣子平臺通過插件的方式體驗。

在最新發(fā)布的HiAgent1.5版本中，火山引擎提供了100多個行業(yè)應用模板，提供給企業(yè)用戶一鍵復制，實現(xiàn)低代碼構建智能體。同步發(fā)布的 GraphRAG 則通過連接知識圖譜為大模型提供知識及關系信息，以此增強回答質量、支持多跳問題回答。再通過 Reranker，進一步提升回答的準確性和完整性。如此一來，企業(yè)就能構建專家級別的 AI 應用。

在云服務層面，基于當前企業(yè)使用大模型推理對計算效率的新要求，火山引擎已經(jīng)完成了從 Cloud Native 到 AI Cloud Native 的轉型，打造以 AI 負載為中心的基礎架構新范式。

GPU 在并行處理能力和高吞吐量方面更適合大規(guī)模推理使用，然而，傳統(tǒng) GPU 加 CPU 的異構計算中，GPU 從存儲加載數(shù)據(jù)進行處理都必須由 CPU 控制。近年來的一個趨勢是計算從 CPU 轉移到 GPU，GPU 計算在整個系統(tǒng)的比例越來越大，因此過去的 I/O 流程成為巨大的效率瓶頸，某種程度上造成了 GPU 資源的浪費。

基于 AI 云原生的理念，火山引擎這次推出了新一代計算、網(wǎng)絡、存儲和和安全產(chǎn)品。在計算層面，新一代的火山引擎 GPU 實例，通過 vRDMA 網(wǎng)絡，支持大規(guī)模并行計算和 P/D 分離推理架構，顯著提升訓練和推理效率，降低成本。存儲上，新推出的 EIC 彈性極速緩存，能夠實現(xiàn) GPU 直連，使大模型推理時延降低至1/50;成本降低20%。安全層面，火山將推出 PCC 私密云服務，構建大模型的可信應用體系?；?PCC，企業(yè)能夠實現(xiàn)用戶數(shù)據(jù)在云上推理的端到端加密，而且性能很好，推理時延比明文模式的差異在5% 以內。

「今年是大模型高速發(fā)展的一年。當你看到一列高速行駛的列車，最重要的事就是確保自己要登上這趟列車。通過 AI 云原生和豆包大模型家族，火山引擎希望幫助企業(yè)做好 AI 創(chuàng)新，駛向更美好的未來?！够鹕揭婵偛米T待表示。

面向2025，我們期待什么?

這一年，從技術研發(fā)的角度，豆包大模型團隊在研究者和從業(yè)者圈子中影響力的增長是有目共睹的。2024年，團隊發(fā)布了一系列「出圈」成果，包括近期的圖像編輯模型 SeedEdit、代碼評估數(shù)據(jù)集 FullStack Bench、新型神經(jīng)網(wǎng)絡架構 FAN 等。在突破前沿命題之外，這些成果也對豆包大模型產(chǎn)品層面的進化起到了關鍵的推動作用。

正是基于技術驅動下的產(chǎn)品迅速迭代，讓豆包坐穩(wěn)了國產(chǎn)大模型頂流的寶座。大模型技術爆發(fā)兩年后，不管是個人用戶還是企業(yè)用戶都能感知到，豆包大模型在應用層的優(yōu)勢已經(jīng)非常明顯。

根據(jù)大會 One More Thing 環(huán)節(jié)的透露，本文開頭 VCR 中所展示的端到端實時語音功能，以及具備更長視頻生成能力的豆包?視頻生成模型1.5也會在不久后上線。

站在2024年的末尾，無論是相關從業(yè)者還是大眾都會好奇:2025年的大模型會變成什么樣?

我們看到、聽到了很多關于大模型前進方向的預判，比如 Scaling Law 即將撞墻，預訓練已經(jīng)走到盡頭等等。

但這些并不意味著大模型的能力已經(jīng)到達天花板，推理 Scaling Law 來了，AI 的智能水平可能會在短時間內躍升到一個新的高度。同時在圖像生成、視頻生成等多模態(tài)任務上，大模型仍有相當充足的發(fā)展空間。在未來的12個月，大模型進化的曲線可能會非常陡峭。

新的一年，豆包大模型還有哪些驚喜?值得每一個人期待。

以上就是關于【豆包說要「普惠」，于是大模型處理圖片按「厘」計價了】的相關內容，希望對大家有幫助！

標簽：豆包說要「普惠」，于是大模型處理圖片按「厘」計價了

　　免責聲明：本文由用戶上傳，與本網(wǎng)站立場無關。財經(jīng)信息僅供讀者參考，并不構成投資建議。投資者據(jù)此操作，風險自擔。如有侵權請聯(lián)系刪除！

最新亚洲人成无码网站,夜夜操夜夜操夜夜爽,中文字日产幕乱五区,在线成人看片黄a免费看,亚洲自偷自拍另类11p

豆包說要「普惠」，于是大模型處理圖片按「厘」計價了

豆包說要「普惠」，于是大模型處理圖片按「厘」計價了