DBRX達(dá)1320億參數(shù),最強(qiáng)開(kāi)源模型易主
前言:
DBRX的誕生標(biāo)志著全球范圍內(nèi)開(kāi)源人工智能語(yǔ)言模型技術(shù)的最新巔峰,并預(yù)示著人工智能技術(shù)的發(fā)展已正式進(jìn)入全新階段。
該模型通過(guò)深度學(xué)習(xí)技術(shù)和大規(guī)模訓(xùn)練數(shù)據(jù)的結(jié)合,不僅在自然語(yǔ)言處理領(lǐng)域表現(xiàn)出色,更在程序代碼解析與生成、復(fù)雜數(shù)學(xué)計(jì)算以及邏輯推理等多個(gè)領(lǐng)域展現(xiàn)了前所未有的卓越能力。
作者 | 方文三
圖片來(lái)源 | 網(wǎng) 絡(luò)
全球最強(qiáng)開(kāi)源大模型王座易主
近期,全球開(kāi)源大模型領(lǐng)域迎來(lái)了重大變革,創(chuàng)業(yè)公司Databricks推出的新型開(kāi)源模型DBRX在技術(shù)層面已超越先前的領(lǐng)軍者Llama 2、Mixtral和Grok-1,榮登全球最強(qiáng)開(kāi)源大模型之巔。
這一突破性的成就,無(wú)疑為開(kāi)源模型領(lǐng)域樹(shù)立了新的里程碑。
值得注意的是,DBRX在訓(xùn)練成本上實(shí)現(xiàn)了顯著降低。Databricks公司僅投入1000萬(wàn)美元及3100塊H100芯片,便高效地在兩個(gè)月內(nèi)完成了DBRX的訓(xùn)練。
相較于Meta開(kāi)發(fā)Llama2所需的龐大投入,這一成本展示了Databricks公司在技術(shù)效率與成本控制上的卓越能力。
在性能表現(xiàn)方面,DBRX同樣展現(xiàn)出了強(qiáng)大的實(shí)力。無(wú)論是在語(yǔ)言理解、編程、數(shù)學(xué)還是邏輯領(lǐng)域,DBRX均輕松超越了開(kāi)源模型LLaMA2-70B、Mixtral和Grok-1。
更值得一提的是,DBRX的整體性能甚至超越了GPT-3.5,尤其在編程方面,DBRX展現(xiàn)出了超越GPT-3.5的卓越性能。
DBRX大模型,使用MoE架構(gòu)
Databricks公司最近推出了開(kāi)源模型DBRX,其參數(shù)規(guī)模高達(dá)1320億。
這款模型采用了先進(jìn)的細(xì)粒度MoE架構(gòu),每次輸入僅需使用360億參數(shù),顯著提升了每秒token吞吐量。
DBRX通過(guò)細(xì)粒度專家混合(MoE)架構(gòu),擁有更多的專家模型,從而在推理速度上大幅超越了LLaMA 2-70B,實(shí)現(xiàn)了兩倍的提升。
DBRX是一款基于Transformer純解碼器的大模型,同樣采用下一token預(yù)測(cè)進(jìn)行訓(xùn)練。
在MoE中,模型的某些部分會(huì)根據(jù)查詢內(nèi)容啟動(dòng),有效提高了模型的訓(xùn)練和運(yùn)行效率。
相較于其他開(kāi)源MoE模型如Mixtral和Grok-1,DBRX采用了細(xì)粒度設(shè)計(jì),使用更多數(shù)量的小型專家。
DBRX擁有16個(gè)專家模型,每次選擇4個(gè)使用,而Mixtral和Grok-1則分別擁有8個(gè)專家模型,每次選擇2個(gè)。
這種設(shè)計(jì)使得DBRX提供了65倍可能的專家組合,極大地提高了模型質(zhì)量。
此外,DBRX還采用了旋轉(zhuǎn)位置編碼(RoPE)、門(mén)控線性單元(GLU)和分組查詢注意力(GQA)等技術(shù),以提高模型質(zhì)量。同時(shí),DBRX還使用了tiktoken存儲(chǔ)庫(kù)中提供的GPT-4分詞器。
在方法層面,DBRX模型(包括預(yù)訓(xùn)練數(shù)據(jù)、模型架構(gòu)和優(yōu)化策略)與上一代的MPT模型相當(dāng),但計(jì)算效率提高了近4倍。
三大核心能力表現(xiàn)突出
①經(jīng)過(guò)綜合評(píng)估,DBRX的“微調(diào)版”Instruct在多個(gè)基準(zhǔn)測(cè)試中表現(xiàn)卓越。
在Hugging Face Open LLM Leaderboard這一復(fù)合基準(zhǔn)測(cè)試中,DBRX Instruct以74.5%的得分榮登榜首,顯著領(lǐng)先于第二名Mixtral Instruct的72.7%。
同時(shí),在Databricks Model Gauntlet這一包含超過(guò)30項(xiàng)任務(wù)、橫跨六個(gè)領(lǐng)域的評(píng)估套件中,DBRX Instruct同樣以66.8%的得分拔得頭籌,較第二名Mixtral Instruct的60.7%有著明顯優(yōu)勢(shì)。
②DBRX Instruct在編程和數(shù)學(xué)相關(guān)任務(wù)上展現(xiàn)出了尤為突出的能力。
在HumanEval這一評(píng)估代碼質(zhì)量的任務(wù)中,其正確率達(dá)到了70.1%,比Grok-1高出約7個(gè)百分點(diǎn),比Mixtral Instruct高出約8個(gè)百分點(diǎn),并超越了所有被評(píng)估的LLaMA2-70B變體。
在GSM8k數(shù)學(xué)問(wèn)題解決測(cè)試中,DBRX Instruct同樣取得了最優(yōu)成績(jī)66.9%,超過(guò)了Grok-1、Mixtral Instruct以及其他LLaMA2-70B變體。
值得注意的是,盡管Grok-1的參數(shù)數(shù)量是DBRX Instruct的2.4倍,但在上述編程和數(shù)學(xué)任務(wù)上,DBRX Instruct仍能保持領(lǐng)先地位。
甚至在針對(duì)編程任務(wù)專門(mén)設(shè)計(jì)的CodeLLaMA-70B Instruct模型之上,DBRX Instruct在HumanEval上的表現(xiàn)依然出色。
③DBRX Instruct在多語(yǔ)言理解能力方面也表現(xiàn)出色。
在大規(guī)模多任務(wù)語(yǔ)言理解數(shù)據(jù)集(MMLU)上,DBRX Instruct繼續(xù)展示出頂級(jí)性能,得分高達(dá)73.7%,超過(guò)了本次比較的所有其他模型。
綜上所述,DBRX的“微調(diào)版”Instruct在多個(gè)基準(zhǔn)測(cè)試中均表現(xiàn)出色,尤其在編程、數(shù)學(xué)和多語(yǔ)言理解方面展現(xiàn)出了卓越的能力。
Databricks再次攪局,力爭(zhēng)市場(chǎng)破局
Databricks,源于加州大學(xué)伯克利分校的AMPLab項(xiàng)目,專注于研發(fā)基于Scala的開(kāi)源分布式計(jì)算框架Apache Spark,并首創(chuàng)了“湖倉(cāng)一體”(data Lakehouse)的概念。
2023年3月,該公司緊跟ChatGPT熱潮,推出了開(kāi)源語(yǔ)言模型dolly,并在后續(xù)2.0版本中提出了“首個(gè)真正開(kāi)放和商業(yè)可行的指令調(diào)優(yōu)LLM(大模型)”的口號(hào),這標(biāo)志著Databricks的“第二次行業(yè)革新”。
值得一提的是,Jonathan Frankle,曾是生成式AI初創(chuàng)公司MosaicML的首席科學(xué)家。
而Databricks在2023年6月以14億美元成功收購(gòu)了MosaicML,這一舉措促使Frankle辭去了哈佛大學(xué)教授的職務(wù),全身心投入到DBRX的研發(fā)中。
就在前些日子,馬斯克宣布了史上最大的開(kāi)源模型Grok-1的誕生,這一事件無(wú)疑引起了業(yè)界的廣泛關(guān)注。
Databricks之所以能在競(jìng)爭(zhēng)中脫穎而出,其關(guān)鍵在于公司的技術(shù)整合能力和專有數(shù)據(jù)。
這兩項(xiàng)核心優(yōu)勢(shì)將繼續(xù)推動(dòng)新的、更優(yōu)秀的模型變體的誕生。
DBRX團(tuán)隊(duì)擁有16名專家,并從中選擇了4名進(jìn)行模型開(kāi)發(fā),而Mixtral和Grok-1團(tuán)隊(duì)各有8名專家,選擇了2名。
這種選擇為DBRX提供了超過(guò)65倍的專家組合可能性,從而顯著提高了模型質(zhì)量。
DBRX在模型開(kāi)發(fā)中采用了旋轉(zhuǎn)位置編碼(RoPE)、門(mén)控線性單元(GLU)和分組查詢注意力(GQA)等技術(shù),并使用了tiktoken存儲(chǔ)庫(kù)中提供的GPT-4令牌化器(tokenizer)。
這些決策都是團(tuán)隊(duì)經(jīng)過(guò)深入評(píng)估和縮放實(shí)驗(yàn)后作出的明智選擇。
透露下一步有關(guān)開(kāi)源模型的計(jì)劃
①即將推出RAG工具,這一模式對(duì)于其發(fā)展具有重大意義。同時(shí),Databricks中已經(jīng)內(nèi)置了簡(jiǎn)潔高效的RAG方法。
接下來(lái),將致力于將DBRX模型打造成為RAG的最佳生成器模型,為用戶提供更為強(qiáng)大的支持。
②DBRX模型將在所有主流云環(huán)境產(chǎn)品,包括AWS、谷歌云(GCP)和Azure等平臺(tái)上進(jìn)行托管。
作為一款開(kāi)源模型,鼓勵(lì)用戶根據(jù)自身需求自由地使用它,以推動(dòng)業(yè)務(wù)的發(fā)展和創(chuàng)新。
③DBRX模型預(yù)計(jì)將通過(guò)Nvidia API Catalog進(jìn)行提供,并在Nvidia NIM推理微服務(wù)上獲得支持。
這將為用戶帶來(lái)更加穩(wěn)定和高效的推理體驗(yàn),進(jìn)一步推動(dòng)業(yè)務(wù)的增長(zhǎng)和拓展。
讓大模型廠商看到了變現(xiàn)的路徑
Databricks專注于協(xié)助企業(yè)構(gòu)建、訓(xùn)練和擴(kuò)展符合其特定需求的模型,此舉具有深遠(yuǎn)意義。
這支獨(dú)角獸團(tuán)隊(duì)高度重視企業(yè)的采納情況,因?yàn)檫@直接關(guān)系到他們的商業(yè)模式。
作為L(zhǎng)LM發(fā)布計(jì)劃的一部分,Databricks以開(kāi)放許可證的形式推出了兩個(gè)模型:DBRX Base和DBRX Instruct。
DBRX Base是一個(gè)預(yù)訓(xùn)練的基礎(chǔ)模型,而DBRX Instruct則是針對(duì)少量交互的微調(diào)版本。
值得一提的是,DBRX得到了Azure數(shù)據(jù)庫(kù)在AWS、Google Cloud和Microsoft Azure上的支持,這意味著企業(yè)可以輕松地下載模型并在任何他們選擇的圖形處理器(GPU)上運(yùn)行。
此外,企業(yè)還可以選擇訂閱DBRX和其他工具,如檢索增強(qiáng)生成(RAG),通過(guò)Databricks的Mosaic AI Model服務(wù)產(chǎn)品定制LLM。
Mosaic AI Model服務(wù)通過(guò)Foundation Model APIs與DBRX相連,使企業(yè)能夠從服務(wù)端點(diǎn)訪問(wèn)和查詢LLMs。這一功能為企業(yè)提供了更強(qiáng)大的定制能力和靈活性。
Foundation Model APIs提供兩種定價(jià)模式:按Tokens付費(fèi)和分配的吞吐量。
按Tokens付費(fèi)的定價(jià)是基于并發(fā)請(qǐng)求,而吞吐量則是按每小時(shí)每個(gè)GPU實(shí)例計(jì)費(fèi)。
兩種費(fèi)率,包括云實(shí)例成本,均從每個(gè)Databricks單位$0.070開(kāi)始。
同時(shí),Databricks還為不同的GPU配置提供了相應(yīng)的定價(jià)區(qū)間,以滿足企業(yè)在不同場(chǎng)景下的計(jì)算需求。
通過(guò)穩(wěn)健的商業(yè)模式和開(kāi)源大模型的結(jié)合,這也為企業(yè)提供了進(jìn)入AIGC領(lǐng)域的門(mén)票。
通過(guò)使用我們的平臺(tái),企業(yè)不僅可以降低使用自身企業(yè)數(shù)據(jù)開(kāi)發(fā)生成性AI用例的成本,而且不會(huì)受到封閉模型提供商(如OpenAI)對(duì)商業(yè)用途的限制。
結(jié)尾:
隨著2024年AI大模型的迅猛進(jìn)步,創(chuàng)新與突破呈現(xiàn)出指數(shù)級(jí)增長(zhǎng)。
例如,OpenAI Sora、stable diffusion3、stable diffusion3 Tubro、Grok-1和Claude 3等模型相繼發(fā)布并開(kāi)放使用。
隨著LLM社區(qū)的逐漸成熟,我們有理由相信,在不久的將來(lái),每個(gè)企業(yè)都將有能力在新興的生成式AI領(lǐng)域構(gòu)建專有的私有LLM模型,并充分發(fā)掘和利用企業(yè)私有數(shù)據(jù)的價(jià)值。
部分資料參考:機(jī)器之心:《開(kāi)源大模型王座再易主,1320億參數(shù)DBRX上線》,新智元:《全球最強(qiáng)開(kāi)源模型一夜易主,1320億參數(shù)推理飆升2倍》,CSDN:《Databricks 開(kāi)源 1320 億參數(shù)大模型強(qiáng)勢(shì)攪局,Grok 和 LLaMA 悉數(shù)落敗》,編程奇點(diǎn):《馬斯克剛開(kāi)源10天的Grok遭吊打,1320億參數(shù)DBRX上線》,開(kāi)源AI項(xiàng)目落地:《DBRX:全球最強(qiáng)開(kāi)源大模型易主》
原文標(biāo)題 : AI芯天下丨熱點(diǎn)丨DBRX達(dá)1320億參數(shù),最強(qiáng)開(kāi)源模型易主
發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
最新活動(dòng)更多
-
10月31日立即下載>> 【限時(shí)免費(fèi)下載】TE暖通空調(diào)系統(tǒng)高效可靠的組件解決方案
-
即日-11.13立即報(bào)名>>> 【在線會(huì)議】多物理場(chǎng)仿真助跑新能源汽車(chē)
-
11月28日立即報(bào)名>>> 2024工程師系列—工業(yè)電子技術(shù)在線會(huì)議
-
12月19日立即報(bào)名>> 【線下會(huì)議】OFweek 2024(第九屆)物聯(lián)網(wǎng)產(chǎn)業(yè)大會(huì)
-
即日-12.26火熱報(bào)名中>> OFweek2024中國(guó)智造CIO在線峰會(huì)
-
即日-2025.8.1立即下載>> 《2024智能制造產(chǎn)業(yè)高端化、智能化、綠色化發(fā)展藍(lán)皮書(shū)》
推薦專題
- 1 【一周車(chē)話】沒(méi)有方向盤(pán)和踏板的車(chē),你敢坐嗎?
- 2 特斯拉發(fā)布無(wú)人駕駛車(chē),還未迎來(lái)“Chatgpt時(shí)刻”
- 3 特斯拉股價(jià)大跌15%:Robotaxi離落地還差一個(gè)蘿卜快跑
- 4 馬斯克給的“驚喜”夠嗎?
- 5 大模型“新星”開(kāi)啟變現(xiàn)競(jìng)速
- 6 海信給AI電視打樣,12大AI智能體全面升級(jí)大屏體驗(yàn)
- 7 打完“價(jià)格戰(zhàn)”,大模型還要比什么?
- 8 馬斯克致敬“國(guó)產(chǎn)蘿卜”?
- 9 神經(jīng)網(wǎng)絡(luò),誰(shuí)是盈利最強(qiáng)企業(yè)?
- 10 比蘋(píng)果偉大100倍!真正改寫(xiě)人類歷史的智能產(chǎn)品降臨
- 高級(jí)軟件工程師 廣東省/深圳市
- 自動(dòng)化高級(jí)工程師 廣東省/深圳市
- 光器件研發(fā)工程師 福建省/福州市
- 銷(xiāo)售總監(jiān)(光器件) 北京市/海淀區(qū)
- 激光器高級(jí)銷(xiāo)售經(jīng)理 上海市/虹口區(qū)
- 光器件物理工程師 北京市/海淀區(qū)
- 激光研發(fā)工程師 北京市/昌平區(qū)
- 技術(shù)專家 廣東省/江門(mén)市
- 封裝工程師 北京市/海淀區(qū)
- 結(jié)構(gòu)工程師 廣東省/深圳市