訂閱
糾錯(cuò)
加入自媒體

DBRX達(dá)1320億參數(shù),最強(qiáng)開(kāi)源模型易主

前言:

DBRX的誕生標(biāo)志著全球范圍內(nèi)開(kāi)源人工智能語(yǔ)言模型技術(shù)的最新巔峰,并預(yù)示著人工智能技術(shù)的發(fā)展已正式進(jìn)入全新階段。

該模型通過(guò)深度學(xué)習(xí)技術(shù)和大規(guī)模訓(xùn)練數(shù)據(jù)的結(jié)合,不僅在自然語(yǔ)言處理領(lǐng)域表現(xiàn)出色,更在程序代碼解析與生成、復(fù)雜數(shù)學(xué)計(jì)算以及邏輯推理等多個(gè)領(lǐng)域展現(xiàn)了前所未有的卓越能力。

作者 | 方文三

圖片來(lái)源 |  網(wǎng) 絡(luò) 

圖片

全球最強(qiáng)開(kāi)源大模型王座易主

近期,全球開(kāi)源大模型領(lǐng)域迎來(lái)了重大變革,創(chuàng)業(yè)公司Databricks推出的新型開(kāi)源模型DBRX在技術(shù)層面已超越先前的領(lǐng)軍者Llama 2、Mixtral和Grok-1,榮登全球最強(qiáng)開(kāi)源大模型之巔。

這一突破性的成就,無(wú)疑為開(kāi)源模型領(lǐng)域樹(shù)立了新的里程碑。

值得注意的是,DBRX在訓(xùn)練成本上實(shí)現(xiàn)了顯著降低。Databricks公司僅投入1000萬(wàn)美元及3100塊H100芯片,便高效地在兩個(gè)月內(nèi)完成了DBRX的訓(xùn)練。

相較于Meta開(kāi)發(fā)Llama2所需的龐大投入,這一成本展示了Databricks公司在技術(shù)效率與成本控制上的卓越能力。

在性能表現(xiàn)方面,DBRX同樣展現(xiàn)出了強(qiáng)大的實(shí)力。無(wú)論是在語(yǔ)言理解、編程、數(shù)學(xué)還是邏輯領(lǐng)域,DBRX均輕松超越了開(kāi)源模型LLaMA2-70B、Mixtral和Grok-1。

更值得一提的是,DBRX的整體性能甚至超越了GPT-3.5,尤其在編程方面,DBRX展現(xiàn)出了超越GPT-3.5的卓越性能。

DBRX大模型,使用MoE架構(gòu)

Databricks公司最近推出了開(kāi)源模型DBRX,其參數(shù)規(guī)模高達(dá)1320億。

這款模型采用了先進(jìn)的細(xì)粒度MoE架構(gòu),每次輸入僅需使用360億參數(shù),顯著提升了每秒token吞吐量。

DBRX通過(guò)細(xì)粒度專家混合(MoE)架構(gòu),擁有更多的專家模型,從而在推理速度上大幅超越了LLaMA 2-70B,實(shí)現(xiàn)了兩倍的提升。

DBRX是一款基于Transformer純解碼器的大模型,同樣采用下一token預(yù)測(cè)進(jìn)行訓(xùn)練。

在MoE中,模型的某些部分會(huì)根據(jù)查詢內(nèi)容啟動(dòng),有效提高了模型的訓(xùn)練和運(yùn)行效率。

相較于其他開(kāi)源MoE模型如Mixtral和Grok-1,DBRX采用了細(xì)粒度設(shè)計(jì),使用更多數(shù)量的小型專家。

DBRX擁有16個(gè)專家模型,每次選擇4個(gè)使用,而Mixtral和Grok-1則分別擁有8個(gè)專家模型,每次選擇2個(gè)。

這種設(shè)計(jì)使得DBRX提供了65倍可能的專家組合,極大地提高了模型質(zhì)量。

此外,DBRX還采用了旋轉(zhuǎn)位置編碼(RoPE)、門(mén)控線性單元(GLU)和分組查詢注意力(GQA)等技術(shù),以提高模型質(zhì)量。同時(shí),DBRX還使用了tiktoken存儲(chǔ)庫(kù)中提供的GPT-4分詞器。

在方法層面,DBRX模型(包括預(yù)訓(xùn)練數(shù)據(jù)、模型架構(gòu)和優(yōu)化策略)與上一代的MPT模型相當(dāng),但計(jì)算效率提高了近4倍。

三大核心能力表現(xiàn)突出

①經(jīng)過(guò)綜合評(píng)估,DBRX的“微調(diào)版”Instruct在多個(gè)基準(zhǔn)測(cè)試中表現(xiàn)卓越。

在Hugging Face Open LLM Leaderboard這一復(fù)合基準(zhǔn)測(cè)試中,DBRX Instruct以74.5%的得分榮登榜首,顯著領(lǐng)先于第二名Mixtral Instruct的72.7%。

同時(shí),在Databricks Model Gauntlet這一包含超過(guò)30項(xiàng)任務(wù)、橫跨六個(gè)領(lǐng)域的評(píng)估套件中,DBRX Instruct同樣以66.8%的得分拔得頭籌,較第二名Mixtral Instruct的60.7%有著明顯優(yōu)勢(shì)。

②DBRX Instruct在編程和數(shù)學(xué)相關(guān)任務(wù)上展現(xiàn)出了尤為突出的能力。

在HumanEval這一評(píng)估代碼質(zhì)量的任務(wù)中,其正確率達(dá)到了70.1%,比Grok-1高出約7個(gè)百分點(diǎn),比Mixtral Instruct高出約8個(gè)百分點(diǎn),并超越了所有被評(píng)估的LLaMA2-70B變體。

在GSM8k數(shù)學(xué)問(wèn)題解決測(cè)試中,DBRX Instruct同樣取得了最優(yōu)成績(jī)66.9%,超過(guò)了Grok-1、Mixtral Instruct以及其他LLaMA2-70B變體。

值得注意的是,盡管Grok-1的參數(shù)數(shù)量是DBRX Instruct的2.4倍,但在上述編程和數(shù)學(xué)任務(wù)上,DBRX Instruct仍能保持領(lǐng)先地位。

甚至在針對(duì)編程任務(wù)專門(mén)設(shè)計(jì)的CodeLLaMA-70B Instruct模型之上,DBRX Instruct在HumanEval上的表現(xiàn)依然出色。

③DBRX Instruct在多語(yǔ)言理解能力方面也表現(xiàn)出色。

在大規(guī)模多任務(wù)語(yǔ)言理解數(shù)據(jù)集(MMLU)上,DBRX Instruct繼續(xù)展示出頂級(jí)性能,得分高達(dá)73.7%,超過(guò)了本次比較的所有其他模型。

綜上所述,DBRX的“微調(diào)版”Instruct在多個(gè)基準(zhǔn)測(cè)試中均表現(xiàn)出色,尤其在編程、數(shù)學(xué)和多語(yǔ)言理解方面展現(xiàn)出了卓越的能力。

Databricks再次攪局,力爭(zhēng)市場(chǎng)破局

Databricks,源于加州大學(xué)伯克利分校的AMPLab項(xiàng)目,專注于研發(fā)基于Scala的開(kāi)源分布式計(jì)算框架Apache Spark,并首創(chuàng)了“湖倉(cāng)一體”(data Lakehouse)的概念。

2023年3月,該公司緊跟ChatGPT熱潮,推出了開(kāi)源語(yǔ)言模型dolly,并在后續(xù)2.0版本中提出了“首個(gè)真正開(kāi)放和商業(yè)可行的指令調(diào)優(yōu)LLM(大模型)”的口號(hào),這標(biāo)志著Databricks的“第二次行業(yè)革新”。

值得一提的是,Jonathan Frankle,曾是生成式AI初創(chuàng)公司MosaicML的首席科學(xué)家。

而Databricks在2023年6月以14億美元成功收購(gòu)了MosaicML,這一舉措促使Frankle辭去了哈佛大學(xué)教授的職務(wù),全身心投入到DBRX的研發(fā)中。

就在前些日子,馬斯克宣布了史上最大的開(kāi)源模型Grok-1的誕生,這一事件無(wú)疑引起了業(yè)界的廣泛關(guān)注。

Databricks之所以能在競(jìng)爭(zhēng)中脫穎而出,其關(guān)鍵在于公司的技術(shù)整合能力和專有數(shù)據(jù)。

這兩項(xiàng)核心優(yōu)勢(shì)將繼續(xù)推動(dòng)新的、更優(yōu)秀的模型變體的誕生。

DBRX團(tuán)隊(duì)擁有16名專家,并從中選擇了4名進(jìn)行模型開(kāi)發(fā),而Mixtral和Grok-1團(tuán)隊(duì)各有8名專家,選擇了2名。

這種選擇為DBRX提供了超過(guò)65倍的專家組合可能性,從而顯著提高了模型質(zhì)量。

DBRX在模型開(kāi)發(fā)中采用了旋轉(zhuǎn)位置編碼(RoPE)、門(mén)控線性單元(GLU)和分組查詢注意力(GQA)等技術(shù),并使用了tiktoken存儲(chǔ)庫(kù)中提供的GPT-4令牌化器(tokenizer)。

這些決策都是團(tuán)隊(duì)經(jīng)過(guò)深入評(píng)估和縮放實(shí)驗(yàn)后作出的明智選擇。

透露下一步有關(guān)開(kāi)源模型的計(jì)劃

①即將推出RAG工具,這一模式對(duì)于其發(fā)展具有重大意義。同時(shí),Databricks中已經(jīng)內(nèi)置了簡(jiǎn)潔高效的RAG方法。

接下來(lái),將致力于將DBRX模型打造成為RAG的最佳生成器模型,為用戶提供更為強(qiáng)大的支持。

②DBRX模型將在所有主流云環(huán)境產(chǎn)品,包括AWS、谷歌云(GCP)和Azure等平臺(tái)上進(jìn)行托管。

作為一款開(kāi)源模型,鼓勵(lì)用戶根據(jù)自身需求自由地使用它,以推動(dòng)業(yè)務(wù)的發(fā)展和創(chuàng)新。

③DBRX模型預(yù)計(jì)將通過(guò)Nvidia API Catalog進(jìn)行提供,并在Nvidia NIM推理微服務(wù)上獲得支持。

這將為用戶帶來(lái)更加穩(wěn)定和高效的推理體驗(yàn),進(jìn)一步推動(dòng)業(yè)務(wù)的增長(zhǎng)和拓展。

讓大模型廠商看到了變現(xiàn)的路徑

Databricks專注于協(xié)助企業(yè)構(gòu)建、訓(xùn)練和擴(kuò)展符合其特定需求的模型,此舉具有深遠(yuǎn)意義。

這支獨(dú)角獸團(tuán)隊(duì)高度重視企業(yè)的采納情況,因?yàn)檫@直接關(guān)系到他們的商業(yè)模式。

作為L(zhǎng)LM發(fā)布計(jì)劃的一部分,Databricks以開(kāi)放許可證的形式推出了兩個(gè)模型:DBRX Base和DBRX Instruct。

DBRX Base是一個(gè)預(yù)訓(xùn)練的基礎(chǔ)模型,而DBRX Instruct則是針對(duì)少量交互的微調(diào)版本。

值得一提的是,DBRX得到了Azure數(shù)據(jù)庫(kù)在AWS、Google Cloud和Microsoft Azure上的支持,這意味著企業(yè)可以輕松地下載模型并在任何他們選擇的圖形處理器(GPU)上運(yùn)行。

此外,企業(yè)還可以選擇訂閱DBRX和其他工具,如檢索增強(qiáng)生成(RAG),通過(guò)Databricks的Mosaic AI Model服務(wù)產(chǎn)品定制LLM。

Mosaic AI Model服務(wù)通過(guò)Foundation Model APIs與DBRX相連,使企業(yè)能夠從服務(wù)端點(diǎn)訪問(wèn)和查詢LLMs。這一功能為企業(yè)提供了更強(qiáng)大的定制能力和靈活性。

Foundation Model APIs提供兩種定價(jià)模式:按Tokens付費(fèi)和分配的吞吐量。

按Tokens付費(fèi)的定價(jià)是基于并發(fā)請(qǐng)求,而吞吐量則是按每小時(shí)每個(gè)GPU實(shí)例計(jì)費(fèi)。

兩種費(fèi)率,包括云實(shí)例成本,均從每個(gè)Databricks單位$0.070開(kāi)始。

同時(shí),Databricks還為不同的GPU配置提供了相應(yīng)的定價(jià)區(qū)間,以滿足企業(yè)在不同場(chǎng)景下的計(jì)算需求。

通過(guò)穩(wěn)健的商業(yè)模式和開(kāi)源大模型的結(jié)合,這也為企業(yè)提供了進(jìn)入AIGC領(lǐng)域的門(mén)票。

通過(guò)使用我們的平臺(tái),企業(yè)不僅可以降低使用自身企業(yè)數(shù)據(jù)開(kāi)發(fā)生成性AI用例的成本,而且不會(huì)受到封閉模型提供商(如OpenAI)對(duì)商業(yè)用途的限制。

結(jié)尾:

隨著2024年AI大模型的迅猛進(jìn)步,創(chuàng)新與突破呈現(xiàn)出指數(shù)級(jí)增長(zhǎng)。

例如,OpenAI Sora、stable diffusion3、stable diffusion3 Tubro、Grok-1和Claude 3等模型相繼發(fā)布并開(kāi)放使用。

隨著LLM社區(qū)的逐漸成熟,我們有理由相信,在不久的將來(lái),每個(gè)企業(yè)都將有能力在新興的生成式AI領(lǐng)域構(gòu)建專有的私有LLM模型,并充分發(fā)掘和利用企業(yè)私有數(shù)據(jù)的價(jià)值。

部分資料參考:機(jī)器之心:《開(kāi)源大模型王座再易主,1320億參數(shù)DBRX上線》,新智元:《全球最強(qiáng)開(kāi)源模型一夜易主,1320億參數(shù)推理飆升2倍》,CSDN:《Databricks 開(kāi)源 1320 億參數(shù)大模型強(qiáng)勢(shì)攪局,Grok 和 LLaMA 悉數(shù)落敗》,編程奇點(diǎn):《馬斯克剛開(kāi)源10天的Grok遭吊打,1320億參數(shù)DBRX上線》,開(kāi)源AI項(xiàng)目落地:《DBRX:全球最強(qiáng)開(kāi)源大模型易主》

       原文標(biāo)題 : AI芯天下丨熱點(diǎn)丨DBRX達(dá)1320億參數(shù),最強(qiáng)開(kāi)源模型易主

聲明: 本文由入駐維科號(hào)的作者撰寫(xiě),觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問(wèn)題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過(guò)于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無(wú)評(píng)論

暫無(wú)評(píng)論

人工智能 獵頭職位 更多
掃碼關(guān)注公眾號(hào)
OFweek人工智能網(wǎng)
獲取更多精彩內(nèi)容
文章糾錯(cuò)
x
*文字標(biāo)題:
*糾錯(cuò)內(nèi)容:
聯(lián)系郵箱:
*驗(yàn) 證 碼:

粵公網(wǎng)安備 44030502002758號(hào)