日韩精品无码久久久久久,国产精品视频99r

大模型路徑之爭：理想與現(xiàn)實(shí)

2024-03-21 15:28

異觀財(cái)經(jīng)

關(guān)注

出品 | 異觀財(cái)經(jīng)

作者 | 炫夜白雪

英偉達(dá)創(chuàng)始人黃仁勛，為正在舉辦的GTC大會甩出了“王炸”——新一代芯片，Blackwell GPU，包含2080億個(gè)晶體管，支持多達(dá)10萬億個(gè)參數(shù)的AI模型。

在一連串讓人看得目眩神迷的產(chǎn)品中，我們簡單地總結(jié)：這一次，英偉達(dá)做了什么？

這一次，英偉達(dá)做了什么？

第一，極大地提升了算力，并降低了能耗和成本。

“我們需要另一種方式來進(jìn)行計(jì)算，這樣我們才能夠繼續(xù)擴(kuò)展，這樣我們才能夠繼續(xù)降低計(jì)算成本，這樣我們才能夠繼續(xù)進(jìn)行越來越多的計(jì)算。”

“我們需要更大的GPU，如果不能更大，就把更多GPU組合在一起，變成更大的虛擬GPU。”

以上，是黃仁勛在現(xiàn)場演講中的話。他再次回憶起，2016年贈送給OpenAI的DGX-1，那也是史上第一次8塊GPU連在一起組成一臺超級計(jì)算機(jī)。

當(dāng)時(shí)，DGX1 算力僅0.17 Peataflop（1 Petaflop等于每秒鐘進(jìn)行1千萬億次的數(shù)學(xué)運(yùn)算），而今天英偉達(dá)推出的 DGX Grace-Blackwell GB200 已經(jīng)超過1 Exaflop（百億億次）的算力。

8年時(shí)間，AI算力增長1000倍。

相比上一代H100 Tensor核心的GPU，最新的Blackwell GB200 GPU可以為大語言模型（LLM）推理負(fù)載提供30倍的性能提升，而成本和能耗則降低25倍。

第二，算力的提升，意味著萬億級參數(shù)模型變得更為現(xiàn)實(shí)。

在技術(shù)支持下，一個(gè)GB200 NVL72最高支持27萬億參數(shù)的模型。而據(jù)泄露數(shù)據(jù)，GPT-4也不過只有1.7萬億參數(shù)。

萬億參數(shù)模型有許多優(yōu)勢，比如進(jìn)行自然語言處理任務(wù)，如翻譯、問答、抽象和流暢性；掌握更長期的背景和對話能力；結(jié)合語言、視覺和語音的多模態(tài)應(yīng)用；進(jìn)行創(chuàng)意應(yīng)用程序，例如講故事、詩歌生成和代碼生成；進(jìn)行科學(xué)應(yīng)用，例如蛋白質(zhì)折疊預(yù)測和藥物發(fā)現(xiàn)；實(shí)現(xiàn)個(gè)性化，能夠形成一致的個(gè)性并記住用戶上下文。

第三，英偉達(dá)向軟硬一體化的平臺發(fā)展更進(jìn)一步。

英偉達(dá)推出了全新的AI推理服務(wù)器NIM（NVIDIA INFERENCE MICROSERVICE），讓所有人都可以通過這一形式自定義AI模型和應(yīng)用。

以英偉達(dá)NIM和CUDA作為中間樞紐，連接了百萬開發(fā)者與上億GPU芯片。“成熟的企業(yè)平臺坐擁一座數(shù)據(jù)金礦，這些數(shù)據(jù)可以轉(zhuǎn)化為生成性AI副駕駛。”黃仁勛表示，“這些容器化的AI微服務(wù)是我們與合作伙伴生態(tài)系統(tǒng)共同創(chuàng)造的，它們是各行各業(yè)企業(yè)成為AI公司的構(gòu)建模塊。”

在醫(yī)療場景上，英偉達(dá)此次推出了基于醫(yī)療場景的25個(gè)新的微服務(wù)，幫助全球的醫(yī)療保健公司可以基于生成式 AI進(jìn)行效率提升。英偉達(dá)舉了一個(gè)例子，與在CPU上運(yùn)行相比，英偉達(dá)的微服務(wù)能夠?qū)⒒蚪M分析工作流程中的變異調(diào)用速度提高了50倍以上。目前，全球有接近50家應(yīng)用程序提供商正在使用英偉達(dá)的醫(yī)療微服務(wù)。對于醫(yī)療行業(yè)公司來說，他們可以基于這些微服務(wù)，篩選數(shù)萬億種藥物化合物，收集更多的患者數(shù)據(jù)以幫助早期疾病檢測，或者實(shí)施更智能的數(shù)字助理等等。

接下來，中國大模型路往何方？

過去一年，英偉達(dá)的股價(jià)從200多美元，上漲至現(xiàn)在的近900美元，市值超過2.2萬億美元。這一家公司的產(chǎn)品迭代速度，對人工智能的發(fā)展產(chǎn)生了歷史級的影響。影響力也轉(zhuǎn)化為資本市場的認(rèn)可和回報(bào)。

毫無疑問，這是一個(gè)贏家通吃的行業(yè)。根據(jù)富國銀行統(tǒng)計(jì)，英偉達(dá)目前在數(shù)據(jù)中心AI市場擁有98%的市場份額，而AMD僅有1.2%的市場份額，英特爾則只有不到1%。

英偉達(dá)的鮮花著錦，烈火烹油，也讓我們更為深入地思考中國大模型的現(xiàn)狀和未來。2023年上半年，因?yàn)镃hatGPT的橫空出世，中國大廠與創(chuàng)業(yè)公司紛紛投身大模型，一時(shí)引發(fā)“百模大戰(zhàn)”。這又過了大半年時(shí)間，中國大模型相關(guān)的投資人和從業(yè)者，又有了市場路線與技術(shù)路線之爭：

一邊是以月之暗面創(chuàng)始人楊植麟為代表的技術(shù)路線，他們大多技術(shù)出身，思維偏硅谷，對技術(shù)有信仰，信仰AGI（人工通用智能）、信仰scaling law（規(guī)模定律），更推崇前輩OpenAI的路徑，認(rèn)為隨著模型能力躍升、模型成本降低，會解鎖豐富的應(yīng)用。

楊植麟在接受采訪的時(shí)候說：

“AI不是我在接下來一兩年找到什么PMF（Product/Market Fit，產(chǎn)品/市場匹配），而是接下來十到二十年如何改變世界——這是兩種不同思維。

我們是堅(jiān)定的長期主義者。當(dāng)你實(shí)現(xiàn)AGI或更強(qiáng)智能，今天的一切會被改寫。PMF固然重要，但如果著急找PMF，你很可能又被降維打擊。降維打擊發(fā)生過太多次。以前很多人做客服、對話系統(tǒng)，做slot filling（槽填充），有些規(guī)模不錯(cuò)的公司。但是，全是降維打擊了，很難受。

它不是說不成立。假設(shè)你今天找到一個(gè)場景，用現(xiàn)在的技術(shù)能力，且從0到1增量價(jià)值巨大，從1到n空間又沒那么大，這種場景OK。Midjourney就是，或者做文案生成，相對簡單一點(diǎn)的任務(wù)，從0到1效果又很明顯。這種是只關(guān)注應(yīng)用的機(jī)會。但是，最大機(jī)會不在這。你的目的假設(shè)是商業(yè)化，你不可能脫離AGI去思考。我現(xiàn)在只做應(yīng)用，那好，可能過一年你就被碾壓了。”

另一邊則是以周鴻祎、朱嘯虎為代表的市場路線，他們更加本土化，信奉尖端的科技必須經(jīng)過開源、共創(chuàng)才能實(shí)現(xiàn)最大化的邊際效益，認(rèn)為需將充足的AI能力投入可以快速變現(xiàn)的商業(yè)場景中進(jìn)化，同時(shí)用國內(nèi)市場特有的海量數(shù)據(jù)和應(yīng)用場景構(gòu)筑壁壘。

金沙江創(chuàng)投董事總經(jīng)理朱嘯虎接受采訪的時(shí)候說：

“說實(shí)話在AIGC這波，中美差距還是非常大。美國是在底層大模型，投入越來越大，像OpenAI說十萬張GPU卡連在一起。在中國是不可能的。

美國你看AI的應(yīng)用創(chuàng)新，說實(shí)話只有兩條路，一條要么非常、非常薄，因?yàn)榈讓哟竽Ｐ吞珡?qiáng)大了，所以上面叫套殼應(yīng)用。另一層是看上去很偉大，但肯定走不通的，像Pika。這種目標(biāo)很偉大，AIGC生成視頻、電影。但這條路可能在幾年之內(nèi)都看不到走通的可能性。

中國反而相反，中國在“當(dāng)中”的多一點(diǎn)——底層大模型不夠強(qiáng)大，我在上面加的東西可以比較多。我在上面做增值服務(wù)，為客戶馬上能變現(xiàn)。這種在中國有機(jī)會。美國這種幾乎沒有，因?yàn)榈讓哟竽Ｐ吞珡?qiáng)大了，上面創(chuàng)業(yè)公司能做的很少。中國套殼，現(xiàn)在肯定沒人看的。在中國也套不了殼，因?yàn)榇竽Ｐ捅旧砉δ芤簿湍菢�，必須在上面有value add。

（中國）整出200多個(gè)大模型有啥意義呢？沒啥意義。但在應(yīng)用層有很多創(chuàng)新。中國在數(shù)據(jù)和應(yīng)用場景上是遠(yuǎn)遠(yuǎn)超過美國的。”

持有相似觀點(diǎn)的有李彥宏、周鴻祎、王小川等一干正在大模型之路上奮進(jìn)的大佬們。

李彥宏說：“百模大戰(zhàn)是對社會資源很大的浪費(fèi)。不應(yīng)該去卷大模型，而應(yīng)該去卷應(yīng)用，只有應(yīng)用才真正直接創(chuàng)造價(jià)值。做出上億用戶使用的應(yīng)用時(shí)，大模型的真正價(jià)值才得到體現(xiàn)。

大模型這么火，它到底能產(chǎn)生多少實(shí)際的價(jià)值，過去一年我最主要就在思考這個(gè)問題，ChatGPT大火的時(shí)候，別人問我怎么看，我當(dāng)時(shí)就說，現(xiàn)在這個(gè)火還有點(diǎn)早，真正什么時(shí)候我們能夠做出上億用戶都在使用的應(yīng)用的時(shí)候，才是它真正的價(jià)值得到了體現(xiàn)。”

周鴻祎還指出：“選模型已經(jīng)不是問題，而且都免費(fèi)。去年大家都飆著OpenAI，都想搞通用大模型，想壟斷全世界。但2024年的目標(biāo)變了，是大模型如何找到自己的應(yīng)用場景，而最大的應(yīng)用場景就是跟各行各業(yè)結(jié)合，因?yàn)楹透餍懈鳂I(yè)結(jié)合才能帶來工業(yè)革命。”

他還說：“面向傳統(tǒng)的ToB、ToG的市場，是大機(jī)會。做企業(yè)級大模型，在企業(yè)內(nèi)部做私有化部署，是中國大部分企業(yè)的需要。要選擇跟企業(yè)業(yè)務(wù)深度結(jié)合的場景，也就避開了跟通用大模型的直接競爭。2024年是人工大模型的場景之年，如果找不到場景，光是在做大模型，有點(diǎn)像拿著錘子找釘子，如果找不到釘子，這個(gè)錘子是沒有用的。”

王小川認(rèn)為，大模型開發(fā)需要強(qiáng)大的算力、財(cái)力和智力支持，所以“未來的兩年時(shí)間內(nèi)，更多的是加入一家（大模型）公司，能夠獲得平臺級的支持，這樣做超級應(yīng)用成功的概率要大很多。”

他認(rèn)為，新進(jìn)入企服行業(yè)的創(chuàng)業(yè)者還有兩個(gè)機(jī)會：一是借著大玩家轉(zhuǎn)向困難的機(jī)會，快速反應(yīng)推出它們沒做到的新產(chǎn)品形態(tài)；二是直接交付最終服務(wù)，比如呼叫中心就不要讓人家用你的軟件，而是直接讓話務(wù)員下崗。

二者對技術(shù)判斷的一個(gè)根本分歧是，開源模型會不會有一天，縮小甚至拉平與閉源模型的差距？技術(shù)路線的觀點(diǎn)是，絕對不會，差距只會更大。市場路線的觀點(diǎn)是，一定會，那意味著你今天做閉源只會處境尷尬——世界觀的迥異，讓雙方對自我的判斷都深信不疑。

朱嘯虎就直接發(fā)問：“GPT-4你要不要投入做科研？你做GPT-4科研至少砸四五千萬美金。關(guān)鍵是萬一你砸了四五千萬美金做出來，別人開源了呢？你不是全白砸了？這個(gè)是很扎心的問題�，F(xiàn)在中國大部分公司，有幾個(gè)敢真的砸錢去研發(fā)GPT-4的？”

以終為始，我們的判斷是什么？

從投資角度來看，預(yù)判大模型的終局是什么樣的，才能有助于我們?nèi)ニ伎际忻嫔系哪男┕局档每春�。從電商平臺大戰(zhàn)一路看過來（有誰還記得想做平臺最后一地雞毛的凡客嗎？），在科技賽道，絕大多數(shù)時(shí)候轟轟烈烈的“百云大戰(zhàn)”“千團(tuán)大戰(zhàn)”，99%玩家是黯然退出，只剩下贏家通吃。

縱觀這些年的贏家通吃賽道，基本可以用兩個(gè)詞概括：新平臺、新基建。如何理解呢？通常這類玩家，為一個(gè)產(chǎn)業(yè)提供了新的平臺，通過技術(shù)變革的方式建立起產(chǎn)業(yè)新的基礎(chǔ)設(shè)施——類似高速公路、水電氣等基建，讓原有的產(chǎn)業(yè)鏈參與者能夠加入到新平臺來，享有技術(shù)變革的紅利。

什么是大模型？第一，顧名思義是規(guī)模大，網(wǎng)絡(luò)參數(shù)至少要達(dá)到百億規(guī)模（現(xiàn)在英偉達(dá)甚至解鎖了萬億規(guī)模的算力）；第二，通用性，是指不限于專門問題或領(lǐng)域；第三，涌現(xiàn)性，即產(chǎn)生預(yù)料之外的新能力。大模型的大規(guī)模和通用性，決定了其將是具備普適性的“新平臺、新基建”，其從一個(gè)行業(yè)遷移到另一個(gè)行業(yè)的應(yīng)用場景時(shí)，成本低，易遷移。

可以斷言，放在大模型這一賽道，依然將是贏家通吃的終局。

那么，現(xiàn)在“百模大戰(zhàn)”的玩家里，誰將笑到最后？大體來分，目前大模型的玩家有兩類，一類是大廠拉起的團(tuán)隊(duì)，另一類是創(chuàng)業(yè)公司。這里可以有把握地說，在這個(gè)百模大戰(zhàn)中，大廠優(yōu)先。

我們可以參考另一個(gè)行業(yè)云計(jì)算的發(fā)展走向。當(dāng)年云計(jì)算興起的時(shí)候，國內(nèi)也出來很多創(chuàng)業(yè)公司玩家，但最終市場份額集中于大公司。根據(jù)IDC發(fā)布的2022年全球云計(jì)算IaaS市場追蹤數(shù)據(jù)來看，市場份額TOP10玩家都是中美的大公司，包括美國的亞馬遜、谷歌、微軟、IBM，中國的阿里、華為、騰訊、百度等。

后面我們會進(jìn)一步分析。不過這里先看看制約大模型的三個(gè)要素：數(shù)據(jù)、算力和算法。

先說數(shù)據(jù)。

數(shù)據(jù)是大模型發(fā)展的壓艙石，除了互聯(lián)網(wǎng)、物聯(lián)網(wǎng)數(shù)據(jù)之外，老百姓生活生產(chǎn)中產(chǎn)生的數(shù)據(jù)都是未來大模型要提升智能水平的必要數(shù)據(jù)源。目前，數(shù)據(jù)壁壘是真實(shí)存在的問題。高質(zhì)量的中文語料數(shù)據(jù)對于創(chuàng)業(yè)公司來說是個(gè)很大的挑戰(zhàn)，數(shù)據(jù)的積累需要時(shí)間和經(jīng)驗(yàn)。對于那些常年累月通過搜索等多個(gè)互聯(lián)網(wǎng)、物聯(lián)網(wǎng)應(yīng)用積累起數(shù)據(jù)的大廠來說，可以說一開始就領(lǐng)先了至少幾個(gè)身位。

給AI喂下什么質(zhì)量的數(shù)據(jù)，才能訓(xùn)練和迭代出什么水平的AI。

目前國內(nèi)“百模大戰(zhàn)”中諸多大模型開發(fā)者，是基于Meta開源的LLaMA等一系列開源社區(qū)的基礎(chǔ)代碼，來進(jìn)行二次開發(fā)的。其能力差異主要由語料庫差異和少量微調(diào)等結(jié)合而成。

再說算力。

通用大模型需要24×7連續(xù)訓(xùn)練，調(diào)度多個(gè)算力中心、協(xié)調(diào)資源，以云的方式提供智能服務(wù)，這對算力有很大的需求。隨著參與大模型訓(xùn)練的企業(yè)越來越多，用來訓(xùn)練大模型的數(shù)據(jù)量越來越大，對推理的要求也越來越高，大模型的應(yīng)用會越來越廣。這就意味著，大模型公司必須擁有穩(wěn)定的、靠譜的、能保障安全運(yùn)轉(zhuǎn)的算力。這顯然利于在云計(jì)算深耕布局的大廠。

當(dāng)年云計(jì)算創(chuàng)業(yè)公司，面臨大廠的夾擊，窄縫求生，專攻一個(gè)垂直行業(yè)的云計(jì)算市場——比如游戲行業(yè)。但是，游戲行業(yè)遭遇監(jiān)管重創(chuàng)的時(shí)候，云計(jì)算需求也大大降低，這導(dǎo)致該云計(jì)算創(chuàng)業(yè)公司的業(yè)務(wù)不穩(wěn)定，反過來又影響使用該家公司服務(wù)的客戶。

這也是為什么大模型和云計(jì)算同樣是贏家通吃的原因之一——大玩家能夠提供更為穩(wěn)定、可靠的服務(wù)，成為客戶的優(yōu)先選擇。

最后說算法。

大模型最底層的競爭力來自算法。算法需要龐大的高級人才和長期積累。

為什么現(xiàn)在看起來有很多的公司做大模型呢?因?yàn)楝F(xiàn)在有開源的大模型和很多公開的論文可供參考，所以起步上會簡單很多。但要做好大模型的門檻還是高的，像現(xiàn)在的GPT-4沒有公開后續(xù)技術(shù)細(xì)節(jié)，國內(nèi)很多大模型就很難繼續(xù)發(fā)展。

越多的應(yīng)用場景，能形成越多的反饋，從而對模型進(jìn)行更好的調(diào)整；而模型也因此產(chǎn)生更多的經(jīng)濟(jì)價(jià)值，可獲得更多的資金投入，反哺自身。

需要指出的是，大模型高昂的訓(xùn)練成本和研發(fā)投入，讓眾多入局者望而生畏。有企業(yè)家斷言，每年5000萬到1億美元的花費(fèi)，只是千億級大模型訓(xùn)練的入場券。某個(gè)創(chuàng)業(yè)者高調(diào)宣布投資5000萬美元入局大模型時(shí)，就有分析師發(fā)朋友圈直言說：“5000萬美元夠干什么的？大模型訓(xùn)練一次就花500萬美元，訓(xùn)練10次？”四個(gè)月之后，該創(chuàng)業(yè)公司被收購，出局。

當(dāng)年共享單車也是百團(tuán)大戰(zhàn)，打得頭破血流，結(jié)果笑到最后的是美團(tuán)。無他，資金充足。在以年計(jì)、甚至以十年計(jì)的競爭中，這種重資本重研發(fā)的賽道，毫無疑問是利于大公司的。

這是一場漫長的、看不到終點(diǎn)的長跑，競爭的韌性將左右最后的結(jié)果。

以贏家通吃的終局為前提下，我們判斷是，在幾家通用大模型的基礎(chǔ)上，將有多個(gè)領(lǐng)域的垂直大模型。龍頭企業(yè)研發(fā)通用+中小企業(yè)研發(fā)應(yīng)用，這種模式成為破局關(guān)鍵。

在B端領(lǐng)域，營銷、客服、數(shù)據(jù)分析、財(cái)務(wù)、人力等各個(gè)業(yè)務(wù)領(lǐng)域的企業(yè)，很多都在全速接入大模型。從目前的進(jìn)步來看，雖然還存在各種工程上的問題，但效果是實(shí)實(shí)在在的，的確有很大的潛力變革原來的整個(gè)產(chǎn)品和業(yè)務(wù)體系。

大型支付公司Klarna披露，它的AI客服現(xiàn)在已經(jīng)能勝任700名員工的工作。這個(gè)AI客服由OpenAI提供支持，處理客戶的各種咨詢，支持多語言，能夠直接處理退款和退貨的請求。Klarna表示，在短短一個(gè)月內(nèi)，AI助手就完成了700名全職客服的工作。

到目前為止，它已經(jīng)進(jìn)行了230萬次對話，占公司所有客戶服務(wù)對話的三分之二。它的客戶滿意度得分與人工客服「不相上下」。而且，它在解決客戶請求方面更準(zhǔn)確、更快速。解決請求的平均時(shí)間從11分鐘降至2分鐘。

“場景優(yōu)先，數(shù)據(jù)為王”，則將是提供服務(wù)的大模型應(yīng)用公司的核心競爭力。

原文標(biāo)題 : 異觀深度|大模型路徑之爭：理想與現(xiàn)實(shí)