編者按:政府要服務(wù)社會(huì)公共產(chǎn)業(yè),適合建“綜合醫(yī)院”;企業(yè)要服務(wù)自身專(zhuān)項(xiàng)需求,適合建“專(zhuān)科醫(yī)院”。
隨著數(shù)字經(jīng)濟(jì)進(jìn)入新發(fā)展階段,算力已成為核心資源之一。據(jù)有關(guān)資料統(tǒng)計(jì),我國(guó)各類(lèi)算力中心總量超過(guò)46萬(wàn)個(gè),總面積逾1000萬(wàn)平米,且未來(lái)將保持一定概率的增長(zhǎng)。
然而,盡管算力這個(gè)詞在近年來(lái)很“火”,但其背后的含義,卻很少有人真正了解!八懔Α笔艿疥P(guān)注,但背后的技術(shù)領(lǐng)域依然小眾、認(rèn)知門(mén)檻高,“如果連算力概念都不了解,那么企業(yè)、政府在規(guī)劃算力中心時(shí)難免吃大虧,甚至出大事!
基于這個(gè)問(wèn)題,AI科技評(píng)論與某超算中心主任進(jìn)行了訪談,在本文中討論了算力中心建設(shè)的要點(diǎn),并分析該如何正確理解算力,以及厘清該領(lǐng)域經(jīng)常被誤會(huì)的地方。
1、對(duì)立統(tǒng)一
算力中心有多種,大致可分為數(shù)據(jù)中心、超算中心、智算中心等,而它們都可以用云的形式來(lái)提供服務(wù)。
其中數(shù)據(jù)中心在互聯(lián)網(wǎng)企業(yè)中常用到,用于處理數(shù)據(jù)密集、通訊密集的事務(wù)性任務(wù),比如手機(jī)app應(yīng)用的后臺(tái)數(shù)據(jù)數(shù)理。超算中心更偏重于科學(xué)計(jì)算等計(jì)算密集型的任務(wù)。最后,智算中心則應(yīng)用于特定的大規(guī)模AI任務(wù)。
超算和智算之間更容易被混淆,但要區(qū)分它們其實(shí)也很簡(jiǎn)單,“我們可以把超算看成綜合醫(yī)院,把智算看成專(zhuān)科醫(yī)院!本C合醫(yī)院、專(zhuān)科醫(yī)院都有其存在的價(jià)值,并在動(dòng)態(tài)意義上可以互相轉(zhuǎn)化,由此也暗示超算和智算的對(duì)立統(tǒng)一關(guān)系。
對(duì)立
“很多媒體對(duì)算力中心存在許多誤解,甚至都算不上是誤解,很多時(shí)候連基本概念都沒(méi)有搞清楚!
近期,某人工智能計(jì)算中心宣布建成投運(yùn),不少媒體報(bào)道指出該智算中心的算力規(guī)模達(dá)到1000P,“AI算力峰值性能相當(dāng)于5萬(wàn)臺(tái)高性能計(jì)算機(jī)。”
專(zhuān)家表示,媒體這種說(shuō)法并不專(zhuān)業(yè),就像說(shuō)飛機(jī)飛的比100座山還高!耙蛔降母叨瓤赡苁100米,可能是8848米。一臺(tái)高性能計(jì)算機(jī),可能有10個(gè)節(jié)點(diǎn),也可能有10000個(gè)節(jié)點(diǎn)!
另外,人們可能會(huì)認(rèn)為,該智能計(jì)算中心的算力已經(jīng)超越了曾獲得超算TOP500榜單第一的富岳(537PFLOPS)。
但實(shí)際上,超算采用“FLOPS”即每秒浮點(diǎn)運(yùn)算數(shù)為算力單位,而智能計(jì)算的算力單位一般會(huì)采用“OPS”即每秒操作次數(shù)為算力單位,兩者是完全不同的度量單位。
此外,智能計(jì)算的性能結(jié)果(單位OPS)通常是基于半精度及整型運(yùn)算測(cè)試(AI基準(zhǔn))得到的,超算的性能結(jié)果(單位FLOPS)則是基于雙精度、單精度浮點(diǎn)運(yùn)算測(cè)試(Linpack)得到的。
對(duì)于超算和智算之間性能的比較,專(zhuān)家持比較嚴(yán)苛的觀點(diǎn),其表示1000POPS性能可能相當(dāng)于0 PFLOPS,“這里面涉及到能與不能的問(wèn)題。具體還要看運(yùn)算精度,而運(yùn)算精度最終是影響到可執(zhí)行的任務(wù)類(lèi)型的。就好比,我們不能說(shuō)十個(gè)牙科診所相當(dāng)于一個(gè)綜合醫(yī)院!
計(jì)算機(jī)的精度類(lèi)型包括雙精度、單精度、半精度以及整數(shù)類(lèi)型等,隨著精度減小,其表示的數(shù)值范圍依次大幅度降低,同時(shí)對(duì)應(yīng)硬件能勝任的任務(wù)也越來(lái)越聚焦到特定領(lǐng)域。
注釋?zhuān)骸?00P雙精度性能超算】和【1000P半精度浮點(diǎn)性能智算】執(zhí)行任務(wù)對(duì)比
注釋?zhuān)翰煌瓤蓤?zhí)行任務(wù)對(duì)比
“在AI推理、AI訓(xùn)練、模擬這個(gè)維度上,芯片的應(yīng)用上限由其底層構(gòu)造所決定,即使采用軟件優(yōu)化也無(wú)法再往上提升!
此外,有些廠商還會(huì)模糊智能計(jì)算機(jī)的推理性能和訓(xùn)練性能,或者在同為FLOPS單位的情況下,掩蓋運(yùn)算精度細(xì)節(jié)!氨热缃诒幻襟w廣泛宣傳的聲稱(chēng)達(dá)到超算TOP500第五的國(guó)外超級(jí)計(jì)算機(jī),其實(shí)更接近于智能計(jì)算機(jī),它的性能數(shù)值其實(shí)也是基于低精度運(yùn)算得到的。”
統(tǒng)一
由于精度上的限制,使得智能計(jì)算機(jī)受限為專(zhuān)用算力,一般僅支持單個(gè)場(chǎng)景,而無(wú)法提供平臺(tái)性的服務(wù)。比如安防領(lǐng)域擁有海量視頻,智算中心可以只做一個(gè)任務(wù)即視頻處理,并且做10年乃至20年,它都能表現(xiàn)的很好!暗,讓智算中心去跑需要運(yùn)行數(shù)萬(wàn)不同類(lèi)型軟件的任務(wù),那就是勉為其難了!
因此,智算中心并不適用于公共服務(wù)型的算力中心,而更適用于企業(yè)。
超級(jí)計(jì)算機(jī)則是一種通用算力,更加擅長(zhǎng)高精度計(jì)算,可勝任行星模擬、新材料開(kāi)發(fā)、分子藥物設(shè)計(jì)、基因分析等科學(xué)計(jì)算任務(wù),以及能源、氣象、工程仿真、生物基因、智慧城市等。
當(dāng)然,超算的勝任任務(wù)還包括人工智能,我們可以深入到芯片層面來(lái)比較。如果底層芯片采用的是CPU+GPU,那么其既能打造成超算,也可以打造成智算。因?yàn)镚PU既能做雙精度運(yùn)算,從而通用性很好,可用于科學(xué)計(jì)算,也可用于AI的模擬、訓(xùn)練、推理。
而如果底層芯片采用的是CPU+專(zhuān)用芯片比如AI芯片,那么其只能打造成智算。因?yàn)锳I芯片無(wú)法做雙精度浮點(diǎn)運(yùn)算,雙精度浮點(diǎn)運(yùn)算大量涉及線性代數(shù)方程求解,“自然界的很多問(wèn)題,包括科學(xué)問(wèn)題、社會(huì)問(wèn)題等,最后都可轉(zhuǎn)化為線性代數(shù)方程求解問(wèn)題!
盡管總存在某一方向主導(dǎo)的局面,但專(zhuān)家認(rèn)為,我們?nèi)匀粦?yīng)該兩者兼顧,不能厚此薄彼。
超算和智算并不是互相排斥的存在,而是對(duì)立而統(tǒng)一的關(guān)系。也就是說(shuō),超算和智算應(yīng)該作為兩條路線分別發(fā)展,并在整體上協(xié)同,基于不同應(yīng)用、服務(wù)對(duì)象建立不同的算力中心。超算相對(duì)更適合用于公共算力服務(wù),智算更適合服務(wù)定向企業(yè)。
2降本增效
明確了算力中心多樣性的整體布局理念之后,接下來(lái)要考慮的,自然是在每一條路線上發(fā)揮最大效用,即降本增效——提升算力中心的有效性。從方法論上,可以簡(jiǎn)單總結(jié)為“花更少的錢(qián),做更多的事!
降本
造價(jià)越高的算力中心,不代表性能同等地提高。以粵港澳大灣區(qū)的兩家算力約等的計(jì)算中心項(xiàng)目為例,項(xiàng)目A的整體算力為1170POPS,造價(jià)約為5億元;而使用同等精度芯片的項(xiàng)目B整體算力為2000POPS,性能略超前者,造價(jià)卻達(dá)到了驚人的近30億元。換算下來(lái),兩者每?jī)|元算力分別為234POPS、66.7POPS,相差350%。
也就是說(shuō),不同的算力中心在性價(jià)比上可能差別特別大。算力中心由于市場(chǎng)化不足,政府獲得的信息不對(duì)稱(chēng),使得造價(jià)不透明,一定程度造成了公共財(cái)政資源的浪費(fèi)。
此外,將性能和任務(wù)相匹配,即“因地制宜”,仍然是最省錢(qián)的方式。除了上述提到了智算更專(zhuān)用,超算更通用以外,反過(guò)來(lái)看,不同行業(yè)適合的算力中心類(lèi)型也是不同的,主要基于兩個(gè)維度,即通用和性能。
比如618、雙11等購(gòu)物節(jié)涉及的任務(wù)類(lèi)型非常多,更適合用數(shù)據(jù)中心來(lái)處理;而像氣候模擬、藥物篩選等定義相對(duì)單一的任務(wù)則涉及大量的高精度計(jì)算,則必須用超級(jí)計(jì)算機(jī)來(lái)處理;在互聯(lián)網(wǎng)大數(shù)據(jù)、人工智能應(yīng)用場(chǎng)景下,超級(jí)計(jì)算機(jī)和智能計(jì)算機(jī)均能勝任。
智能計(jì)算機(jī)確實(shí)在向前發(fā)展,但專(zhuān)家再次強(qiáng)調(diào),智能計(jì)算機(jī)所謂速度和能耗上的優(yōu)勢(shì)只是理論上的,而在實(shí)際應(yīng)用中,智能計(jì)算機(jī)的表現(xiàn)不一定比超級(jí)計(jì)算機(jī)好。這背后的原因,即是“生態(tài)”——如何做更多的事。
增效
“由于專(zhuān)用芯片的市場(chǎng)占有率低,生態(tài)支持上不如通用芯片那么完善,因此其在實(shí)際運(yùn)行中往往在性能、速度、功耗上不一定能超越通用芯片。智算當(dāng)前面臨的一大困難是生態(tài)建設(shè),普及程度還很差!
專(zhuān)家主要強(qiáng)調(diào)的是理論和實(shí)踐的差距,而媒體宣傳中可能瞄準(zhǔn)的是另一些層面。生態(tài)一般更注重通用性和平臺(tái)性層面,但最好不要籠統(tǒng)地對(duì)任何一種計(jì)算類(lèi)型談?wù)撋鷳B(tài),因?yàn)樗^通用性和平臺(tái)性也是相對(duì)的。
“如今很多媒體經(jīng)常說(shuō)出諸如‘智算中心生態(tài)不行’的話語(yǔ),這種表述既對(duì),也不對(duì)。首先智能計(jì)算確實(shí)支持的應(yīng)用很少,因此說(shuō)它‘生態(tài)不行’是可以的。雖然智能計(jì)算只能用于特定AI應(yīng)用,但如果在個(gè)別應(yīng)用上達(dá)到一定的通用性,也能構(gòu)成一種小生態(tài)!
3求同存異
回顧歷史,計(jì)算機(jī)的發(fā)展主要遵循兩條路線,即專(zhuān)用和通用,并且這兩個(gè)趨勢(shì)經(jīng)常交替出現(xiàn)。“在某一個(gè)時(shí)刻,我們可能更追求計(jì)算機(jī)的多任務(wù)即通用性能,直到碰到瓶頸,然后我們就會(huì)開(kāi)始轉(zhuǎn)向另一個(gè)方向,即犧牲一定的多樣性,而追求某一專(zhuān)項(xiàng)任務(wù)的高性能。性能強(qiáng)、效率高、應(yīng)用廣泛(通用)一直是超級(jí)計(jì)算機(jī)的追求,而專(zhuān)用芯片也在不斷地嘗試拓寬自己的能力邊界!
因此,盡管智算的發(fā)展目前尚屬幼稚,但正如超算就像綜合醫(yī)院、智算就像專(zhuān)科醫(yī)院,“超算、智算兩者各有其適用的領(lǐng)域,應(yīng)該求同存異。”
近年來(lái)算力這個(gè)詞不斷地被大眾所提及,在新基建的大背景下,這體現(xiàn)了社會(huì)對(duì)算力的真實(shí)需求。
“但是,對(duì)于從業(yè)人員而言,最重要的還是腳踏實(shí)地、一步一步地把基礎(chǔ)性工作做好,讓算力真正成為競(jìng)爭(zhēng)力和生產(chǎn)力。”