谷歌內(nèi)部深度揭秘TPU3.0技術(shù)
作為世界領(lǐng)先的技術(shù)領(lǐng)先公司之一,谷歌推出了高速定制機(jī)器學(xué)習(xí)芯片Tensor Processing Units(TPU),從而提高了標(biāo)準(zhǔn)。這些芯片最初是在2016年5月由該公司進(jìn)行的 I/O 開發(fā)者大會(huì)上推出的。
但谷歌對(duì)TPU的了解并不多,原因很明顯。然而,該公司最近發(fā)布了一篇文章,其中包含對(duì)TPU的深入分析。您可以閱讀該論文以獲得詳細(xì)摘要。在這篇博客中,我們將向您展示Google揭示的芯片的主要亮點(diǎn)。
什么是TPU?
Tensor Processing Units或TPU是由Google設(shè)計(jì)的定制機(jī)器學(xué)習(xí)芯片,用于成功執(zhí)行其常規(guī)機(jī)器學(xué)習(xí)工作負(fù)載。谷歌現(xiàn)在正致力于實(shí)施這些TPU,而不是使用CPU,GPU和兩者的組合,據(jù)稱這些TPU比標(biāo)準(zhǔn)CPU和GPU快15-30倍。此外,在功耗方面,這些芯片的TeraOps /瓦特高出30到80倍。
發(fā)展歷史
谷歌透露,該公司并不知道公司的額外硬件資源可以像TPU一樣有用和強(qiáng)大。早在2006年,該公司就開始尋找新的方法來有效利用其過多的硬件資源,包括GPU,F(xiàn)PGA芯片和ASIC。在未來幾年內(nèi),Google Datacenters進(jìn)行了大量實(shí)驗(yàn)。但是,主要的轉(zhuǎn)變發(fā)生在2013年,當(dāng)時(shí)DNN越來越受歡迎,并且在未來幾年它應(yīng)該會(huì)更大。
谷歌推斷,如果發(fā)生這種情況,公司可用的硬件資源將不足以滿足增強(qiáng)的計(jì)算要求。就在那時(shí),公司開始著手一個(gè)高優(yōu)先級(jí)項(xiàng)目,設(shè)計(jì)一系列定制ASIC芯片,以更低的功耗和更快的速度處理更多的任務(wù)。這些定制ASIC芯片被谷歌稱為“Tensor Processing Units”。
TPU芯片旨在用于處理其內(nèi)部操作,以便通過先進(jìn)的機(jī)器學(xué)習(xí)算法為用戶改進(jìn)其云平臺(tái)。雖然谷歌目前不太可能在其自己的云平臺(tái)之外推出TPU,但它確實(shí)展示了通向世界的道路并為新發(fā)明鋪平了道路。
TPU 3.0與Edge TPU
2016年5月的谷歌I/O大會(huì),谷歌首次公布了自主設(shè)計(jì)的TPU,2017年谷歌I/O大會(huì),谷歌宣布正式推出第二代TPU處理器,在今年的Google I/0 2018大會(huì)上,谷歌發(fā)布了新一代TPU處理器——TPU 3.0。TPU 3.0的性能相比目前的TPU 2.0有8倍提升。
之后谷歌又發(fā)布了 Edge TPU 芯片搶攻邊緣計(jì)算市場。雖然都是 TPU,但邊緣計(jì)算用的版本與訓(xùn)練機(jī)器學(xué)習(xí)的 Cloud TPU 不同,是專門用來處理AI預(yù)測部分的微型芯片。Edge TPU可以自己運(yùn)行計(jì)算,而不需要與多臺(tái)強(qiáng)大計(jì)算機(jī)相連,因此應(yīng)用程序可以更快、更可靠地工作。它們可以在傳感器或網(wǎng)關(guān)設(shè)備中與標(biāo)準(zhǔn)芯片或微控制器共同處理AI工作。
Google在I/O大會(huì)上發(fā)布了TPU3,雖然目前詳細(xì)信息不多,但下面幾點(diǎn)還是值得討論:8倍性能;快速迭代;云服務(wù)和Benchmark。TPU3到底哪里厲害?
一個(gè)TPU3 pod的總處理能力100 PFLOPS是TPU2 pod的8倍。從下圖我們可以看一下TPU3 pod和TPU2 pod的對(duì)比。
TPU2的一個(gè)pod包括4個(gè)rack,兩個(gè)CPU rack(左右兩邊),兩個(gè)TPU rack(中間兩個(gè))。每個(gè)rack有32個(gè)computing unit (板卡),每個(gè)TPU板卡有4顆TPU芯片。因此一個(gè)pod總共有64 x 4顆TPU2芯片。每顆TPU2芯片的處理能力是45TFLOPS,因此一個(gè)pod總的處理能力是45 x 4 x 64 = 11.5 PFLOPS。
對(duì)比來看,TPU3的板卡仍然包括4顆芯片。但目測TPU3 pod的rack數(shù)量和板卡的密度(這個(gè)看的不是很清楚)和TPU2相比都增加了一倍。因此,一個(gè)pod中的TPU3芯片的數(shù)量應(yīng)該是之前4倍。如果pod的總處理能力是TPU2的8倍,那么TPU3單芯片的處理能力則為TPU2的2倍。
根據(jù)Google的說法,這次他們第一次在Data center采用水冷的散熱方式,這可能和芯片功耗以及板卡密度增加有關(guān)系。
總得來說,如上圖所描述(來自Google I/O大會(huì)的talk:Effective Machine Learning with Google TPU,可以在YouTube上搜索Google io 18 stage 8觀看),TPU3實(shí)現(xiàn)的超過100 PFLOPS的處理能力是來自“新的芯片架構(gòu)和大規(guī)模系統(tǒng)”。
快速迭代
從去年I/O大會(huì)發(fā)布TPU2到今天不過一年時(shí)間,Google的芯片迭代速度還是非常驚人的。“為什么Google能夠?qū)崿F(xiàn)這樣的快速迭代?”這也是一個(gè)非常值得探討的話題。我先簡單談幾點(diǎn)個(gè)人看法:
第一,TPU是一個(gè)Domain-specific Architecture,定位準(zhǔn)確,架構(gòu)簡單,容易擴(kuò)展。相比之下,傳統(tǒng)的通用處理器必須考慮靈活性和兼容性,有太重的包袱。當(dāng)然,TPU這種特點(diǎn)也決定它只能用于有限的應(yīng)用場景,可能只有Google的體量以及云服務(wù)能夠所提供的應(yīng)用需求才能充分利用TPU這種專用芯片,這一點(diǎn)是得天獨(dú)厚的。這也是目前幾乎所有科技巨頭都開始自研芯片的一個(gè)基本考量。而傳統(tǒng)的芯片廠商在這一點(diǎn)上就有些尷尬了。
第二,Google的軟件和系統(tǒng)能力超強(qiáng),TPU以Cloud service出現(xiàn),提高給客戶的是整體服務(wù)。芯片硬件可做的tradeoff空間比較大,芯片本身的弱點(diǎn)可以在系統(tǒng)層面彌補(bǔ)。從目前得到的信息分析的,TPU3的處理能力是TPU2的8倍,其中芯片換代的貢獻(xiàn)只有2倍,大部分改進(jìn)在系統(tǒng)層面。另一方面,目前芯片開發(fā)離不開相關(guān)軟件工具,Google的軟件能力和生態(tài)也是其能夠?qū)崿F(xiàn)芯片快速迭代的一個(gè)重要因素。
第三,錢很重要。Google不差錢,在芯片實(shí)現(xiàn)上可以通過花錢換取時(shí)間?偟脕碚f,Google TPU的意義可能遠(yuǎn)遠(yuǎn)超過芯片本身。它背后的芯片設(shè)計(jì)邏輯,實(shí)現(xiàn)方法,應(yīng)用模式和生態(tài)環(huán)境,相較傳統(tǒng)芯片開發(fā)有很大區(qū)別,也許會(huì)成為趨勢。
Google在發(fā)布TPU3的時(shí)候同時(shí)提到了新的云服務(wù),在之前的Cloud TPU基礎(chǔ)上,今年晚些時(shí)候還會(huì)發(fā)布Cloud TPU pod,可以看出TPU對(duì)于Goolge的云端戰(zhàn)略的重要意義。
有意思的是,在Google的talk中強(qiáng)調(diào)了cost的問題,每個(gè)例子都給出了相應(yīng)的training cost,畫風(fēng)是這樣的。
這里頗有廣告的感覺,不禁讓人想起黃教主的”The more GPUs you buy, The more money you save“。結(jié)合最近Microsoft對(duì)Brainwave項(xiàng)目的宣傳,感覺云端機(jī)器學(xué)習(xí)的價(jià)格戰(zhàn)馬上就要開始了。另外,Google也強(qiáng)調(diào)了Benchmark的重要性,還專門展示了他們最近力推的MLPerf。
最近不同平臺(tái)之間的對(duì)比很多,有比性能的,也有拼成本的。相信隨著越來越多的廠商加入,刷榜應(yīng)該會(huì)非常熱鬧。
發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長度6~500個(gè)字
最新活動(dòng)更多
-
10月31日立即下載>> 【限時(shí)免費(fèi)下載】TE暖通空調(diào)系統(tǒng)高效可靠的組件解決方案
-
即日-11.13立即報(bào)名>>> 【在線會(huì)議】多物理場仿真助跑新能源汽車
-
11月28日立即報(bào)名>>> 2024工程師系列—工業(yè)電子技術(shù)在線會(huì)議
-
12月19日立即報(bào)名>> 【線下會(huì)議】OFweek 2024(第九屆)物聯(lián)網(wǎng)產(chǎn)業(yè)大會(huì)
-
即日-12.26火熱報(bào)名中>> OFweek2024中國智造CIO在線峰會(huì)
-
即日-2025.8.1立即下載>> 《2024智能制造產(chǎn)業(yè)高端化、智能化、綠色化發(fā)展藍(lán)皮書》
推薦專題
- 1 【一周車話】沒有方向盤和踏板的車,你敢坐嗎?
- 2 特斯拉發(fā)布無人駕駛車,還未迎來“Chatgpt時(shí)刻”
- 3 特斯拉股價(jià)大跌15%:Robotaxi離落地還差一個(gè)蘿卜快跑
- 4 馬斯克給的“驚喜”夠嗎?
- 5 海信給AI電視打樣,12大AI智能體全面升級(jí)大屏體驗(yàn)
- 6 打完“價(jià)格戰(zhàn)”,大模型還要比什么?
- 7 馬斯克致敬“國產(chǎn)蘿卜”?
- 8 神經(jīng)網(wǎng)絡(luò),誰是盈利最強(qiáng)企業(yè)?
- 9 比蘋果偉大100倍!真正改寫人類歷史的智能產(chǎn)品降臨
- 10 諾獎(jiǎng)進(jìn)入“AI時(shí)代”,人類何去何從?
- 高級(jí)軟件工程師 廣東省/深圳市
- 自動(dòng)化高級(jí)工程師 廣東省/深圳市
- 光器件研發(fā)工程師 福建省/福州市
- 銷售總監(jiān)(光器件) 北京市/海淀區(qū)
- 激光器高級(jí)銷售經(jīng)理 上海市/虹口區(qū)
- 光器件物理工程師 北京市/海淀區(qū)
- 激光研發(fā)工程師 北京市/昌平區(qū)
- 技術(shù)專家 廣東省/江門市
- 封裝工程師 北京市/海淀區(qū)
- 結(jié)構(gòu)工程師 廣東省/深圳市