若把時光倒轉(zhuǎn)一下,TPU 當(dāng)年以AlphaGo 打敗李世石九段的「秘密武器」,完成原本世人認為AI 在圍棋永遠不可能超越人類的創(chuàng)舉一炮而紅。
Google「自己的芯片自己造」,距離作出第一代人工智能專用芯片TPU 已經(jīng)將近十年了!若把時光倒轉(zhuǎn)一下,TPU 當(dāng)年以AlphaGo 打敗李世石九段的「秘密武器」,完成原本世人認為AI 在圍棋永遠不可能超越人類的創(chuàng)舉,從此一炮而紅,開啟了科技業(yè)追逐人工智能圣杯的新浪潮。
TPU 是專為機器學(xué)習(xí)任務(wù)設(shè)計的應(yīng)用專用集成電路電路(ASIC),正式的中文意義是張量處理器(Tensor Processing Unit),與通用型的CPU 和GPU 相比,TPU 在執(zhí)行矩陣和矢量運算時效率更高。如果你把TPU 跟現(xiàn)在最夯的NPU 相比的話,硬要說NPU 的用途略廣泛一些,而且NPU 使用的架構(gòu)會將存儲器和處理單元分開(TPU 則是將兩者整合在一個芯片上) 。
TPU 的故事可以追朔到2015 年、甚至更早。不少讀者應(yīng)該還記得,Google 最早的語音辨識功能早在2011 就發(fā)布了,隨著Google Now、Google Assistant 用量變大,Google 開始使用深度神經(jīng)網(wǎng)路開發(fā)語音識別等服務(wù),也發(fā)現(xiàn)需要強大的數(shù)據(jù)處理能力。
Google 首席科學(xué)家Jeff Dean 是這么說的:「我們做了一些粗略的計算,如果每天有數(shù)億人與Google 進行三分鐘的對話需要多少運算能力。以今天的標(biāo)準來看這似乎不算什么。但在當(dāng)時,我們馬上就意識到這很可怕!因為這會消耗Google 當(dāng)時所有已部署的運算能力。我們需要將Google 數(shù)據(jù)中心的電腦數(shù)量翻倍,才能支援這些新功能。」
Google 隨即研究了一下當(dāng)時市面上的解決方案,但發(fā)現(xiàn)這些方案都無法滿足基本的機器學(xué)習(xí)工作負載需求。因此決定自己來吧!想辦法做出更具成本效益、節(jié)能的機器學(xué)習(xí)解決方案。
因此2015 年第一代TPU 芯片(TPU v1)在Google 內(nèi)部上線了,并迅速在Google 各個部門得到廣泛應(yīng)用。據(jù)Google 機器學(xué)習(xí)硬體系統(tǒng)首席工程師Andy Swing 回憶,他們原本預(yù)計只需要制造不到1 萬個TPU v1,但最終生產(chǎn)了超過10 萬個,應(yīng)用范圍涵蓋了廣告、搜尋、語音、AlphaGo,甚至自動駕駛等多個領(lǐng)域。
據(jù)Google 副總裁兼工程院士Norm Jouppi 透露,TPU 的出現(xiàn)讓足足讓Google 省下了15 個數(shù)據(jù)中心。 TPU v1 的成功也讓Google 意識到:機器學(xué)習(xí)芯片是有未來的!這也讓Google 將TPU 視為關(guān)鍵產(chǎn)品之一,不斷在TPU v1 基礎(chǔ)上迭代升級,推出了性能更強、效率更高的TPU 芯片和系統(tǒng)。
例如,TPU v2 將單個芯片的設(shè)計理念擴展到了一個更大的超級計算系統(tǒng),通過高頻寬的客制化串聯(lián)技術(shù)將256 個TPU 芯片連接在一起,構(gòu)建了第一個TPU Pod。隨后的TPU v3 加入了液體冷卻技術(shù),TPU v4 則引入了光學(xué)電路開關(guān),進一步提升了性能和效率。