①谷歌云內(nèi)部高管透露,擴大TPU的市場采用率,有望幫助公司搶占英偉達年收入份額的10%。 ②從閉關(guān)修煉的隱世高手,到如今直通AI芯片的決賽圈,谷歌TPU的起源還要從12年前的那場“算力焦慮”說起。
《科創(chuàng)板日報》11月29日訊 隨著Gemini 3的橫空出世,谷歌TPU從幕后走到臺前。英偉達GPU的霸主地位已然有被撼動跡象。
谷歌云內(nèi)部高管透露,擴大TPU的市場采用率,有望幫助公司搶占英偉達年收入份額的10%。緊接著,市場便傳出“谷歌加緊向客戶推銷TPU”“Meta擬斥資數(shù)十億美元購買TPU”等一系列消息。大摩分析師大膽預(yù)測,2027年谷歌TPU外銷量將達到100萬顆。
另一邊,投資者紛紛用腳投票,表達了對英偉達GPU市場遭遇侵蝕的擔憂。英偉達官方發(fā)布緊急聲明,強調(diào)自家產(chǎn)品比ASIC擁有更高的性能、更強的通用性以及更好的可替代性。
從閉關(guān)修煉的隱世高手,到如今直通AI芯片的決賽圈,谷歌TPU的起源還要從12年前的那場“算力焦慮”說起。
▌深度學(xué)習(xí)的最優(yōu)解
2013年,深度學(xué)習(xí)在谷歌內(nèi)部的應(yīng)用開始不斷擴散,后臺模型的復(fù)雜度和算力消耗規(guī)模逐漸呈指數(shù)級增長。谷歌首席科學(xué)家Jeff Dean通過計算發(fā)現(xiàn),若1億安卓用戶每天使用3分鐘語音轉(zhuǎn)文字服務(wù),則消耗的算力竟高達谷歌所有數(shù)據(jù)中心總算力的兩倍不止。
堆砌GPU以獲取算力固然是符合直覺的選項,但由于“馮·諾依曼瓶頸”的存在,導(dǎo)致諸如CPU和GPU等計算單元在處理深度學(xué)習(xí)中大規(guī)模矩陣乘法等特定任務(wù)時效率低下。相比之下,自研ASIC加速器可為機器學(xué)習(xí)任務(wù)定制架構(gòu),能將深度神經(jīng)網(wǎng)絡(luò)推理的總體能效降至原來的十分之一,長期來看成本更為可觀。
于是在2013年底,谷歌正式啟動了初代TPU項目。據(jù)報道,當時谷歌內(nèi)部有三個團隊投身于ASIC的研發(fā)工作,包括 Google Brain、DeepMind以及專注數(shù)據(jù)中心定制硬件開發(fā)的部門。后者的TPU最終獲選,其關(guān)鍵成員具備多年的芯片架構(gòu)設(shè)計經(jīng)驗。如Jonathan Ross曾參與AMD的Zen架構(gòu)設(shè)計,并于后來創(chuàng)立了AI芯片設(shè)計公司Groq。
谷歌團隊進展迅速,距立項僅過去15個月,便完成了初代TPU的設(shè)計、驗證、制造,乃至在數(shù)據(jù)中心的部署。項目牽頭人Norm Jouppi如此描述當時情景:“我們的芯片設(shè)計速度非??欤跊]有修正錯誤或更改掩膜的情況下便已開始出貨芯片。”
2016年,TPU迎來了它的首個“破圈時刻”:人工智能圍棋程序AlphaGo擊敗了世界圍棋冠軍李世石,引發(fā)了人們對AI的廣泛關(guān)注。當時AlphaGo背后正是初代TPU在提供算力支持。
研發(fā)上,重大的轉(zhuǎn)折發(fā)生在2017年。這一年,谷歌團隊在《Attention Is All You Need》中介紹了Transformer——一種基于注意力機制的全新深度學(xué)習(xí)架構(gòu)。其計算特性與TPU設(shè)計高度適配,最終推動 TPU的戰(zhàn)略地位從單一AI加速芯片升級為谷歌的AI基礎(chǔ)設(shè)施底座。值此背景下,TPU v2應(yīng)運而生。
同樣在這一年,谷歌宣布免費開放 1000 臺 Cloud TPU 供開發(fā)者和研究人員使用,進一步鞏固了TPU 作為AI 基礎(chǔ)設(shè)施底座的地位。往后的日子里,谷歌引入了大規(guī)模液冷技術(shù),將4096顆芯片組成超節(jié)點,并利用自研的環(huán)形拓撲網(wǎng)絡(luò)實現(xiàn)近乎無損的跨芯片通信。在各路“外掛”的加持下,TPU朝著更強的性能一路狂飆。
而在技術(shù)之外,谷歌也毫不慳吝地將TPU引進廣告系統(tǒng)、搜索核心排序等賺錢產(chǎn)品線。在2024年的應(yīng)用開發(fā)與基礎(chǔ)設(shè)施峰會上,谷歌公開表示,TPU V6及后續(xù)版本的目標是成為“推理時代最省錢的商業(yè)引擎”。
往后的故事逐漸為人所熟知,隨著TPU v7被投入人工智能訓(xùn)練,當今公認的最強多模態(tài)模型Gemini 3橫空出世。谷歌也搖身一變,從算力芯片領(lǐng)域的追隨者一躍成為市場眼中的AI新王。人們不禁好奇,十年磨一芯,谷歌究竟做對了什么?
▌難以復(fù)制的生態(tài)護城河
回顧谷歌的造芯故事,里面沒有通往AGI的宏大愿景,也沒有遵循Scaling Law的絕對指引,而是始終緊扣一項更符合商業(yè)邏輯,也更顯務(wù)實的指標——成本。
如果深究,則TPU的歷史可以一直追溯到2006年,那時谷歌便開始考慮為神經(jīng)網(wǎng)絡(luò)構(gòu)建ASIC的可能性。只不過由于當時互聯(lián)網(wǎng)正處于爆發(fā)前夜,谷歌數(shù)據(jù)中心的GPU算力仍有大量冗余,相關(guān)需求并不迫切,因此并未透支額外成本來實際推進這一計劃。
這種“量體裁衣”的理念甚至體現(xiàn)在TPU的設(shè)計架構(gòu)本身。與GPU不同,TPU采用極簡的“脈動陣列”架構(gòu),這雖然付出了放棄硬件通用性的代價,但也意味著能夠剝離掉一切無關(guān)硬件,從而保證在最小單位追求深度學(xué)習(xí)的最大效率。
現(xiàn)如今,這種設(shè)計架構(gòu)顯然為谷歌帶來了遠超“節(jié)省成本”的回報,即與其他頂尖AI廠商掰手腕的資本。
更重要的意義在于,與其他廠商嚴重依賴外部算力和云設(shè)施不同,谷歌以TPU為底座的垂直整合路線,構(gòu)建出了“芯片-云-模型-應(yīng)用”的全棧AI能力鏈條。正如券商分析師們所言,這令其形成了難以復(fù)制的生態(tài)護城河,也贏得了定義未來AI基礎(chǔ)設(shè)施的入場券。
