色情网站免费观看毛片,亚洲人成激情在线播放国,日产欧产美一二三区

TPU直通決賽圈！十年磨一芯谷歌做對(duì)了什么？

原創(chuàng)

2025-11-29 08:59 星期六

科創(chuàng)板日?qǐng)?bào) 張真

①谷歌云內(nèi)部高管透露，擴(kuò)大TPU的市場(chǎng)采用率，有望幫助公司搶占英偉達(dá)年收入份額的10%。
②從閉關(guān)修煉的隱世高手，到如今直通AI芯片的決賽圈，谷歌TPU的起源還要從12年前的那場(chǎng)“算力焦慮”說起。

《科創(chuàng)板日?qǐng)?bào)》11月29日訊 隨著Gemini 3的橫空出世，谷歌TPU從幕后走到臺(tái)前。英偉達(dá)GPU的霸主地位已然有被撼動(dòng)跡象。

谷歌云內(nèi)部高管透露，擴(kuò)大TPU的市場(chǎng)采用率，有望幫助公司搶占英偉達(dá)年收入份額的10%。緊接著，市場(chǎng)便傳出“谷歌加緊向客戶推銷TPU”“Meta擬斥資數(shù)十億美元購買TPU”等一系列消息。大摩分析師大膽預(yù)測(cè)，2027年谷歌TPU外銷量將達(dá)到100萬顆。

另一邊，投資者紛紛用腳投票，表達(dá)了對(duì)英偉達(dá)GPU市場(chǎng)遭遇侵蝕的擔(dān)憂。英偉達(dá)官方發(fā)布緊急聲明，強(qiáng)調(diào)自家產(chǎn)品比ASIC擁有更高的性能、更強(qiáng)的通用性以及更好的可替代性。

從閉關(guān)修煉的隱世高手，到如今直通AI芯片的決賽圈，谷歌TPU的起源還要從12年前的那場(chǎng)“算力焦慮”說起。

▌深度學(xué)習(xí)的最優(yōu)解

2013年，深度學(xué)習(xí)在谷歌內(nèi)部的應(yīng)用開始不斷擴(kuò)散，后臺(tái)模型的復(fù)雜度和算力消耗規(guī)模逐漸呈指數(shù)級(jí)增長。谷歌首席科學(xué)家Jeff Dean通過計(jì)算發(fā)現(xiàn)，若1億安卓用戶每天使用3分鐘語音轉(zhuǎn)文字服務(wù)，則消耗的算力竟高達(dá)谷歌所有數(shù)據(jù)中心總算力的兩倍不止。

堆砌GPU以獲取算力固然是符合直覺的選項(xiàng)，但由于“馮·諾依曼瓶頸”的存在，導(dǎo)致諸如CPU和GPU等計(jì)算單元在處理深度學(xué)習(xí)中大規(guī)模矩陣乘法等特定任務(wù)時(shí)效率低下。相比之下，自研ASIC加速器可為機(jī)器學(xué)習(xí)任務(wù)定制架構(gòu)，能將深度神經(jīng)網(wǎng)絡(luò)推理的總體能效降至原來的十分之一，長期來看成本更為可觀。

于是在2013年底，谷歌正式啟動(dòng)了初代TPU項(xiàng)目。據(jù)報(bào)道，當(dāng)時(shí)谷歌內(nèi)部有三個(gè)團(tuán)隊(duì)投身于ASIC的研發(fā)工作，包括 Google Brain、DeepMind以及專注數(shù)據(jù)中心定制硬件開發(fā)的部門。后者的TPU最終獲選，其關(guān)鍵成員具備多年的芯片架構(gòu)設(shè)計(jì)經(jīng)驗(yàn)。如Jonathan Ross曾參與AMD的Zen架構(gòu)設(shè)計(jì)，并于后來創(chuàng)立了AI芯片設(shè)計(jì)公司Groq。

谷歌團(tuán)隊(duì)進(jìn)展迅速，距立項(xiàng)僅過去15個(gè)月，便完成了初代TPU的設(shè)計(jì)、驗(yàn)證、制造，乃至在數(shù)據(jù)中心的部署。項(xiàng)目牽頭人Norm Jouppi如此描述當(dāng)時(shí)情景：“我們的芯片設(shè)計(jì)速度非常快，在沒有修正錯(cuò)誤或更改掩膜的情況下便已開始出貨芯片?！?/p>

2016年，TPU迎來了它的首個(gè)“破圈時(shí)刻”：人工智能圍棋程序AlphaGo擊敗了世界圍棋冠軍李世石，引發(fā)了人們對(duì)AI的廣泛關(guān)注。當(dāng)時(shí)AlphaGo背后正是初代TPU在提供算力支持。

研發(fā)上，重大的轉(zhuǎn)折發(fā)生在2017年。這一年，谷歌團(tuán)隊(duì)在《Attention Is All You Need》中介紹了Transformer——一種基于注意力機(jī)制的全新深度學(xué)習(xí)架構(gòu)。其計(jì)算特性與TPU設(shè)計(jì)高度適配，最終推動(dòng) TPU的戰(zhàn)略地位從單一AI加速芯片升級(jí)為谷歌的AI基礎(chǔ)設(shè)施底座。值此背景下，TPU v2應(yīng)運(yùn)而生。

同樣在這一年，谷歌宣布免費(fèi)開放 1000 臺(tái) Cloud TPU 供開發(fā)者和研究人員使用，進(jìn)一步鞏固了TPU 作為AI 基礎(chǔ)設(shè)施底座的地位。往后的日子里，谷歌引入了大規(guī)模液冷技術(shù)，將4096顆芯片組成超節(jié)點(diǎn)，并利用自研的環(huán)形拓?fù)渚W(wǎng)絡(luò)實(shí)現(xiàn)近乎無損的跨芯片通信。在各路“外掛”的加持下，TPU朝著更強(qiáng)的性能一路狂飆。

而在技術(shù)之外，谷歌也毫不慳吝地將TPU引進(jìn)廣告系統(tǒng)、搜索核心排序等賺錢產(chǎn)品線。在2024年的應(yīng)用開發(fā)與基礎(chǔ)設(shè)施峰會(huì)上，谷歌公開表示，TPU V6及后續(xù)版本的目標(biāo)是成為“推理時(shí)代最省錢的商業(yè)引擎”。

往后的故事逐漸為人所熟知，隨著TPU v7被投入人工智能訓(xùn)練，當(dāng)今公認(rèn)的最強(qiáng)多模態(tài)模型Gemini 3橫空出世。谷歌也搖身一變，從算力芯片領(lǐng)域的追隨者一躍成為市場(chǎng)眼中的AI新王。人們不禁好奇，十年磨一芯，谷歌究竟做對(duì)了什么？

▌難以復(fù)制的生態(tài)護(hù)城河

回顧谷歌的造芯故事，里面沒有通往AGI的宏大愿景，也沒有遵循Scaling Law的絕對(duì)指引，而是始終緊扣一項(xiàng)更符合商業(yè)邏輯，也更顯務(wù)實(shí)的指標(biāo)——成本。

如果深究，則TPU的歷史可以一直追溯到2006年，那時(shí)谷歌便開始考慮為神經(jīng)網(wǎng)絡(luò)構(gòu)建ASIC的可能性。只不過由于當(dāng)時(shí)互聯(lián)網(wǎng)正處于爆發(fā)前夜，谷歌數(shù)據(jù)中心的GPU算力仍有大量冗余，相關(guān)需求并不迫切，因此并未透支額外成本來實(shí)際推進(jìn)這一計(jì)劃。

這種“量體裁衣”的理念甚至體現(xiàn)在TPU的設(shè)計(jì)架構(gòu)本身。與GPU不同，TPU采用極簡(jiǎn)的“脈動(dòng)陣列”架構(gòu)，這雖然付出了放棄硬件通用性的代價(jià)，但也意味著能夠剝離掉一切無關(guān)硬件，從而保證在最小單位追求深度學(xué)習(xí)的最大效率。

現(xiàn)如今，這種設(shè)計(jì)架構(gòu)顯然為谷歌帶來了遠(yuǎn)超“節(jié)省成本”的回報(bào)，即與其他頂尖AI廠商掰手腕的資本。

更重要的意義在于，與其他廠商嚴(yán)重依賴外部算力和云設(shè)施不同，谷歌以TPU為底座的垂直整合路線，構(gòu)建出了“芯片-云-模型-應(yīng)用”的全棧AI能力鏈條。正如券商分析師們所言，這令其形成了難以復(fù)制的生態(tài)護(hù)城河，也贏得了定義未來AI基礎(chǔ)設(shè)施的入場(chǎng)券。

閱134.88W

我要評(píng)論

反饋意見