亚洲AⅤ成人电影,无码无码久久亚洲AV成人毛片,能看黄色大片网站

破局算力浪費阿里云AI成果入選頂會 GPU用量削減82%

原創(chuàng)

2025-10-18 21:45 星期六

科創(chuàng)板日報宋子喬

①Aegaeon系統(tǒng)在服務(wù)數(shù)十個參數(shù)量高達(dá)720億的大模型時，所需的英偉達(dá)H20 GPU數(shù)量從1192個減至213個，削減比例高達(dá)82%；
②未來AI的發(fā)展將不僅依賴于硬件算力的單純增長，更需要通過系統(tǒng)級的軟件創(chuàng)新來深度挖掘現(xiàn)有硬件的潛力。

《科創(chuàng)板日報》10月18日訊（編輯宋子喬） 近日，阿里云提出的計算池化解決方案“Aegaeon”成功入選頂級學(xué)術(shù)會議SOSP 2025，該方案可解決AI模型服務(wù)中普遍存在的GPU資源浪費問題，大幅提升GPU資源利用率，目前其核心技術(shù)已應(yīng)用在阿里云百煉平臺。

SOSP（操作系統(tǒng)原理研討會）由ACM SIGOPS主辦，是計算機(jī)系統(tǒng)領(lǐng)域頂級學(xué)術(shù)會議，平均每年收錄的論文數(shù)量僅有數(shù)十篇，被譽為計算機(jī)操作系統(tǒng)界的“奧斯卡”，入選論文代表了操作系統(tǒng)和軟件領(lǐng)域最具代表的研究成果。本屆SOSP大會上，系統(tǒng)軟件與AI大模型技術(shù)的融合成為新的趨勢。

數(shù)據(jù)顯示，在阿里云模型市場為期超三個月的Beta測試中，Aegaeon系統(tǒng)在服務(wù)數(shù)十個參數(shù)量高達(dá)720億的大模型時，所需的英偉達(dá)H20 GPU數(shù)量從1192個減至213個，削減比例高達(dá)82%（見下圖）。GPU用量削減82%意味著公司硬件采購成本將顯著降低，這對于動輒使用成千上萬張GPU的大型模型服務(wù)商至關(guān)重要。

在真實的模型服務(wù)場景中，少數(shù)熱門模型（如阿里的Qwen）承載了絕大多數(shù)用戶請求，而大量不常被調(diào)用的“長尾”模型卻各自獨占著GPU資源。數(shù)據(jù)顯示，在阿里云模型市場中，曾有17.7%的GPU算力僅用于處理1.35%的請求，資源閑置嚴(yán)重。

而Aegaeon系統(tǒng)通過GPU資源池化，打破了“一個模型綁定一個GPU”的低效模式。

Token級調(diào)度是該系統(tǒng)的核心創(chuàng)新點，Aegaeon多模型混合服務(wù)系統(tǒng)在每次生成下一個token后動態(tài)決定是否切換模型，實現(xiàn)精細(xì)化管理，同時，通過組件復(fù)用、顯存精細(xì)化管理和KV緩存同步優(yōu)化等全棧技術(shù)，Aegaeon將模型切換開銷降低97%，確保了token級調(diào)度的實時性，可支持亞秒級的模型切換響應(yīng)。

據(jù)介紹，Aegaeon系統(tǒng)支持單GPU同時服務(wù)多達(dá)7個不同模型，相比現(xiàn)有主流方案提升1.5-9倍的有效吞吐量，實現(xiàn)2-2.5倍的請求處理能力。

如何從底層系統(tǒng)軟件層面優(yōu)化，以更好地支撐和賦能上層AI應(yīng)用，已成為全球?qū)W術(shù)界和工業(yè)界關(guān)注的焦點。未來AI的發(fā)展將不僅依賴于硬件算力的單純增長，更需要通過系統(tǒng)級的軟件創(chuàng)新來深度挖掘現(xiàn)有硬件的潛力。

閱76.19W

我要評論

反饋意見