①Aegaeon系統(tǒng)在服務(wù)數(shù)十個參數(shù)量高達(dá)720億的大模型時,所需的英偉達(dá)H20 GPU數(shù)量從1192個減至213個,削減比例高達(dá)82%; ②未來AI的發(fā)展將不僅依賴于硬件算力的單純增長,更需要通過系統(tǒng)級的軟件創(chuàng)新來深度挖掘現(xiàn)有硬件的潛力。
《科創(chuàng)板日報》10月18日訊(編輯 宋子喬) 近日,阿里云提出的計算池化解決方案“Aegaeon”成功入選頂級學(xué)術(shù)會議SOSP 2025,該方案可解決AI模型服務(wù)中普遍存在的GPU資源浪費問題,大幅提升GPU資源利用率,目前其核心技術(shù)已應(yīng)用在阿里云百煉平臺。
SOSP(操作系統(tǒng)原理研討會)由ACM SIGOPS主辦,是計算機(jī)系統(tǒng)領(lǐng)域頂級學(xué)術(shù)會議,平均每年收錄的論文數(shù)量僅有數(shù)十篇,被譽為計算機(jī)操作系統(tǒng)界的“奧斯卡”,入選論文代表了操作系統(tǒng)和軟件領(lǐng)域最具代表的研究成果。本屆SOSP大會上,系統(tǒng)軟件與AI大模型技術(shù)的融合成為新的趨勢。
數(shù)據(jù)顯示,在阿里云模型市場為期超三個月的Beta測試中,Aegaeon系統(tǒng)在服務(wù)數(shù)十個參數(shù)量高達(dá)720億的大模型時,所需的英偉達(dá)H20 GPU數(shù)量從1192個減至213個,削減比例高達(dá)82%(見下圖)。GPU用量削減82%意味著公司硬件采購成本將顯著降低,這對于動輒使用成千上萬張GPU的大型模型服務(wù)商至關(guān)重要。
在真實的模型服務(wù)場景中,少數(shù)熱門模型(如阿里的Qwen)承載了絕大多數(shù)用戶請求,而大量不常被調(diào)用的“長尾”模型卻各自獨占著GPU資源。數(shù)據(jù)顯示,在阿里云模型市場中,曾有17.7%的GPU算力僅用于處理1.35%的請求,資源閑置嚴(yán)重。
而Aegaeon系統(tǒng)通過GPU資源池化,打破了“一個模型綁定一個GPU”的低效模式。
Token級調(diào)度是該系統(tǒng)的核心創(chuàng)新點,Aegaeon多模型混合服務(wù)系統(tǒng)在每次生成下一個token后動態(tài)決定是否切換模型,實現(xiàn)精細(xì)化管理,同時,通過組件復(fù)用、顯存精細(xì)化管理和KV緩存同步優(yōu)化等全棧技術(shù),Aegaeon將模型切換開銷降低97%,確保了token級調(diào)度的實時性,可支持亞秒級的模型切換響應(yīng)。
據(jù)介紹,Aegaeon系統(tǒng)支持單GPU同時服務(wù)多達(dá)7個不同模型,相比現(xiàn)有主流方案提升1.5-9倍的有效吞吐量,實現(xiàn)2-2.5倍的請求處理能力。
如何從底層系統(tǒng)軟件層面優(yōu)化,以更好地支撐和賦能上層AI應(yīng)用,已成為全球?qū)W術(shù)界和工業(yè)界關(guān)注的焦點。未來AI的發(fā)展將不僅依賴于硬件算力的單純增長,更需要通過系統(tǒng)級的軟件創(chuàng)新來深度挖掘現(xiàn)有硬件的潛力。
