国精产品一区二区三区有限|久热香蕉在线视频资源福利站|91岛国在线观看永久|aa片免费看一级片片AV|无码三级在线观看入口|亚洲第一色站妻免费毛A片|日韩免费Av特级无码毛片|天堂av2024|成人免费A级黄色片|91精产国品一二三产免费

破局算力浪費 阿里云AI成果入選頂會 GPU用量削減82%
原創(chuàng)
2025-10-18 21:45 星期六
科創(chuàng)板日報 宋子喬
①Aegaeon系統(tǒng)在服務(wù)數(shù)十個參數(shù)量高達(dá)720億的大模型時,所需的英偉達(dá)H20 GPU數(shù)量從1192個減至213個,削減比例高達(dá)82%;
②未來AI的發(fā)展將不僅依賴于硬件算力的單純增長,更需要通過系統(tǒng)級的軟件創(chuàng)新來深度挖掘現(xiàn)有硬件的潛力。

《科創(chuàng)板日報》10月18日訊(編輯 宋子喬) 近日,阿里云提出的計算池化解決方案“Aegaeon”成功入選頂級學(xué)術(shù)會議SOSP 2025,該方案可解決AI模型服務(wù)中普遍存在的GPU資源浪費問題,大幅提升GPU資源利用率,目前其核心技術(shù)已應(yīng)用在阿里云百煉平臺。

image SOSP(操作系統(tǒng)原理研討會)由ACM SIGOPS主辦,是計算機(jī)系統(tǒng)領(lǐng)域頂級學(xué)術(shù)會議,平均每年收錄的論文數(shù)量僅有數(shù)十篇,被譽為計算機(jī)操作系統(tǒng)界的“奧斯卡”,入選論文代表了操作系統(tǒng)和軟件領(lǐng)域最具代表的研究成果。本屆SOSP大會上,系統(tǒng)軟件與AI大模型技術(shù)的融合成為新的趨勢。

數(shù)據(jù)顯示,在阿里云模型市場為期超三個月的Beta測試中,Aegaeon系統(tǒng)在服務(wù)數(shù)十個參數(shù)量高達(dá)720億的大模型時,所需的英偉達(dá)H20 GPU數(shù)量從1192個減至213個,削減比例高達(dá)82%(見下圖)。GPU用量削減82%意味著公司硬件采購成本將顯著降低,這對于動輒使用成千上萬張GPU的大型模型服務(wù)商至關(guān)重要。

image 在真實的模型服務(wù)場景中,少數(shù)熱門模型(如阿里的Qwen)承載了絕大多數(shù)用戶請求,而大量不常被調(diào)用的“長尾”模型卻各自獨占著GPU資源。數(shù)據(jù)顯示,在阿里云模型市場中,曾有17.7%的GPU算力僅用于處理1.35%的請求,資源閑置嚴(yán)重。

而Aegaeon系統(tǒng)通過GPU資源池化,打破了“一個模型綁定一個GPU”的低效模式。

Token級調(diào)度是該系統(tǒng)的核心創(chuàng)新點,Aegaeon多模型混合服務(wù)系統(tǒng)在每次生成下一個token后動態(tài)決定是否切換模型,實現(xiàn)精細(xì)化管理,同時,通過組件復(fù)用、顯存精細(xì)化管理和KV緩存同步優(yōu)化等全棧技術(shù),Aegaeon將模型切換開銷降低97%,確保了token級調(diào)度的實時性,可支持亞秒級的模型切換響應(yīng)。

據(jù)介紹,Aegaeon系統(tǒng)支持單GPU同時服務(wù)多達(dá)7個不同模型,相比現(xiàn)有主流方案提升1.5-9倍的有效吞吐量,實現(xiàn)2-2.5倍的請求處理能力。

如何從底層系統(tǒng)軟件層面優(yōu)化,以更好地支撐和賦能上層AI應(yīng)用,已成為全球?qū)W術(shù)界和工業(yè)界關(guān)注的焦點。未來AI的發(fā)展將不僅依賴于硬件算力的單純增長,更需要通過系統(tǒng)級的軟件創(chuàng)新來深度挖掘現(xiàn)有硬件的潛力。

收藏
76.19W
我要評論
圖片
歡迎您發(fā)表有價值的評論,發(fā)布廣告和不和諧的評論都將會被刪除,您的賬號將禁止評論。
發(fā)表評論
要聞
股市
關(guān)聯(lián)話題
1.49W 人關(guān)注
6.02W 人關(guān)注
1.08W 人關(guān)注
1.87W 人關(guān)注
1.25W 人關(guān)注
8009 人關(guān)注