Ai快訊 2025年9月9日周二,全球人工智能算力芯片龍頭英偉達(dá)宣布推出專為長(zhǎng)上下文工作負(fù)載設(shè)計(jì)的專用GPU Rubin CPX,旨在翻倍提升當(dāng)前AI推理運(yùn)算的工作效率,尤其適用于編程、視頻生成等需要超長(zhǎng)上下文窗口的應(yīng)用。
英偉達(dá)CEO黃仁勛介紹,CPX是首款專為需要一次性處理大量知識(shí)(數(shù)百萬(wàn)級(jí)別tokens)并進(jìn)行人工智能推理的模型而構(gòu)建的芯片。由于Rubin是英偉達(dá)將于明年發(fā)售的下一代頂級(jí)算力芯片,基于Rubin的CPX預(yù)計(jì)要到2026年底出貨。下一代英偉達(dá)旗艦AI服務(wù)器全稱為NVIDIA Vera Rubin NVL144 CPX,集成36個(gè)Vera CPU、144塊Rubin GPU和144塊Rubin CPX GPU。
下一代旗艦機(jī)架將提供8exaFLOPs的NVFP4算力,比GB300 NVL72高出7.5倍,同時(shí)單個(gè)機(jī)架就能提供100TB的高速內(nèi)存和1.7PB/s的內(nèi)存帶寬。英偉達(dá)在Rubin GPU邊上再配一塊Rubin CPX GPU,目的是顯著提升數(shù)據(jù)中心的算力效率,讓用戶購(gòu)買芯片能獲取更多收益。英偉達(dá)稱,部署價(jià)值1億美元的新芯片,將能為客戶帶來(lái)50億美元的收入。
作為行業(yè)首創(chuàng),英偉達(dá)的新品在硬件層面上分拆了人工智能推理的計(jì)算負(fù)載。推理過(guò)程包含上下文階段與生成階段,這兩個(gè)階段對(duì)基礎(chǔ)設(shè)施的要求截然不同。上下文階段屬于計(jì)算受限,需要高吞吐量的處理能力來(lái)攝取并分析大量輸入數(shù)據(jù)以生成首個(gè)輸出token;生成階段則屬于內(nèi)存帶寬受限,依賴高速的內(nèi)存?zhèn)鬏敽透邘捇ヂ?lián)(如NVLink)來(lái)維持逐個(gè)token的輸出性能。
當(dāng)前頂級(jí)的GPU是為內(nèi)存和網(wǎng)絡(luò)限制的生成階段設(shè)計(jì),配備昂貴的HBM內(nèi)存,但在解碼階段并不需要這些內(nèi)存。通過(guò)分離式處理這兩個(gè)階段并針對(duì)性優(yōu)化計(jì)算與內(nèi)存資源,可顯著提升算力的利用率。
Rubin CPX專門針對(duì)“數(shù)百萬(wàn)tokens”級(jí)別的長(zhǎng)上下文性能進(jìn)行優(yōu)化,具備30petaFLOPs的NVFP4算力、128GB GDDR7內(nèi)存。英偉達(dá)估計(jì),約20%的AI應(yīng)用會(huì)等待首個(gè)token出現(xiàn),如解碼10萬(wàn)行代碼可能需5 - 10分鐘,多幀、多秒視頻的預(yù)處理和逐幀嵌入會(huì)增加延遲,這也是當(dāng)前視頻大模型通常僅用于制作短片的原因。
英偉達(dá)計(jì)劃以兩種形式提供Rubin CPX,一種是與Vera Rubin裝在同一個(gè)托盤上,對(duì)于已下單NVL144的用戶,也會(huì)單獨(dú)出售一整個(gè)機(jī)架的CPX芯片,數(shù)量與Rubin機(jī)架匹配。
(AI撰文,僅供參考)
重要提示:本文僅代表作者個(gè)人觀點(diǎn),并不代表樂(lè)居財(cái)經(jīng)立場(chǎng)。 本文著作權(quán),歸樂(lè)居財(cái)經(jīng)所有。未經(jīng)允許,任何單位或個(gè)人不得在任何公開(kāi)傳播平臺(tái)上使用本文內(nèi)容;經(jīng)允許進(jìn)行轉(zhuǎn)載或引用時(shí),請(qǐng)注明來(lái)源。聯(lián)系請(qǐng)發(fā)郵件至ljcj@leju.com,或點(diǎn)擊【聯(lián)系客服】
樂(lè)居財(cái)經(jīng)APP
?2017-2025 北京怡生樂(lè)居財(cái)經(jīng)文化傳媒有限公司 北京市朝陽(yáng)區(qū)西大望路甲22號(hào)院1號(hào)樓1層101內(nèi)3層S3-01房間756號(hào) 100016
京ICP備2021030296號(hào)-2京公網(wǎng)安備 11010502047973號(hào)