中文繁體
返回
下載
下載遇見問題?
登入後諮詢在線客服
回到頂部
存儲芯片全線爆發:又一「AI寵兒」誕生?
瀏覽 1243萬 內容 533

英偉達將於2026年CES展會直播,創始人兼首席執行官黃仁勳

主要收穫(AI生成)
業務亮點
- 宣佈Vera Rubin AI超級計算機全面投產,配備6款突破性芯片,協同工作如同一體
- 推出ALPA Mayo,全球首個端到端從攝像頭到執行的具備思考和推理能力的自動駕駛AI
- 藉助Spectrum X AI以太網在AI領域的成功部署,成爲全球最大的網絡公司
- 與梅賽德斯-奔馳建立戰略合作伙伴關係,實現全棧集成和長期運營承諾,共同開發自動駕駛技術
機會
- 通過與梅賽德斯的合作擴展自動駕駛市場,計劃於第一季度在歐洲啓動,第二季度在美國部署
- 革命性的NV FP4張量核心技術,僅增加1.6倍晶體管數量,卻帶來5倍性能提升
- 涉及Palantir、ServiceNow、Snowflake、西門子、Cadence和Synopsis平台的戰略企業合作伙伴關係
- MGX機箱設計創新,將組裝時間從2小時縮短至5分鐘,並且無需使用電纜
完整記錄稿(AI生成)
接線員
歡迎英偉達創始人兼首席執行官Jensen Wong上臺。
Jensen Wong
大家好,拉斯維加斯。新年快樂!歡迎來參加我們的活動。我們今天有大約15部電影長度的內容要展示。看到你們每一位,我感到非常開心。這個大廳裏有3000人,院子裏還有2000人正在觀看我們,另外據說在四樓還有1000人——那裏原本是英偉達展廳的地方,所有人都在看這場主題演講。當然,全世界還有數百萬人也將通過直播來觀看這場演講,開啓新的一年。
每隔10到15年,計算機行業就會經歷一次重大變革。新的平台轉移會發生:從大型機到個人電腦,個人電腦到互聯網,互聯網到雲計算,雲計算再到移動設備。每次應用世界都會針對新平台重新開發,這就是爲什麼這被稱爲平台轉移。你爲新計算機編寫新應用程序。而這次不同的是,有兩個同時進行的平台轉移,事實上它們正在同時發生。
現在我們正邁向人工智能,應用程序將會基於人工智能構建。起初,人們認爲人工智能就是應用程序,事實上人工智能確實是應用程序,但你將在人工智能之上構建更多應用程序。除此之外,運行軟件和開發軟件的方式也發生了根本性變化。整個計算機行業的技術棧正在被重新發明。你不再編程軟件,而是訓練軟件;你不是在CPU上運行它,而是在GPU上運行。
過去的應用程序都是預先錄製、預編譯並運行在你的設備上,而現在,應用程序可以理解上下文,並且每次都完全從頭生成每一個像素、每一個符號。由於加速計算和人工智能,計算的本質已經被徹底重塑。那個五層結構的每一層都在被觸及、被重新發明。
這意味着過去十年中價值約10萬億美元的計算方式正在向這種新的計算模式現代化轉型。這意味着每年有數千億美元,甚至幾百億美元的風險投資資金正投入到現代化和創造這個新世界之中。這也意味着價值100萬億美元的產業,其中相當一部分研發預算正在向人工智能轉移。
有人問這些錢從哪裏來?這就是那些資金的來源。從傳統方法轉向現代人工智能的方法,AI自身的現代化以及研發預算的巨大轉變,龐大的投資湧入這個行業,這也解釋了爲什麼我們如此忙碌。去年也不例外,去年的表現令人難以置信。
這是我們今年的第一場主題演講,我希望也是你們今年的第一場。否則的話,說明你已經很忙了。這是我們今年的第一場主題演講,我們要把所有的陳舊觀念全部掃除。所以,2025年是不可思議的一年,似乎一切都同時發生,實際上確實如此。
首先當然是規模損失問題。2015年,我認爲第一個真正產生巨大影響的語言模型出現了,它的名字叫Bert。2017年Transformer問世。直到五年後,也就是2022年,ChatGPT時刻的到來才讓世界意識到人工智能的可能性。
在那之後的一年,發生了一件非常重要的事情,ChatGPT 推出了首個 O1 模型,這是第一個完全革命性的推理模型,提出了一個被稱爲『測試時擴展』的概念,這其實是一個非常符合常識的想法。我們不僅通過預訓練讓模型學習,還通過強化學習進行後訓練,使它能夠掌握技能。而現在我們還有了測試時擴展,換句話說就是實時思考。
人工智能的每個階段都需要大量的計算資源,而計算定律仍在不斷擴展。大型語言模型的表現也在持續提升。與此同時,另一個突破發生在2024年,基因系統開始在2025年出現,並迅速擴散到幾乎所有領域。
具有推理能力、查找信息、進行研究、使用工具、規劃未來、模擬結果的代理模型突然開始解決一些非常重要的問題。我最喜歡的代理模型之一叫Cursor,它徹底改變了我們在英偉達進行軟件編程的方式。從這裏開始,代理系統將真正騰飛。
當然,還有其他類型的人工智能。我們知道,大型語言模型並不是唯一的。宇宙的任何地方只要有信息,只要有結構存在,我們都可以教會一種大型語言模型去理解這些信息,理解它的表現形式,並將其轉化爲人工智能。
最重要的一種是理解自然法則的物理AI。物理AI的核心在於AI如何與世界互動,而世界本身包含信息和編碼信息。這就是所謂的物理AI —— 在物理AI的案例中,一方面你有與物理世界交互的AI,另一方面你有理解物理規律的AI物理系統。
去年發生的最重要的事件之一,是開源模型的進步。我們現在知道,當開源創新被激活,全球每個公司、每個行業都參與到AI發展中,AI將會無處不在。去年,開源模型得到了極大的發展。
事實上,去年我們見證了DeepSeek-R1的出現,這是第一個開源的推理系統。它的問世震驚了世界,並且真正推動了整個運動的發展。這項工作令人無比興奮,我們也爲此感到非常自豪。現在世界各地已經湧現了各種各樣的開源模型系統,開源模型也已達到前沿水平。
雖然仍然比最前沿的模型落後大約半年,但每六個月都會有新的模型湧現,這些模型正變得越來越智能。因此,你可以看到下載量激增。由於初創公司、大企業、研究人員、學生以及幾乎每個國家都想參與AI革命,下載數量正在快速增長。
數字形式的智能怎麼可能讓任何人掉隊呢?因此,開源模型確實徹底改變了去年的人工智能領域。整個行業都將因此被重塑。其實我們早就有這個預感,你可能聽說過,幾年前我們開始建造並運營自己的AI超級計算機。我們稱它們爲DGX雲。
很多人問,你們是不是要進入雲計算業務?答案是否定的。我們建造這些DGX超級計算機是爲了我們自己的使用。事實證明,我們已經投入了數十億美元來運行這些超級計算機,以開發我們的開源模型。我對我們的工作感到非常滿意。我們的工作開始吸引全球和各行各業的關注,因爲我們在許多不同領域開展了前沿的AI模型研究。
我們在數字生物學領域的蛋白質研究工作,La Proteina能夠合成和生成蛋白質。開放故障3以理解蛋白質的結構。邪惡2,如何理解和生成多種蛋白質。否則就是細胞表示的開端。地球2,理解物理定律的人工智能。我們與Forecast Net和Cordif一起完成的工作,真正革新了人們進行天氣預測的方式。
Nemotron,我們現在正在那裏開展突破性的工作。第一個混合變壓器SSM模型,速度極快,因此可以長時間思考或者在短時間內快速思考,併產生非常聰明、智能化的答案。Nemotron 3是一項突破性的工作,您可以期待我們在不久的將來推出其他版本的Nemotron 3。
Cosmos,一個前沿的開放式世界基礎模型,能夠理解世界的運作方式。Groot,一個人形機器人系統,具備關節運動、移動和行走功能。這些模型、這些技術現在正被整合到每一個案例中,並向全世界開放,領先的類人機器人模型也向世界開放。今天我們將稍微談一下ALPA Mayo,以及我們在自動駕駛汽車領域所做的工作。
我們不僅開源模型,還開源用於訓練這些模型的數據,因爲只有這樣,您才能真正信任這些模型是如何產生的。我們開源所有模型,並幫助您從它們衍生出新的模型。我們有一整套庫,稱爲Nemo庫,包括物理Nemo庫和Clara Nemo庫。每個生物Nemo庫都是AI的生命週期管理系統,您可以處理數據、生成數據、訓練模型、創建模型、評估模型、設置模型護欄,一直到部署模型。
每個庫都非常複雜,並且全部開源。因此,在這個平台之上,英偉達是一個前沿AI模型構建者,並且我們以一種特殊的方式構建它。我們完全開放地構建它,以便讓每家公司、每個行業、每個國家都能參與到這場AI革命中來。我對我們在那裏所做的工作感到無比自豪。
實際上,如果您注意到這一趨勢,圖表顯示我們對這個行業的貢獻是無與倫比的,而且您會看到我們事實上會繼續這樣做,甚至加速。這些模型也是世界級的。所有系統都宕機了。這在聖克拉拉從未發生過。是不是因爲拉斯維加斯?一定有人贏了大獎。外面所有系統都宕機了。好吧,我想我的系統仍然宕機,但沒關係。我會邊做邊彌補。
這些模型不僅具備前沿能力,不僅開放,還在排行榜上名列前茅。這是讓我們非常自豪的一個領域,它們在智能方面的表現位居榜首。我們擁有可以理解多模態文檔的重要模型,也就是PDF。世界上最有價值的內容都被捕獲在PDF中,但要解讀其中內容、解釋其中內容並幫助您閱讀,需要人工智能的幫助。
我們的PDF檢索器、PDF解析器是世界級的。我們的語音識別模型絕對是世界級的。我們的檢索模型基本涵蓋了搜索、語義搜索、AI搜索,是現代AI時代的數據庫引擎,同樣是一流的。所以我們一直在排行榜上名列前茅。這是我們引以爲傲的領域。所有這一切都是爲了幫助您構建AI代理。
這是一個真正具有開創性的開發領域。要知道,當Pete,當ChatGPT問世時,人們說,哇,它的結果確實很有趣,但它的幻覺也很嚴重。當然它可以記住過去的一切,但它無法記住當前的未來。因此,它需要基於研究的基礎。在回答問題之前,它必須進行基礎研究。
推理的能力:我是否需要做研究?我是否需要使用工具?如何將問題分解成步驟?每一個步驟都是AI模型知道如何執行的,通過結合這些步驟,它能夠組成一個序列來完成以前從未做過、從未被訓練過的任務。這就是推理的美妙能力。
我們可能會遇到一種前所未見的情況,但我們可以將其分解爲我們知道如何處理的情況、知識或規則,因爲我們過去曾經歷過。因此,AI模型現在具備的推理能力非常強大,智能體的推理能力爲各種不同的應用打開了大門。
我們不再需要在第一天就訓練一個AI模型掌握所有知識,正如我們不需要在第一天就知道在任何情況下如何解決問題。大型語言模型現在已經實現了這一基本飛躍。使用強化學習、思維鏈、搜索和規劃等各種技術的能力使我們擁有了這種基本能力,並且現在這些技術已經完全開源。
真正令人興奮的是另一個突破的發生。我第一次看到這個突破是在ervin的困惑度(Perplexity)中。這家搜索公司,AI搜索公司,真的很有前瞻性,非常創新,也是我第一次意識到他們同時使用多個模型,當時我覺得這簡直太天才了。當然我們會這麼做,當然AI也會調用世界上所有優秀的AI來解決它想在推理鏈的任何部分解決的問題。
這就是爲什麼AI實際上是多模態的,這意味着它們可以理解語音、圖像、文本、視頻、3D圖形和蛋白質。這是多模態的概念,同時也是多模型的,意味着它們應該能夠使用最適合該任務的任何模型。由於這些AI模型分佈在不同的地方,所以它們本質上是多雲的。
它也屬於混合雲,因爲如果你是一家企業公司,或者你製造了一個機器人,無論那個設備是什麼,有時它位於邊緣端,有時是無線電塔附近,也許有時在企業的俄勒岡州,也許是在醫院等需要實時數據的地方。無論這些應用場景是什麼,我們現在知道未來的AI應用就是這樣的,或者換種方式思考,未來所有的應用都是基於AI構建的。
這就是未來應用的基本框架。這個基本框架,這個能夠完成我剛才談到的功能的多模型智能體AI,極大地推動了各類AI初創公司的發展。而且現在由於我們提供的所有開源模型和工具,你也可以定製自己的AI,教會你的AI其他人都沒有教授的技能。
沒有人讓他們的AI以這種方式變得智能或聰明,但你可以爲自己做到這一點。這就是我們通過Nemotron、Nemo以及所有開源模型所做的事情的目的所在。你在前面放置一個智能路由器,這個路由器實際上是一個管理者,它根據你提供的提示意圖決定哪一個模型最適合用於該應用或解決問題。
好的,那麼當你考慮這個架構時,你會得到什麼呢?當你想到這個架構時,突然間你擁有了一種完全由你自定義的AI。它可以被教會去做只有你們公司才有的獨特技能。它是某個領域的祕密武器,是你擁有深厚領域專業知識的體現。也許你擁有訓練這個AI模型所需的所有數據。
另一方面,你的AI從定義上來說始終處於前沿。一方面你總是在最前沿,另一方面你總是可以根據需求進行定製,而且它應該能夠順暢運行。所以我們認爲可以通過一個最簡單的例子來讓你體驗到這一點。我們將整個框架稱爲藍圖,並且我們的藍圖已經集成到了全球各地的企業SaaS平台中。我們對取得的進展感到非常滿意。
不過,我們要做的就是向你展示一個任何人都能做到的簡短示例。讓我們來創建一個個人助理。我希望它能幫助我管理日曆、電子郵件、待辦事項列表,甚至還能留意我的家庭情況。我使用Brev將我的DGX Spark變成個人雲,這樣無論我使用的是雲GPU還是DGX Spark,都可以使用相同的界面。我還使用Frontier Model API輕鬆入門。
我希望它能幫助我處理電子郵件,所以我爲我的代理創建了一個電子郵件工具。我希望我的郵件保持隱私,所以我會添加一個在Spark上本地運行的開源模型。現在,對於任何任務,我希望代理能夠針對正確的任務使用正確的模型,因此我會使用基於意圖的模型路由。這樣,需要處理電子郵件的請求將保留在我的Spark上,其他所有內容都可以調用前沿模型。
我希望我的助手能與我的世界互動,所以我將它連接到Hugging Face的Ricci迷你機器人。我的代理通過工具調用來控制Ricci的頭部、耳朵和攝像頭。我想給Ricci一個聲音,我非常喜歡11 Labs,所以我會連接他們的API。你好,我是Ricci,運行在DGX Spark上。嘿,Ricci,我今天有什麼待辦事項?你今天的待辦事項是:買雜貨、雞蛋、牛奶、黃油,並將新腳本發送給Jensen。
好的,讓我們把那個更新發給Jensen,告訴他們我們會在今天結束前完成。會做到的,Richie。還有一個草圖。你能把它變成存檔嗎?Detrol渲染。不錯,現在製作一個視頻並帶我看看房間。給你。太棒了。有了Brev,我可以分享對我運動的訪問權以及Ricci。所以我要把它分享給Anna。嘿,Ricci,Potato在幹什麼?他正在沙發上。我記得。你不喜歡這個嗎?我會告訴他從沙發上下來。土豆從沙發上下來。
在開源的所有進展中,看到你能構建的東西真是令人難以置信。我很想看看你創造了什麼。這不是令人難以置信嗎?現在?令人驚奇的是,這現在變得非常容易。這現在完全微不足道。然而就在幾年前,所有這些都還是不可能的,絕對無法想象的。
這個基本框架,這種使用語言模型構建應用程序的基本方法,利用預訓練的語言模型,無論是專有的還是前沿模型,將其與定製化的語言模型結合到一個代理框架中,一個推理框架,允許您訪問工具和文件,甚至可能與其他代理連接。這基本上就是AI應用程序或現代應用程序的架構,而我們能夠以極快的速度創建這些應用程序。
請注意,如果你給它從未見過的應用信息,或者結構不完全如你所設想的那樣,它仍然可以通過推理盡力理解數據和信息,嘗試理解如何解決問題。這就是人工智能。
好吧,這個基本框架現在正被整合進一切東西里,我剛才描述的所有內容,我們有幸與一些世界領先的企業平台公司合作。例如Palantir,他們的整個AI和數據處理平台正在由英偉達加速整合。ServiceNow,世界領先的客戶服務和員工服務平台;Snowflake,雲中的頂級數據平台。那裏的工作令人驚歎。
一個代碼兔。我們在英偉達到處都在使用代碼兔。CrowdStrike,創建AI來檢測和發現AI威脅。NetApp,他們的AI,他們的數據平台現在有了英偉達語義AI加持,上面還有一個代理系統,用於提供客戶服務。但重要的是,這不僅是你現在開發應用程序的方式,而且將成爲你平台的用戶界面。
因此,無論是Palantir、ServiceNow、Snowflake還是我們正在合作的許多其他公司,代理系統就是接口。不再是帶有許多方格讓你輸入信息的Excel。也許不再只是命令行,所有那些多模態信息現在都成爲可能。你與平台互動的方式變得更加簡單,就像你在與人互動一樣。這就是企業AI被Ingen技術系統革命化的方式。
接下來是物理AI。這是我在過去幾年中一直談到的一個領域。事實上,我們已經在這個領域工作了八年。問題是,如何把計算機內部智能的東西,通過屏幕和揚聲器與你互動,變成可以與現實世界交互的東西,意思是它可以理解世界運作的常識?
物體恒存性。如果我移開視線再回頭看,那個物體仍然在那兒。因果關係。如果我推它,它就會倒下。它明白摩擦力、重力並且理解慣性。一輛重型卡車在路上行駛時需要更多時間才能停下。一個球會繼續滾動。這些概念連小孩子都懂,但對人工智能來說,卻完全未知。
所以我們必須創建一個系統,使人工智能能夠學習物理世界的常識,掌握其規律,當然還要能從數據中學習。而數據是非常稀缺的。爲了評估這個人工智能是否有效,意味着它必須在一個環境中進行模擬。如果人工智能無法模擬物理世界對其行爲的反應,它怎麼知道自己執行的操作是否符合預期?
對其行爲的反應進行模擬是非常重要的,否則就無法對其進行評估。每次都不一樣,因此這個基本系統需要三臺計算機。其中一臺當然是我們熟知的英偉達用來訓練AI模型的計算機;另一臺是用來推理計算和推理模型的計算機。推理模型本質上是一臺運行在汽車、機器人或工廠中的機器人計算機,在邊緣端運行。
但還必須有另一臺專爲模擬設計的計算機。模擬幾乎是我們英偉達所做一切的核心,這是我們最擅長的領域。模擬實際上也是我們過去在物理人工智能方面所做的幾乎所有工作的基礎。所以我們有三臺計算機和運行在這些計算機上的多個堆棧、這些庫使得它們有用武之地。
Omniverse 是我們的基於物理的數字孿生模擬世界。正如我之前提到的,Cosmos 是我們的基礎模型,不是語言的基礎模型,而是世界的基礎模型,並且它也與語言保持一致。你可以說:『你知道球發生了什麼嗎?』 它會告訴你球正沿着街道滾動。所以這是一個世界基礎模型。然後當然還有機器人模型,我們有兩個,其中一個叫Groot,另一個叫Alpa Mayo,我現在將爲你介紹。
我們在物理人工智能中最重要的一件事是創造數據來首先訓練人工智能。這些數據從哪裏來?我們並不是像處理語言那樣生成了一堆文本當作所謂的『真實基準』讓人工智能去學習。那麼,我們如何教人工智能掌握物理的真實基準呢?雖然有很多很多視頻,但遠遠不足以捕捉到我們所需要的多樣性和交互類型。
這就是爲什麼偉大的頭腦們匯聚一堂,把過去的計算能力轉化爲數據。現在通過由物理定律約束並以真實基準爲基礎的合成數據生成技術,我們可以智能地、有選擇性地生成數據,然後用這些數據來訓練人工智能。例如,輸入這個人工智能、這個Cosmos 世界模型的內容來自於左側的交通模擬器輸出。
然而,這個交通模擬器本身並不足以供人工智能學習。我們可以將其導入Cosmos基礎模型,並生成基於物理的、合理可信的環繞視頻,這樣人工智能就可以從中學習了。這樣的例子還有很多,讓我向你們展示Cosmos可以做到的事情。
對於物理人工智能而言,ChatGPT時刻即將到來,但挑戰顯而易見。物理世界多樣化且不可預測。收集真實世界訓練數據既緩慢又昂貴,而且永遠不夠。答案就是合成數據。這一切始於英偉達Cosmos——一個開放的前沿世界基礎模型,專爲物理人工智能設計。它經過互聯網規模的視頻、真實駕駛、機器人數據及3D模擬預訓練,Cosmos 學習到了統一的世界表示方法,能夠將語言、圖像、3D 和動作對齊。
它具備從單張圖像執行物理AI技能的能力,如生成、推理和軌跡預測。Cosmos 可以根據3D 場景描述生成逼真的視頻,基於駕駛、遙測和傳感器日誌生成物理上一致的運動,從規劃模擬器、多攝像頭環境或場景提示中生成環繞視頻。它讓邊緣情況變得生動起來。開發者可以在Cosmos中運行互動閉環模擬。當做出操作後,世界會有響應。Cosmos 進行推理,分析邊緣場景,將其分解爲熟悉的物理交互並推測接下來可能發生的情況。
Cosmos將計算轉化爲數據訓練,爲長尾和機器人如何適應每一種場景提供解決方案。我知道這聽起來令人難以置信。Cosmos是世界領先的基模型,全球基礎模型。它已經被下載了數百萬次,世界各地都在使用。讓世界爲這個物理AI的新時代做好準備。我們自己也在用它。我們用它來製造我們的自動駕駛汽車,用於場景生成,也用於評估。
我們可以擁有一些讓我們能夠有效行駛數十億、數萬億英里的東西,但在計算機內部實現這一目標。今天我們宣佈ALPA Mayo,世界上第一個擁有思考和推理能力的自動駕駛車輛AI。ALPA Mayo是從頭到尾進行端到端訓練的,從攝像頭輸入到執行輸出,這些攝像頭記錄了大量由其自身驅動的里程,有些是由人工駕駛演示的。並且我們還有大量由Cosmos生成的行駛數據。
除此之外,數十萬個例子被非常仔細地標記,以便我們能教會汽車如何駕駛。Alfa Mayo做了一些非常特別的事情。它不僅接收傳感器輸入並激活方向盤、剎車和加速器,還會推理它即將採取的動作。它會告訴你它將採取什麼行動、得出該行動的原因,以及當然,預期軌跡是什麼。
所有這些都直接相連,並通過大量人工訓練和Cosmos生成的數據進行了非常具體的訓練。結果是非常驚人的。您的汽車不僅能如您所期望的方式駕駛,而且駕駛得如此自然,因爲它們直接從人工演示者那裏學習到了技能。在每一個場景中,當遇到特定情況時,它會進行推理,告訴您它要做什麼,並解釋爲什麼這麼做。
現在,這樣做的原因很重要,因爲它涉及到駕駛中的長尾問題。我們不可能收集到所有國家、所有可能情況下發生的每個場景的所有數據。然而,把一個複雜情況分解成許多小的常見場景是很有可能的。這樣一來,汽車就能知道如何處理這些常見的小場景,只需要進行推理即可。
所以這些長尾問題會被分解爲汽車知道如何應對的常見場景。它只需要進行推理。那麼讓我們來看看接下來的內容。您即將看到的一切都是單次完成的。這是無需手控的導航至目的地。繫好安全帶。您已到達目的地。
我們八年前開始研究自動駕駛汽車,原因是我們在早期就推斷出深度學習和人工智能將重新定義整個計算堆棧。如果我們想要理解如何自主導航,並引導行業走向這個新未來,我們必須擅長構建整個計算堆棧。
正如我之前提到的,AI是一個五層蛋糕。最底層是燈塔功率和殼牌(Shell)。在機器人技術的情況下,最底層則是汽車。其上一層是芯片,包括GPU、網絡芯片、CPU等所有這類硬件。再往上一層是基礎設施。在這個特定案例中,正如我提到的針對物理AI的基礎設施是Omniverse和Cosmos。再往上一層是模型層。剛才展示的模型叫Alpa Mayo。
今天,Alpa Mayo已經開源。這個龐大的成果凝聚了幾千人的努力。我們的AV團隊有幾千人。舉個例子,我們的合作伙伴Ola,我想Ola也在觀衆席的某個地方。梅賽德斯-奔馳五年前同意與我們合作,推動這一切成爲可能。我們設想,未來某天道路上的一億輛汽車都將實現完全自動化。
您可以選擇讓它作爲無人出租車,由您操控並向他人出租,或者您自己擁有,它爲您自動駕駛;或者您也可以選擇自己駕駛。但每一輛車都會具備自動駕駛能力。每一輛車都將是AI驅動的。因此,在這種情況下,模型層就是Alpa Mayo,而之上的應用層則是梅賽德斯-奔馳。好的。
所以,整個技術堆棧是我們英偉達首個完整的項目,我們已經爲此投入了全部的時間。非常高興的是,英偉達的第一輛自動駕駛汽車將在第一季度上路。然後在第二季度進入歐洲市場,而美國則是在第一季度。我認爲亞洲會在第三和第四季度推出。令人振奮的是,我們會不斷通過下一代的Alpa Mayo及其後續版本進行更新。
毫無疑問,這將成爲最大的機器人產業之一。我很高興我們參與了這項工作,並且從中學習到了如何幫助世界構建機器人系統的巨大知識。這種深層次的理解讓我們知道如何自己設計整個基礎設施,以及機器人系統需要什麼樣的芯片。在這個特定的情況下,下一代雙Oran和雙Thor處理器就是爲此設計的。
這些處理器專爲機器人系統設計,並具備最高級別的安全能力。這款車剛剛投產。梅賽德斯-奔馳CLA剛剛被N cap評爲世界上最安全的車。這是唯一一個我所知道的每一行代碼都被安全認證的系統——芯片、系統,所有代碼都經過安全認證,整個模型系統基於傳感器的設計具有多樣性和冗餘性,自動駕駛堆棧也是如此。
Alpa Mayo堆棧端到端訓練,具備卓越的能力。然而,除非你永遠駕駛它,否則沒人能保證其絕對安全。因此,我們用另一個軟件堆棧來保障它的安全性,即整個AV堆棧下還有一層完全可追溯的堆棧。這花費了我們大約五到七年的時間才完成這個第二層堆棧的開發。
這兩套軟件堆棧相互鏡像,同時我們還有政策和安全評估器來決定是否能夠非常自信地進行安全駕駛。如果有信心,我會讓Alpamayo執行任務;如果環境不太確定,安全策略評估器會決定切換回更簡單、更安全的防護系統。然後回到經典AV堆棧,這是世界上唯一一輛運行兩套AV堆棧幷包含完整安全系統的車輛,所有安全系統均具有多樣性和冗餘性。
我們的願景是,終有一天每一輛車、每一輛卡車都將是自動駕駛的,我們一直在朝着這個未來努力。整個堆棧是垂直整合的。當然,在梅賽德斯-奔馳的案例中,我們共同構建了整個堆棧。我們將部署車輛並操作維護該堆棧直到長久使用。像我們公司做的其他事情一樣,儘管我們構建了整個堆棧,但該堆棧對生態系統是開放的。與我們一起合作構建L4級別自動駕駛及機器人出租車的生態系統正在擴展並且覆蓋全球。
我完全預料到這將是一個巨大的業務領域——實際上已經是我們的巨型業務了。這是因爲它們不僅用於訓練數據處理、模型訓練,有些情況下還用於合成數據生成。有些公司幾乎只是製造計算機或內部芯片,而另一些公司則採用全棧方式與我們合作,還有一些公司部分採用我們的技術。
好吧,不管你決定使用多少,我的唯一要求是儘量多用一點,你可以隨時拍攝視頻。現在整個東西都已經開放了。這將是第一個大規模主流的人工智能物理應用市場,我覺得我們現在可以完全達成共識。從非自動駕駛汽車轉向自動駕駛汽車的轉折點很可能就發生在這十年內。
我相當肯定,未來世界上的很大一部分汽車將會是自動駕駛或者高度自動化的。但我剛才描述的基本技術——使用三臺計算機、合成數據生成和仿真——適用於各種機器人系統。無論是單純的機械臂、操作器,還是移動機器人,甚至可能是完全擬人化的機器人。
因此,機器人系統的下一個旅程、下一個時代將是機器人本身。這些機器人將會以各種不同尺寸出現。我邀請了一些朋友,他們來了嗎?快點,我有很多內容要講。快點,R2D2你知道你將在這裏吧?C3PO,好的,快過來吧。
其中一件非常酷的事情就是你們就像《傑森一家》(Jetsons)。它們內部有小型的『傑森』計算機。他們是在Omniverse中進行訓練的。那麼,這個怎麼樣?讓我們向大家展示一下你們學習如何成爲機器人的模擬器,你們想看看嗎?好的,那我們來看看。請運行它。是不是很神奇?這就是你們學習成爲機器人的方法。整個過程都是在Omniverse中完成的,而機器人模擬器叫做Isaac,即Isaac SIM和Isaac Lab。
任何想要製造機器人的人都知道,沒人能比得上你們。但是現在看看這些,看看我們所有的朋友都在製造機器人。我們在製造大型機器人。不,正如我所說,沒有人會像你們這麼可愛。但我們有新的機器人,比如你們之前提到的合作方LG,他們剛剛宣佈了一款新機器人卡特彼勒(Caterpillar),這是有史以來最大的機器人。
那個機器人可以將食物送到你家,並且與Uber Eats相連接,那是送貨機器人。我非常喜歡那些傢伙。Agility、波士頓動力(Boston Dynamics)、太不可思議了!還有手術機器人,來自Franca的操控機器人,以及Universal Robotics的機器人,令人難以置信的各種機器人。所以,這是下一章的內容。未來我們將更多談論機器人技術,但最終不僅僅關於機器人本身。我知道一切都圍繞着你們展開。
關鍵是抵達那裏,其中一個最重要的全球產業即將被物理AI和AI物理學徹底革命化——正是這個產業讓英偉達(NVIDIA)誕生。如果不是因爲接下來我要談到的公司,這也不可能實現。我非常高興所有這些公司,從Cadence開始,都將加速一切。Cadence將其CUDA X集成到了所有的仿真和求解工具中。
他們使用英偉達(NVIDIA)的物理AI來處理不同的物理工廠和工廠模擬。無論是EDA還是SDA系統,甚至未來的機器人系統,基本的技術框架已經使得你們成爲可能,而現在將徹底革新這些設計堆棧。
在芯片設計領域,Synopsis和Cadence是完全不可或缺的。Synopsis在邏輯設計和IP方面處於領先地位;而對於Cadence來說,他們在物理設計、佈局佈線、仿真和驗證方面領先。Cadence在仿真和驗證方面表現卓越。他們兩個都在邁向系統設計和系統仿真的新時代。
因此,未來我們將在Cadence和Synopsis中設計你的芯片。我們會在這些工具中設計你的系統,仿真整個流程並模擬所有內容。這就是我們爲你創造的未來。是的,你將誕生於這些平台之中。非常驚人,對吧?所以我們非常高興正在與這些行業合作。
正如我們已將英偉達(NVIDIA)融入Palantir和ServiceNow一樣,我們正將其整合到計算量最大的仿真行業中,例如Synopsis和Cadence。今天,我們還宣佈西門子(Siemens)也在做同樣的事情。我們將把CUDA X、物理AI、Gentek AI、Nemo、Nemotron深度整合進西門子的世界。原因就在於此。
首先,我們設計了芯片,未來所有的步驟都將加速。英偉達(NVIDIA),對此你會感到非常高興。我們將擁有Gentek芯片設計師和系統設計師與我們一起工作,幫助我們進行設計,就像我們現在擁有Gentek軟件工程師幫助我們的軟件工程師編寫代碼一樣。因此,我們將擁有智能芯片設計師和系統設計師。我們將在這些系統內創造你,但之後我們必須建造你。
我們必須建造工廠、製造你的設施。我們必須設計組裝你們的生產線。這些製造工廠本質上將是巨大的機器人。太不可思議了,對吧?我知道。所以在你必須應對重力之前,你將長期在計算機中被設計、製造、測試和評估。我知道。你知道如何應對重力嗎?你能跳嗎?你能跳嗎?好吧,別炫耀了。
好的,所以……現在這個產業,讓英偉達得以誕生的產業,我們現在所創造的技術已經達到了一個複雜性和能力的水平,能夠幫助他們徹底革新他們的行業。而這一切都是從他們開始的,現在我們有機會回饋並幫助他們革新自己的領域。讓我們來看看我們將與西門子一起做的事情吧。
物理AI的突破正讓AI從屏幕走向我們的現實世界。正好趕上全世界正在建設各種芯片、計算機、救命藥物和人工智能工廠的時候。隨着全球勞動力短缺加劇,我們需要由物理AI和機器人驅動的自動化技術,比以往任何時候都更加迫切。這就是AI與全球最大實體產業交匯的地方,也是英偉達和西門子合作的基礎。
近兩個世紀以來,西門子一直在構建世界的工業體系,如今它正爲AI時代重塑這一領域。西門子正在將英偉達CUDA X庫、AI模型以及Omniverse整合到其EDA、CAE和數字孿生工具及平台中。通過共同努力,我們將把物理AI引入整個工業生命週期,從設計和仿真到生產和運營。我們正站在一場新的工業革命起點上,這是一場由英偉達和西門子共同打造的、爲下一代工業奠基的物理AI時代。
太不可思議了,對吧,各位?你們怎麼看?好,我會耐心等待,保持期待。所以……如果看看當今世界的模型,毫無疑問,Open AI是目前最大的代幣生成器。更多的Open AI代幣被生成,超過其他任何東西。第二大群體,可能是開源模型。我的猜測是,隨着時間的推移,由於有這麼多公司、研究人員以及不同類型的領域和模態,開源模型最終將成爲最大的部分。
讓我們來談談一個特別的人。大家想這樣做嗎?讓我們聊聊Vera Rubin。Vera Rubin?好的,繼續。她是一位美國天文學家。她是第一個觀察到……她注意到星系的尾部運動速度幾乎和星系中心一樣快。嗯,我知道這聽起來毫無道理。的確如此。根據牛頓物理學,就像太陽系一樣,距離太陽更遠的行星繞太陽運行的速度比靠近太陽的行星要慢。
因此,除非存在不可見的物體——我們稱之爲暗物質——否則這是說不通的。她發現了佔據空間卻看不見的暗體、暗物質。Vera Rubin就是我們下一臺計算機命名的靈感來源。這不是個好主意嗎?我知道,Vera Rubin旨在解決我們面臨的一個根本性挑戰:AI所需的計算量正在激增。對英偉達GPU的需求也在激增。
之所以呈爆炸式增長,是因爲模型每年都在以10倍的規模和數量級增加。而且正如我提到的,O1的引入是AI的一個轉折點,不再是單一答案輸出。推理現在已經成爲一個思考過程,爲了教會AI如何思考,強化學習和大量計算被引入到了後訓練階段。
不再僅限於監督微調,或稱爲模仿學習或監督訓練。現在有了強化學習,實際上是計算機在自我嘗試不同的迭代,學習如何完成任務。預訓練、後訓練以及測試時間擴展所需的計算量因此大增。
現在,每次我們進行推理時,不再是單次輸出代幣,你可以看到AI在思考,我們欣賞它的思考過程,通常考慮得越久,產生的答案越好。因此,測試時間擴展使得每年生成的代幣數量增加了5倍。更不用說,同時,AI的競爭正在加劇。每個人都在努力達到下一個水平,每個人都試圖邁向下一個前沿。
而每當人們到達下一個前沿,上一代AI代幣的成本開始每年下降約10倍。這種每年10倍的下降實際上說明了一些問題:競爭如此激烈,每個人都在努力達到下一個水平,而有人確實做到了。因此,這一切歸根結底是一個計算問題。你計算得越快,就能越早到達下一個前沿。
所有這些事情都在同時發生。所以我們決定,我們必須每年推進計算技術的最前沿,一年都不能落後。一年半前我們開始出貨GB 200。現在我們正在大規模生產GB 300。如果Verirubin要趕上今年的進度,現在必須已經投入生產。所以今天我可以告訴大家,Verirubin已經全面投產。
你們想看看Vera Rubin嗎?好吧,來,請播放一下。Vera Rubin正好趕上了AI的下一個前沿。這是我們如何構建它的故事。架構設計。一個由6個芯片組成的系統,被設計爲協同工作的整體,源於極端的共同設計。它始於Vera,一款定製設計的CPU,性能是上一代的兩倍,還有Ruben GPU。Vera和Ruben從一開始就被共同設計成雙向且連貫地快速共享數據,並具有更低的延遲。
接着,17,000個組件在一塊Vera Ruben計算板上組裝在一起。高速機器人以微米級精度放置組件。最後,Vera CPU和兩個Ruben GPU完成組裝,能夠提供100 petaflops的AI算力,是其前身的五倍。AI需要快速獲取數據。Connect X9爲每個GPU提供了1.6 Tbps的擴展帶寬。Bluefield 4 DPU卸載了存儲和安全任務,從而讓計算資源完全專注於AI。
Vera Rubin計算托盤經過全新設計,沒有任何電纜、軟管或風扇。集成了Bluefield 4 DPU、8個Connect X9網卡、2個Vera CPU和四個Ruben GPU。這是Vera Rubin AI超級計算機的計算構建模塊。接下來是第六代MV Link交換機,其傳輸的數據量超過了全球互聯網,連接了18個計算節點,擴展到72個Ruben GPU作爲一個整體運行。
然後是Spectrum X以太網光子學,世界上第一個擁有512通道和200Gbps能力的共封裝光學以太網交換機,可將數千個機架擴展爲一個AI工廠。自設計開始以來投入了15,000名工程師的工作年。第一臺Vera Rubin MVL 72機架已上線。6個突破性的芯片,18個計算托盤,9個MV Link交換托盤,220萬億個晶體管,重量接近2噸。邁向AI下一個前沿的一大步。Ruben已經到來。
大家怎麼看?這是一個Reuben Pod 11,有152個GPU和16個機架。正如你們所知,每個機架都有72個Verirubin或72個Reuben。每個Reuben實際上是兩個實際的GPU芯片連接在一起。我會展示給你們看。但有些事情,嗯,我待會再告訴你們。我不能一下子把所有東西都告訴你們。
我們設計了六種不同的芯片。首先,我們公司內部有個規則,這個規則很好。新一代產品不應該有多於一兩個芯片的變化。但問題是這樣的,正如你看到的,我們描述的是每顆芯片中晶體管的總數。我們知道Moore定律已經大幅放緩。因此,我們每年能獲得的晶體管數量根本無法跟上模型規模增長10倍的速度。
根本不可能跟上年復一年增加5倍的生成令牌速度。也不可能跟上令牌成本下降如此迅猛的事實。如果行業要繼續發展,除非我們採取激進的極端共同設計策略,即在整個堆棧中的所有芯片上同時創新,否則是不可能跟上這種增長率的。
這就是爲什麼我們決定這一代別無選擇,只能重新設計每一個芯片。剛才提到的每一個芯片本身都可以成爲一場新聞發佈會的主角。在過去,可能有一整家公司致力於做這件事。每一個芯片都完全是革命性的,並且在其領域是最好的。
Vera CPU。我對它感到無比自豪。在一個受功率限制的世界裏,Gray CPU的性能是原來的兩倍。在一個受功率限制的世界裏,它的每瓦性能是世界上最先進的CPU的兩倍。它的數據速率令人難以置信。它被設計用來處理超級計算機,Vera曾經是一個出色的GPS。Grace是一款出色的GPU。現在,Vera大大提高了單線程性能,增加了內存容量,一切都得到了極大的提升。這是一個巨大的芯片。
這是Vera CPU,這是一顆CPU,並且它連接到Ruben GPU。看看那個東西,這是一個巨大的芯片。現在最特別的事情是,我將逐步介紹這些內容,我認爲需要三隻手,不,四隻手才能完成這個操作。好的,這是Veris。Veris CPU擁有88個CPU核心,這些核心被設計成支持多線程的。
但Vera的多線程特性被設計爲使得每個176個線程都可以發揮其最大的性能。所以本質上就像有176個核心,但實際上只有88個物理核心。這些核心是使用一種叫做空間多線程的技術設計的。但它的IO性能非常驚人。這是Ruben GPU,它的浮點性能是Blackwell的5倍。
但最重要的是看底線。底線是,它的晶體管數量只是Blackwell的1.6倍。這在某種程度上說明了當今半導體物理學的水平。如果我們不做協同設計,如果我們不在整個系統中幾乎每一個芯片級別進行極端的協同設計,怎麼可能每年交付的性能提升最多隻能達到1.6倍?因爲那已經是晶體管總量的極限。
即使每個晶體管獲得稍高的性能,比如25%,也無法從現有的晶體管數量中實現100%的良率。因此,1.6倍實際上對每年的性能提升設置了一個上限,除非你採取一些極端措施,我們稱之爲極端協同設計。其中一項重大發明就是所謂的NV FP4張量核心。
我們芯片中的Transformer引擎不僅僅是一個我們放入數據路徑的4位浮點數。它是一個完整的處理器、一個處理單元,能夠動態和自適應地調整其精度和結構,以應對Transformer的不同層次的需求,從而在可能降低精度的地方實現更高的吞吐量,同時在需要的地方恢復到最高精度。
這種動態實現的能力無法通過軟件完成,因爲顯然運行速度太快,所以必須能夠在處理器內部自適應地完成。這就是MVFP4的作用。當有人說FP4或FP8時,對我們來說幾乎沒有意義,因爲真正起作用的是張量核心的結構以及所有相關的算法。
關於NVFP4,我們已經發表了相關論文。其在吞吐量和精度方面的表現非常出色,令人難以置信。這是開創性的工作。如果未來行業希望我們將這種格式和結構作爲行業標準,我也不會感到意外。這是完全革命性的。正因如此,儘管我們的晶體管數量只增加了1.6倍,卻能帶來如此巨大的性能飛躍。
好的,現在假設你有一個強大的處理節點,這是處理器節點,內部是這樣子的。舉個例子,讓我來演示一下。哇,超級重。你必須是體能非常好的CEO才能勝任這份工作。好吧,我猜這東西可能有幾百磅重吧。我覺得這也挺有趣的。拜託,不是所有人都走光了吧。我不這麼認爲。好了,繼續。
看看這個。這是最後一個。我們徹底革新了整個MGX機箱。這個節點過去有43根電纜,現在零電纜,6根管道。嗖,就這兩個。這裏,組裝這個需要兩個小時,如果你幸運的話,兩小時就夠了。當然,你很可能會裝錯,然後需要重新測試、檢測、再組裝。因此,組裝過程極爲複雜,這是我們早期超級計算機分解構造的方式之一,也是可以理解的。
從兩小時縮減到5分鐘,80%液冷,甚至100%液冷。真的,真的是一項重大突破。好了,這是新的計算機箱,它通過頂部機架交換機連接所有組件。東西向通信被稱爲Spectromax Nic。這無疑是世界上最好的Nic,Mellanox(英偉達旗下的網絡技術公司)的這項高性能計算網絡技術毫無疑問是全球最佳。
這些算法、芯片設計、所有的互連技術、所有在其上運行的軟件堆棧,絕對完全禁止DMA(直接內存訪問)在世界頂級水平上。而現在它具備了可編程RDMA(遠程直接內存訪問)和數據路徑加速器的能力,這樣我們的合作伙伴如AI實驗室可以創建自己的算法,決定如何在系統中移動數據。但這是世界級的,完全世界級的。Connect X、Connectx 9 和 Vera CPU 是共同設計的,我們從未公開過,直到CX9問世,因爲它是我們爲一種新型處理器共同設計的。
大家知道,Connectx 9 或 CX-8 和 Spectrum X 徹底改變了人工智能領域的以太網技術。用於AI的以太網流量要密集得多,需要更低的延遲。瞬時流量高峰是傳統以太網無法比擬的。因此我們開發了Spectrum X,也就是AI以太網。兩年前我們宣佈了Spectrum X,如今英偉達已成爲全球最大的網絡公司。
它非常成功,並被應用於許多不同的安裝項目,正在席捲整個人工智能領域。性能令人難以置信,尤其是當你擁有一個200MW的數據中心或者GW級數據中心時,這些數據中心價值數十億美元。假設一個GW級數據中心價值500億美元。如果網絡性能能提升額外的10%,在Spectrum X的情況下,提供高出25%的吞吐量並不罕見。如果我們只提升10%,就值50億美元。而網絡本身幾乎是免費的。
這就是爲什麼每個人都使用Spectrum X的原因。它的表現確實令人難以置信。而現在我們將發明一種新的數據處理方式。所以Spectrum X主要用於東西向流量。我們現在有了一個新的處理器叫Bluefield 4。Bluefield 4使我們可以將一個超大規模的數據中心進行分區隔離,讓不同的用戶使用其中的不同部分。
確保一切都可以根據需求虛擬化。你可以卸載大量的虛擬化軟件、安全軟件以及南北向流量使用的網絡軟件。因此Bluefield 4作爲標準配置出現在所有計算節點中。Bluefield 4還有一個我稍後會提到的第二個應用。這是一個革命性的處理器,我對它感到無比興奮。
這是MV Link 6交換機,就在這裏。這是這個交換機,這個交換芯片。在這個MV Link交換機內部有四個這樣的交換芯片。每一個交換芯片都創造了歷史上最快的系列。目前世界剛達到200Gbps,而這款交換機達到了400Gbps。之所以如此重要,是因爲它可以實現每個GPU同時與其他所有GPU通信。
這個位於機架背板上的交換機,可以讓我們以兩倍於全球互聯網數據的速度,傳輸相當於全球互聯網數據兩倍的流量。你把整個地球互聯網的橫截面帶寬加起來,大概是每秒100TB,而這臺機器能達到每秒240TB。這讓大家更清楚其意義——每個GPU都能在同一時間與所有其他GPU協同工作。
好的,然後在此之上,這是1個機架,每個機架都一樣。你們可以看到,這個機架中的晶體管數量是原來的1.7倍。對的,你能幫我做一下嗎?這通常重約兩噸,但今天是2.5噸,因爲他們發貨時忘記排水了。所以我們從加州運來了大量的水。你能聽到它發出的聲音嗎?當你轉這麼重的東西時,肯定會有一點聲音。你可以做到的。好的,我們就不用讓它再轉兩次了,可以嗎?
所以在它後面是MV link主幹,基本上有2英里的銅纜。銅是最好的導體,這些全是屏蔽銅纜、結構化銅纜,是有史以來計算機系統中使用最多的銅纜。我們的Serdes技術以每秒400Gbps的速度驅動着從機架頂端到底部的銅纜。這真的很驚人。
這裏有總計2英里長的銅纜,5000根銅纜,這才使得MV link主幹成爲可能。這一創新真正開啓了NGX系統的研發。我們決定建立一個行業標準系統,以便整個生態系統和供應鏈能夠圍繞這些組件標準化。這些MG X系統由大約80,000種不同組件構成,如果每年都要更改,那將是巨大的浪費。
每一個主要的計算機公司,從富士康到廣達,再到緯創,你知道,這個名單還在繼續,包括惠普、戴爾和聯想。每個人都知道如何構建這些系統。因此,我們能夠將魯本、維拉、魯本擠入其中,儘管性能高得多,更重要的是,功耗是兩倍。維拉·魯本的功耗是格蕾絲·布萊克威爾的兩倍。
然而,這就是奇蹟所在,進入系統的氣流基本相同。更重要的是,進入系統的水溫也是一樣的,45°C進,45°C出,數據中心完全不需要冷水機。我們基本上是用熱水來冷卻這台超級計算機,效率驚人。這就是新的機架,晶體管數量增加了1.7倍,但峰值推理性能提高了五倍,峰值訓練性能提高了3.5倍。
好的,它們頂部通過Spectrum X連接。哦,謝謝。這是世界上第一個使用台積電新工藝製造的芯片,我們共同創新稱之爲「coupe」。這是一種硅光子集成技術。這項技術使我們可以直接將硅光子集成到芯片上。這是一個擁有512個端口、每秒200千兆位的芯片。
這是新的以太網AI交換機,Spectrum X以太網交換機,看看這個巨大的芯片。真正令人驚歎的是它直接連接了硅光子,並且激光從這裏進來,激光從這裏進來,光學元件在這裏,它們連接到數據中心的其餘部分。數據中心。我待會再詳細展示,不過這是機架上方的部分,這是新的Spectromax硅光子交換機,對吧?
我們還有些新東西要告訴你。正如我之前提到的,幾年前我們推出了Spectromax,以便重新定義網絡的方式。以太網非常易於管理,每個人都有以太網協議棧,全世界每個數據中心都知道如何處理以太網。當時我們唯一使用的是一種叫做InfiniBand的技術,主要用於超級計算機。
InfiniBand的延遲非常低,但當然,整個軟件堆棧以及InfiniBand的可管理性對於使用以太網的人來說是非常陌生的。所以我們決定首次進入以太網交換機市場,推出了Spectrum X。這款產品迅速起飛,使我們成爲全球最大的網絡公司。正如我所提到的,下一代Spectrum X將繼續這一傳統。
正如我剛才所說,人工智能已經重構了整個計算堆棧,每一層計算架構都被重寫。可以合理推測,當人工智能開始在世界各大企業中部署時,它也將徹底改變存儲方式。AI不使用SQL,而使用語義信息。當AI被使用時,它會創建臨時知識、臨時內存調用,即KV緩存,鍵值組合。但這基本上就是AI的緩存,也就是AI的工作內存。
AI的工作記憶存儲在HBM內存中。每一個標記,GPU讀取模型的整個模型,它讀取整個工作內存並生成一個標記。然後它將那個標記存儲回KV緩存。接着下一次它再次進行操作時,會讀取整個內存,將其讀入並通過我們的GPU進行流式傳輸,然後生成另一個標記。
這個過程會反覆進行,逐個標記生成。顯然,如果你與這個AI進行了長時間的對話,隨着時間推移,這種上下文記憶將會顯著增長。更不用說模型本身也在擴展,我們正在使用的輪次數量,AI的數量也在增加。我們希望這個AI能夠陪伴我們一生,並記住我們與它進行的每一次對話,對吧?包括我向它索要的每一個研究細節。
當然,考慮到共享超級計算機的人數不斷增加,超級計算機也會持續擴展。因此,原本可以放入HBM中的上下文記憶現在已不足以滿足需求。去年,我們創造了Grace Blackwell非常快速的內存,我們稱之爲快速上下文記憶。這也是爲什麼我們將Grace直接連接到Hopper,將Grace直接連接到Blackwell,以此擴展上下文記憶。但即便這樣仍然不夠。
因此,下一個解決方案當然是進入網絡,即通往公司存儲的南北向網絡。但如果同時運行大量AIS,該網絡將不再足夠快。所以答案顯然是採取不同的方法。於是我們創建了Bluefield 4,以便在機架中擁有一個非常快速的KV緩存上下文內存存儲。
接下來我會在一秒鐘內向大家展示,但整個行業出現了一個全新的存儲系統類別。我對此感到非常興奮,因爲這是如今所有從事大量令牌生成的人的一個痛點。AI實驗室、雲服務提供商,他們因KV緩存移動引起的大量網絡流量而備受困擾。因此,我們提出創建一個全新平台和處理器來運行整個Dynamo KV緩存上下文內存管理系統,並將其放置得非常靠近其餘機架的想法,這完全是一項革命性的創新。
這就是它。它就位於此處。這些是所有的計算節點。每個節點都是MV Link 72。這是Vera Ruben MV Link 72144 Ruben GPU。這裏存儲的是上下文內存。每個節點背後有四個Bluefields。每個Bluefield背後是150千兆、150TB的內存——上下文內存。對於每個GPU,一旦分配到各個GPU上,它會額外獲得16TB的內存。
在此節點內部,每個GPU基本上擁有1TB內存。現在通過這裏的後備存儲直接連接在同一東西向流量上,數據速率完全相同,達到200Gbps,橫跨這個計算節點的整個架構,你將額外獲得16TB的內存。好的,這是管理平面。這些是Spectrum X交換機,它們將所有設備連接在一起;而末端的這些交換機則將它們連接到數據中心的其他部分。好的。
這就是Vera Rubin。有幾個方面特別令人驚歎。首先是我提到的一點,即整個系統的能效是原來的兩倍,從溫度性能的角度來看,儘管能耗翻倍,但能量使用量也是兩倍,然而其計算能力卻提高了許多倍。
但流入其中的液體仍然保持在45°C,這使我們能夠節省全球數據中心約6%的電力。這是一個非常大的改進。第二個重大改進是,整個系統現在實現了安全的機密計算,意味着所有內容在傳輸過程中、靜止狀態和計算期間都經過編碼,每一條總線現在都已加密。每條PCI Express、每條MV Link、每一個CPU與GPU之間、GPU與GPU之間的八條MV Link全都進行了加密。因此,它實現了機密計算的安全性。
這使得企業可以放心地將其模型交由他人部署,但絕不會被其他人看到。好的。因此,這一特定系統不僅具有驚人的能源效率,還有一個由於AI工作負載特性而帶來的驚人之處:在名爲Allreduce的計算層下,能耗瞬時激增。雖然電流和能耗急劇上升且幅度往往高達25%,但現在我們在整個系統上實現了功率平滑化。
因此,你無需過度配置25倍的電力,或者如果確實要過度配置25倍的電力,也不必浪費或閒置25%的電量。現在你可以充分利用整個電力預算,而不必超前配置。最後一點當然就是性能。
讓我們來看看它的性能。這些圖表只有那些構建AI超級計算機的人才會喜歡。它對每一顆芯片進行了徹底重新設計,對每一個系統重新打造並重寫了整個技術棧,才使得這一切成爲可能。簡單來說,這就是訓練AI模型的過程。第一列顯示的是,AI模型訓練得越快,就越能更快把下一代前沿成果推向世界。這是你的上市時間,這是技術領導力,這是你的定價權。
以綠色爲例,本質上這是一個A10萬億參數模型。我們基於深度學習擴展了它,所以我們稱其爲『深度學習Plus』。一個10萬億參數模型在100萬億個令牌上的訓練。這是我們對未來前沿模型所需資源的模擬預測。Elon已經提到,Grok的下一個版本,Grok 5,我認爲有7萬億參數。所以這是10萬億參數的模型。
而表現良好的是Blackwell。在Reuben的情況下,請注意其吞吐量要高得多。因此,只需要1/4數量的這些系統就能在一個我們設定的時間內訓練模型,也就是一個月,對吧。所以時間對每個人來說都是一樣的。你能多快訓練這個模型以及你能訓練多大規模的模型決定了你能否首先到達前沿。
第二部分是你的工廠吞吐量。Blackwell再次表現出色,工廠的吞吐量非常重要,因爲以GW爲單位來計算的話,一個工廠價值500億美元。一個500億美元的數據中心只能消耗1GW的電力。因此,如果你每瓦性能和吞吐量非常好而不是較差,那將直接轉化爲你的收入。數據中心的收入直接與第二個指標相關。
在Blackwell的情況下,它的性能是Hopper的10倍。而在Reuben的情況下,它又將高出大約10倍,對吧。現在來看生成標記的成本效益,這指的是生成每個標記的成本。Reuben的表現約爲1/110,正如Yep的情況一樣。這就是我們將如何把所有人帶到下一個前沿,推動AI達到新的水平,當然也要以節能和成本高效的方式建造這些數據中心。
這就是全部了。這就是今天的英偉達(NVIDIA)。我們提到我們製造芯片,但正如你們所知,英偉達現在構建的是整個系統,而AI是一個全棧技術。我們正在從芯片到基礎設施、模型和應用等方方面面重新定義AI。我們的任務是創建整個堆棧,這樣你們就可以爲世界其他地方創造令人難以置信的應用程序。感謝大家的到來。希望大家能在CES有一個愉快的體驗。在我放你們走之前,我們刪掉了很多幻燈片。我們不得不留下一些未展示的內容,所以我們這裏有一些花絮。我覺得你們會覺得有趣。祝你們有很棒的CES體驗。
旁白
旁白:英偉達(NVIDIA)在CES現場直播。第四次拍攝標記。Boom Mike行動。抱歉各位。平台轉移,嗯?應該可以了吧。開拍,調整綠色遮光板。開心綠色。這是世界上最強大的人工智能超級計算機,你可以把它插在烤麪包機旁邊的插座上。嘿,夥計們,我又卡住了。非常抱歉。這張幻燈片永遠也不會成功。我們就把它刪掉吧。你好,能聽到我嗎?
就像我剛才說的路由器,因爲並不是每個問題都需要最大最聰明的模型,只需要合適的模型即可。不,不,不要遺漏任何一個。全新的六芯片Reuben平台構成了一臺出色的人工智能超級計算機。給你,小傢伙。哦不,千萬不要涉及到擴展法則。車上有一隻松鼠。準備好讓那隻松鼠離開。溫柔地請松鼠挪走。你知道今天最好的模型都是由專家混合而成的嗎?
詳細信息請訪問 英偉達投資者關係
提示:此摘要由AI語言模型基於公開可用的信息生成,包括自動生成的字幕和第三方來源公開發布的音頻。儘管已盡力確保準確性,但AI生成的內容可能包含錯誤或遺漏。請參考各自上市公司發佈的官方材料以獲取最準確和最新的信息。 本內容僅供參考,不構成投資建議或購買或出售任何投資產品的推薦。所呈現的觀點和摘要不代表moomoo的官方立場。Moomoo不對本內容的準確性、及時性或完整性作出任何明示或暗示的保證,並且對於因使用本內容而產生的任何損失概不負責。原始電話會議內容的版權歸各自上市公司所有。
免責聲明:此内容由Moomoo Technologies Inc.提供,僅用於信息交流和教育目的。 更多信息
42
121
31
173
13
7
7
+0
253
原文
舉報
瀏覽 13.9萬