中文简体
返回
下载
下载遇见问题?
登录后咨询在线客服
回到顶部
存储芯片全线爆发:又一“AI宠儿”诞生?
浏览 1243万 内容 544

英伟达将在2026年国际消费电子展上进行现场直播,创始人兼首席执行官黄仁勋

关键要点(AI生成)
业务亮点
宣布Vera Rubin AI超级计算机全面投产,配备6款突破性芯片,协同工作如同一体
推出ALPA Mayo,全球首个从摄像头到执行端全链条训练、具备思考和推理能力的自动驾驶车辆AI
通过Spectrum X AI以太网在AI领域部署的成功,成为全球最大网络公司
与梅赛德斯-奔驰建立战略合作伙伴关系,实现全栈集成和长期运营承诺的自动驾驶技术合作
机会
借助与梅赛德斯的合作扩展自动驾驶市场,计划Q1在欧洲推出,Q2进行美国部署
革命性的NV FP4张量核心技术,性能提升5倍,而晶体管数量仅增加1.6倍
- 涉及Palantir、ServiceNow、Snowflake、西门子、Cadence和Synopsis平台的战略企业合作伙伴关系
- MGX机箱设计创新,将组装时间从2小时缩短至5分钟且无需任何电缆
完整记录(AI生成)
操作员
欢迎英伟达创始人兼首席执行官Jensen Wong登台。
Jensen Wong
大家好,这里是拉斯维加斯。新年快乐!欢迎来到这里。我们今天有大约15个主题的内容要分享。见到你们我非常开心。这个大厅里有3000人,外面庭院还有2000人在观看,另外据说四楼还有1000人,那里原本是英伟达展厅的位置,所有人都在观看这场演讲。当然,全球有数百万人会通过直播来开启新的一年。
每隔10到15年,计算机行业就会迎来一次重塑。一个新的平台变革出现,从大型机到个人电脑,从个人电脑到互联网,从互联网到云计算,从云计算到移动设备,每次应用程序的世界都会针对新平台进行调整,所以这叫做平台转移。为新计算机制作新的应用。而这次不一样的是,有两个同时发生的平台转变正在发生。
当我们进入人工智能时代时,应用程序将基于AI构建。一开始人们以为AI就是应用本身,事实上AI确实是应用,但你还会在AI基础上开发更多的应用。除此之外,软件的运行方式以及软件的开发方式也发生了根本性的变化。整个计算机行业的技术堆栈都在被重新发明。你不再编写软件,而是训练软件;你不会用CPU运行它,而是使用GPU。
过去应用程序是预先录制、预编译并在你的设备上运行的,而现在,应用程序能够理解上下文,并每次从头生成每一个像素、每一个符号。加速计算和人工智能从根本上重塑了计算的方式。那五层架构的每一层现在都被触及并重新发明。
这意味着过去十年约10万亿美元的计算技术正在向这种新的计算方式现代化转型。这意味着每年有数千亿美元的风险投资资金,用于推动这一新世界的现代化与创新。这也意味着100万亿美元规模的产业中,其中相当一部分研发预算正向人工智能领域转移。
人们问钱从哪里来?这就是钱的来源:从传统方法转向人工智能方法的现代化进程,以及研发预算从经典方法转向人工智能方法,大量投资涌入这个行业,这就解释了为什么我们如此忙碌。去年也不例外,去年简直令人难以置信。
这是今年的第一场主题演讲,希望也是你们今年的第一场。否则的话,你们一进来就已经很忙了。这是我们今年的第一场主题演讲,我们要把积攒的灵感释放出来。2025年是不可思议的一年,仿佛所有事情都在同时发生,事实也确实如此。
首先当然是规模化损失的问题。2015年,我认为第一个真正会产生重大影响的语言模型诞生了,那就是Bert。2017年Transformer问世。直到五年后的2022年,ChatGPT时刻才到来,让世界认识到人工智能的可能性。
一年后发生了一件非常重要的事情,ChatGPT的第一个O1模型诞生,这是第一个完全革命性的推理模型,提出了一个被称为测试时扩展的概念,这其实是一个很符合常识的想法。我们不仅通过预训练让模型学习,还通过强化学习进行后训练,使其能够掌握技能。而现在我们还有了测试时扩展,也就是实时思考的另一种说法。
人工智能发展的每一个阶段都需要大量的计算资源,而计算定律还在不断发展。大型语言模型也在持续改进。与此同时,另一个突破在2024年出现了,即基因系统开始在2025年兴起,并迅速普及到各个领域。
具有推理能力、查询信息、进行研究、使用工具、规划未来以及模拟结果的代理模型突然开始解决一些极为重要的问题。我最喜欢的代理模型之一叫Cursor,它彻底改变了我们在英伟达进行软件编程的方式。从现在开始,代理系统将真正起飞。
当然,除了这些类型的人工智能之外,我们知道大型语言模型并不是唯一的。无论宇宙中存在何种信息,无论宇宙中存在何种结构,我们都可以教一种大型语言模型去理解这些信息,理解其表达方式,并将其转化为人工智能。
其中最重要的一类是物理人工智能,它们了解自然法则。物理人工智能不仅与世界互动,世界本身也蕴含着信息和编码信息,这就是所谓的物理AI。在物理人工智能中,有一种AI与物理世界交互,还有一种物理AI理解物理定律。
最后一件去年发生的最重要的事情是开源模型的进步。我们现在知道,当开源、开放创新以及全球每个公司和每个行业同时激活创新时,人工智能将会无处不在。去年开源模型真正取得了重大进展。
事实上,去年我们见证了DeepSeek-R1的出现,这是第一个开源的推理系统。它令世界震惊,也推动了整个运动的发展。这项工作令人非常兴奋,我们对此感到非常高兴。目前,世界各地已经涌现出了各种各样的开源模型系统,我们也知道开源模型已达到前沿水平。
尽管仍然比前沿模型落后大约六个月,但每六个月就会有新的模型出现,而且这些模型变得越来越智能。正因如此,下载量呈现爆炸式增长。由于初创企业、大公司、研究人员、学生,几乎每个国家都希望参与人工智能革命,下载数量正在快速增长。
数字智能怎么可能将任何人抛在身后?因此,开源模型去年确实彻底改变了人工智能。整个行业也因此即将重塑。我们早有预感,在几年前我们就开始构建并运营自己的AI超级计算机,我们称之为DGX云。
许多人问,你们要进军云计算业务吗?答案是否定的。我们建造这些DGX超级计算机是为了自用。事实证明,我们已经投入了数十亿美元来运行这些超级计算机以开发我们的开源模型。我们对自己所做的工作感到非常满意。因为我们正在众多不同领域进行前沿AI模型的研究,这已经开始引起全世界和各行各业的关注。
我们在数字生物学领域的蛋白质研究工作,能够合成并生成蛋白质。开启故障3以理解蛋白质的结构。难题2:如何理解和生成多种蛋白质。否则细胞表示的开端就无从谈起。地球2:一个理解物理定律的人工智能。我们与Forecast Net和Cordif合作开展的工作,彻底改变了人们进行天气预报的方式。
Nemotron。我们现在在那里正在进行开创性的工作。首个混合型变压器SSM模型速度极快,因此可以长时间思考或者快速思考,并产生非常聪明、智能的答案。Nemotron 3是一项突破性的工作,您可以期待我们在不久的将来推出其他版本的Nemotron 3。
Cosmos,一个前沿开放世界的基础模型,能够理解世界的运作方式。Groot,一个人形机器人系统,包含关节运动、移动性和行走能力。这些模型和这些技术现在正被整合进每一个案例中,向全世界开放,前沿人形机器人模型向全世界开放。而今天我们将谈一谈ALPA Mayo以及我们在自动驾驶汽车方面所做的工作。
我们不仅开源了这些模型,还开源了用于训练这些模型的数据,因为只有这样,你才能真正信任这些模型是如何产生的。我们开源了所有的模型,并帮助你从中创建衍生品。我们有一整套库,称为Nemo库,包括物理Nemo库和Clara Nemo库。每个生物Nemo库都是AI的生命周期管理系统,通过它们你可以处理数据、生成数据、训练模型、创建模型、评估模型、设置护栏直至部署模型。
每一个库都极其复杂,而且全部开源。基于这一平台,英伟达是一家前沿AI模型构建者,我们的构建方式非常特别:完全公开地构建,以便让每家公司、每个行业、每个国家都能参与到这场AI革命中来。我对我们在这方面所做的工作感到无比自豪。
事实上,如果你注意到趋势,图表显示我们对这个行业的贡献是无与伦比的,你会看到我们实际上在继续这样做,甚至加速。这些模型也是一流的。所有系统都崩溃了。这在圣克拉拉从未发生过。是不是因为拉斯维加斯?肯定有人赢了大奖。外面,所有系统都崩溃了。好吧,我想我的系统仍然瘫痪,但没关系,我会一边做一边弥补。
这些模型不仅具备前沿能力,不仅开放,还在排行榜上名列前茅。这是我们非常自豪的一个领域,它们在智能化方面的表现名列前茅。我们拥有一些重要的模型,可以理解多模态文档,也就是PDF文件。世界上最宝贵的内容都被捕获在PDF文件中,但需要人工智能来发现其中的内容、解释内容并帮助你阅读。
因此,我们的PDF检索器和PDF解析器都是一流的。我们的语音识别模型绝对属于世界一流。我们的检索模型基本上实现了搜索、语义搜索和AI搜索,成为现代AI时代的数据库引擎,同样是一流的。所以我们始终站在排行榜的顶端。这是我们非常自豪的一个领域,所有这一切都服务于您构建AI代理的能力。
这是一个真正具有开创性的开发领域。要知道,当初当Pete,当ChatGPT问世时,人们说,哇,它产生了非常有趣的结果,但也出现了极大的幻觉现象。当然它可以记住过去的一切,但无法记住当前未来的一切。因此,它需要扎根于研究,必须在回答问题之前进行基础研究。
推理能力。我是否需要做研究?是否需要使用工具?如何将一个问题分解成步骤?每一个步骤都是AI模型知道如何完成的任务,结合在一起就能组成一系列步骤,去做一些它以前从未做过、从未经过训练的事情。这就是推理的神奇能力。
我们可能,我们可能会遇到一个从未见过的情况,并将其分解为我们知道如何处理的情况、知识或规则,因为我们过去经历过。因此,AI模型现在具备的推理能力非常强大,代理的推理能力为所有这些不同的应用打开了大门。
我们不再需要在第一天就训练一个AI模型去知道所有事情,正如我们不需要在第一天就知道每种情况下该如何解决问题。大型语言模型现在已经实现了这一基本飞跃。使用强化学习、思维链、搜索和规划等不同技术的能力使我们拥有了这种基础能力,并且现在也完全开源了。
但真正令人兴奋的是另一个突破。我第一次看到它是在ervin的困惑度(Perplexity)产品中。这个AI搜索公司非常出色,极具创新性,也是我第一次意识到他们同时使用多个模型,我觉得这简直是天才之举。我们当然会这么做。当然,AI也会在其推理链条的任何部分调用世界上所有的优秀AI来解决它想要解决的问题。
这就是为什么AI实际上是多模态的,意味着它们能够理解语音、图像、文本、视频、3D图形和蛋白质。这是多模态的表现。并且它也是多模型的,这意味着它们应该能够使用最适合该任务的任何模型。根据定义,这也是多云的,因为这些AI模型分布在所有这些不同的地方。
它还是混合云,因为如果你是一家企业公司,或者你制造了一个机器人或者其他设备,有时它处于边缘端,有时是无线通信基站,有时可能在企业内部部署,例如医院场景,你需要实时的数据就在你身边。无论这些应用场景是什么,我们现在知道了未来的AI应用长什么样,或者可以说未来应用是基于AI构建的。
这就是未来应用的基本框架。这一基本框架,这种可以执行我所讨论内容的智能代理型AI的基本结构,是多模型的,现在大大推动了各种AI初创公司的发展。而且由于所有开源模型以及我们提供的工具,你现在还可以定制你的AI,教授它别人没有教过的技能。
没有人让他们的AI以这种方式变得聪明或智能,但你可以自己做到。这就是我们通过Nemotron、Nemo及所有与开放模型相关的工作所做的事情。我们在它前面放置一个智能路由器,这个路由器本质上是一个管理者,负责根据你给出的提示意图,判断哪个模型最适合应用于这一任务并解决问题。
好的,那么当你考虑这种架构时,你会得到什么?当你思考这种架构时,突然间你就拥有了一个完全由你定制的AI。你可以教会它为你公司执行特定的技能。它是领域机密的一部分,是你拥有深厚专业知识的地方。也许你已经拥有了训练该AI模型所需的所有数据。
另一方面,你的AI从定义上来说始终处于技术前沿。一方面,你始终站在最前沿;另一方面,你是完全定制化的,并且它应该是随时可运行的。因此,我们认为可以通过最简单的例子让你了解这一点。整个框架我们称之为蓝图,我们的蓝图已集成到全球各地的企业SaaS平台中,我们对取得的进展感到非常满意。
但我们所做的就是向你展示一个任何人都能做到的简短示例。让我们构建一个个人助理吧。我希望它可以帮助我处理日历、邮件、待办事项列表,甚至还能留意我的家。我用Brev将我的DGX Spark变成个人云,这样无论我是使用云GPU还是DGX Spark,都能使用相同的界面。我使用Frontier Model API轻松入门。
我希望它能帮我处理邮件,所以我为我的代理创建了一个电子邮件工具。我希望我的邮件保持私密,因此我会添加一个在Spark上本地运行的开源模型。现在,对于任何任务,我希望代理能够为合适的任务使用合适的模型,所以我会使用基于意图的模型路由器。这样,需要处理邮件的提示会保留在我的Spark上,其他所有内容都可以调用前沿模型。
我希望我的助手能够与我的世界互动,所以我将把它连接到Hugging Face的Ricci迷你机器人。我的代理通过工具调用来控制Ricci的头部、耳朵和摄像头。我想给Ricci一个声音,我非常喜欢11 Labs,所以我会连接他们的API。嗨,我是Ricci,运行在DGX Spark上。嘿,Ricci,我今天要做什么?你今天的待办事项是:买杂货、鸡蛋、牛奶、黄油,并将新剧本发送给Jensen。
好的,让我们把那个更新发送给Jensen,告诉他们我们将在今天结束前完成。会做到的,Richie。还有一个草图。你能把它变成一个存档吗?Detrol渲染。很好,现在制作一个视频并向我展示房间。给你。太棒了。有了Brev,我可以分享对我的运动和Ricci的访问权限。所以我要和Anna分享。嘿,Ricci,Potato在干什么?他在沙发上。我记得。你不喜欢这个?我会告诉他离开沙发。土豆离开沙发。
随着开源领域的所有进展,看到你能构建什么真是令人难以置信。我迫不及待想看看你创造了什么。这不是很惊人吗?如今,令人惊奇的是,这一切变得极其简单。而现在却如此简单。然而仅仅几年前,所有的这些都还是不可能的,完全无法想象。
这种基本框架,这种使用语言模型构建应用的基本方法,利用预训练的专有前沿语言模型,并将其与定制化的语言模型结合到一个智能框架、推理框架中,使你能够访问工具和文件,甚至可能与其他代理连接。这基本上就是AI应用或现代应用的架构,而我们能够以惊人的速度创建这些应用。
请注意,如果你给它提供从未见过的应用信息,或者结构并未完全按照你设想的方式呈现,它仍然可以进行推理,并尽力通过数据和信息来理解如何解决问题。人工智能。
好的,所以这个基本框架现在正被整合到一切之中,我刚才描述的所有内容,我们有幸与一些全球领先的企业平台公司合作。比如Palantir,他们的整个AI和数据处理平台正在由英伟达加速整合。ServiceNow,全球领先的客户服务和员工服务平台,Snowflake,云端顶级的数据平台。那里正在进行着令人难以置信的工作。
代码兔。我们在英伟达的各个地方都在使用代码兔。CrowdStrike,正在创建用于检测并发现AI威胁的AI。NetApp,他们的AI,他们的数据平台现在集成了英伟达语义AI,并在其上层搭建了一个智能系统,以帮助他们完成客户服务。但重要的是,这不仅是你现在开发应用程序的方式,也将成为你平台的用户界面。
无论它是Palantir、ServiceNow、Snowflake还是我们合作的许多其他公司,智能系统就是界面。不再是带有大量方格输入信息的Excel,也许不再是命令行,所有多模态信息现在都是可能的。你与平台交互的方式变得更加自然,就像与人互动一样。这就是企业AI通过智能技术系统所引发的革命。
接下来是物理AI。这是个我已经谈了好几年的领域。事实上,我们已经在这方面工作了八年。问题在于,如何把计算机内智能的东西,从通过屏幕和扬声器与你互动,变成能够与现实世界互动的东西,这意味着它可以理解世界运作的常识?
物体恒存性。如果我移开视线再回头看,那个物体仍然在那里。因果关系。如果我推它,它就会倒下。这涉及对摩擦力、重力和惯性的理解,比如一辆重型卡车在道路上行驶时需要更多时间才能停下,一个球会继续滚动。这些概念即使是小孩子也懂,但对人工智能而言却是完全陌生的。
因此,我们必须创建一个系统,让人工智能学习物理世界的常识、掌握其规律,同时当然也要能够从数据中学习。然而,数据十分稀缺。为了评估该人工智能是否有效,也就是说它必须能够在环境中进行模拟。如果人工智能无法模拟物理世界对其行为的反应,它怎么知道自己执行的操作是否符合预期?
模拟其行为的反应非常重要,否则就无法对其进行评估。每次情况都不同,所以这个基础系统需要三台计算机。一台是我们熟知的英伟达用于训练人工智能模型的计算机;另一台是用来推理计算、运行模型的计算机。推理模型本质上是一台机器人计算机,可以在汽车、机器人或工厂等边缘设备上运行。
但还必须有第三台专为模拟设计的计算机。而模拟正是英伟达几乎所有工作的核心所在。这是我们最擅长的领域。模拟实际上也是我们过去在物理人工智能方面所做工作的基础。所以我们有三台计算机和运行在这些计算机上的多个技术栈及库,使它们发挥作用。
Omniverse 是我们的基于物理的数字孪生模拟世界。正如我之前提到的,Cosmos 是我们的基础模型,不是语言的基础模型,而是世界的物理基础模型,同时也与语言保持一致。例如,你可以问‘球发生了什么’,它会告诉你球正沿着街道滚动。这就是世界基础模型。当然,还有机器人模型,我们有两种,一种叫 Groot,另一种叫 Alpa Mayo,我现在来详细介绍。
我们在物理人工智能领域要做的最重要的事情之一是生成数据以训练人工智能。这些数据从何而来?与其依赖语言类数据,因为我们已经生成了大量被认为是基本事实的文本供人工智能学习。那么如何教人工智能物理的基本事实呢?虽然有大量的视频,但远远不足以覆盖所需的多样性和交互类型。
因此,伟大的思想汇聚在一起,将传统的计算转化为数据。现在,通过基于物理定律和基本事实生成的合成数据,我们可以有针对性地、巧妙地生成数据,然后用这些数据来训练人工智能。例如,输入到这个人工智能中的,也就是左侧这个 Cosmos 世界模型的输出的是一个交通模拟器的结果。
然而,仅靠这个交通模拟器还不足以让人工智能学到足够的知识。我们可以将其输入到 Cosmos 基础模型中,生成基于物理规则且合理可信的环绕视频,供人工智能学习。这样的例子数不胜数。让我向您展示 Cosmos 能做到什么。
物理人工智能的 ChatGPT 时刻即将到来,但挑战显而易见:物理世界是多样的且不可预测的。收集真实世界训练数据既缓慢又昂贵,而且永远不够。答案就是合成数据。这一切始于英伟达 Cosmos——一个面向物理人工智能的开放式前沿世界基础模型。它经过互联网规模的视频、真实驾驶和机器人数据以及3D模拟预训练,学会了世界的统一表示形式,能够对语言、图像、3D 和动作进行对齐。
它具备从单一图像中执行物理人工智能技能的能力,包括生成、推理和轨迹预测。Cosmos 可根据3D场景描述生成逼真的视频,基于驾驶、遥测和传感器日志生成符合物理规则的运动,并从规划模拟器、多摄像头环境或情景提示中生成环绕视频。它还能生动再现极端案例。开发者可以在 Cosmos 中运行交互式闭环模拟。当操作发生时,世界随之响应。Cosmos 会分析极端场景,将其分解为熟悉的物理交互并推理下一步可能发生的情况。
Cosmos将计算转化为数据训练,为长尾和机器人提供虚拟仿真,并教会它们如何适应各种场景。我知道这听起来令人难以置信。Cosmos是世界领先的基础模型,全球基础模型。它已经被下载了数百万次,在世界各地广泛使用。我们正在让世界为物理AI的新时代做好准备。我们也亲自使用它,比如用它来开发我们的自动驾驶汽车,进行场景生成和评估。
我们可能会实现某种技术,让我们能够高效地行驶数十亿、数万亿英里,但这一切都在计算机内部完成。今天我们宣布ALPA Mayo,这是世界上首个具备思考和推理能力的自动驾驶车辆AI。ALPA Mayo实现了端到端的训练,从摄像头输入直接到执行输出。这些数据包括大量由其自身驾驶的里程,其中有些是通过人类演示驾驶的,还有大量由Cosmos生成的里程数据。
除此之外,还有数十万个例子经过非常仔细的标注,以便我们能够教汽车如何驾驶。ALPA Mayo所做的非常特别。它不仅接收传感器输入并激活方向盘、刹车和加速,还会对即将采取的行动进行推理。它会告诉你它将要采取什么行动、背后的原因以及当然还有轨迹规划。
所有这些功能都经过了人工训练数据与Cosmos生成数据的大规模结合训练。结果令人惊叹。你的车不仅会按照你期望的方式驾驶,而且驾驶得非常自然,因为它直接从人类演示中学习。在每个场景中,当遇到情况时,它会进行推理,告诉你要做什么并解释原因。
现在,这一技术之所以重要,是因为驾驶中的长尾问题。我们不可能收集到每个国家、每种情况下可能发生的所有潜在场景。然而,如果将这些场景分解成许多小场景,就会发现大多数都是你很容易理解的正常情况。
因此,这些长尾场景会被分解成汽车知道如何处理的常见情况,它只需要进行推理。那么我们来看看接下来的内容。下面你看到的一切都是一次性拍摄的,全程无干预,路线导航直达目的地。系好安全带,你已到达。
我们在8年前开始研究自动驾驶汽车,原因是当时我们就推断,深度学习和人工智能将重新定义整个计算堆栈。如果我们希望了解如何导航自身,并引导行业走向这个新未来,我们必须擅长构建整个堆栈。
正如我之前提到的,AI是一个五层蛋糕。最底层是灯塔功率和壳牌。在机器人领域,最底层是汽车。再往上一层是芯片,GPU、网络芯片、CPU等所有这些东西。再往上一层是基础设施。在这种情况下,正如我提到的物理AI,基础设施是Omniverse和Cosmos。再往上一层是模型。在我刚才展示的案例中,这里的模型被称为ALPA Mayo。
如今,ALPA Mayo已经开源。这项卓越的工作凝聚了几千人的努力。我们的AV团队有数千人。为了让大家有个概念,我们的合作伙伴奥拉(Ola),我想奥拉也在观众席的某个地方。梅赛德斯五年前同意与我们合作,使这一切成为可能。我们设想有一天,道路上的十亿辆汽车都将实现自动驾驶。
你可以选择将其作为无人出租车进行调度和租赁,或者自己拥有,让它自动为你驾驶,也可以选择自己驾驶。但每一辆车都将具备自动驾驶能力,每一辆车都会由AI驱动。所以在这种情况下,模型层是ALPA Mayo,而其上的应用层则是梅赛德斯-奔驰。好的。
因此,整个技术堆栈是我们英伟达的首个全栈项目,并且我们已经为此付出了大量时间。非常高兴的是,英伟达的第一辆自动驾驶汽车将于第一季度上路。然后它将进入欧洲市场,第二季度在美国推出。我想亚洲市场会在第三季度和第四季度跟进。更重要的是,我们将不断通过下一代Alpa Mayo及其后续版本更新该系统。
毫无疑问,这将成为最大的机器人产业之一。我非常高兴我们参与了这个项目,它让我们学到了很多关于如何帮助世界构建机器人系统的知识。从深入理解到自主构建整个基础设施,以及了解机器人系统需要什么样的芯片。在此案例中,是双Orin芯片以及下一代双Thor芯片。
这些处理器专为机器人系统设计,具备最高级别的安全性能。这款车刚刚投入生产。梅赛德斯-奔驰CLA刚刚被N-CAP评为世界上最安全的汽车。据我所知,这是唯一一款每一行代码、每一个芯片、整个系统都经过全面安全认证的车型。其传感器多样化且具有冗余性,整个自动驾驶堆栈也是如此。
Alpa Mayo堆栈实现了端到端的训练,拥有卓越的能力。然而,没有人能在驾驶之前保证它一定完全安全。所以我们在保护措施上采用了另一个软件堆栈——一个完整的AV堆栈进行支持。这个堆栈完全是可追溯的,我们花费了大约五六年的时间来打造这个第二层堆栈。
这两个软件堆栈相互镜像运行。此外,我们的策略和安全评估系统会判断是否可以非常自信地安全驾驶。如果可以,就由Alpamayo执行任务;如果有不确定性,安全策略评估系统会决定切换回更为简单安全的防护轨道系统,即经典的AV堆栈。目前,全球只有这款车能够同时运行这两套AV堆栈,且所有安全系统都具备多样性和冗余性。
我们的愿景是,终有一天每辆汽车、每辆卡车都将实现自动驾驶,而我们一直在为此未来努力。整个堆栈是垂直整合的。当然,在梅赛德斯-奔驰的案例中,我们共同构建了整个堆栈。我们将部署车辆,操作并维护该堆栈。正如我们公司所做的其他事情一样,尽管我们构建了整个堆栈,但该堆栈对生态系统是开放的。与我们一起合作开发L4级自动驾驶系统和无人出租车的生态系统正在迅速扩展,遍及全球。
我完全预计这将成为——实际上这已经是我们的一大业务。这是因为这些企业使用我们的技术进行数据处理和模型培训。在某些情况下,它们还用于生成合成数据。有些公司几乎只专注于制造计算机或内部芯片,还有一些公司与我们合作构建完整堆栈,另外一些则选择部分合作方式。
无论你决定使用多少都不重要,我的唯一请求是尽可能多地使用视频功能。现在整套系统已经对外开放了。这将是首个大规模主流的人工智能物理应用市场。我相信我们现在都可以对此达成共识。从非自动驾驶到自动驾驶的转折点很可能就在未来的十年内发生。
我相当确定,在未来,世界上的很大一部分汽车将会是完全自动驾驶或高度自动驾驶的。我刚才提到的基本技术——使用三台计算机、合成数据生成和模拟——适用于各种形式的机器人系统。它可以是一个关节型机械臂,也可以是一个移动机器人,甚至可能是一个全人形机器人。
因此,机器人系统的下一个旅程、下一个时代将是各类机器人的出现。这些机器人将有各种不同的尺寸。我邀请了一些朋友,他们来了吗?快点!我有很多内容要讲。快一点。你告诉R2D2你要来这里了吗?还有C3PO。好的,快来吧!
有一件事是,你们有《杰森一家》。他们内部有小型的杰森电脑。他们在Omniverse中训练。那么这个呢?让我们向大家展示一下你们学习如何成为机器人的模拟器,你们想看看吗?好的,让我们看看。请运行它。是不是很惊人?这就是你学习成为机器人的方法。你全部都在Omniverse内完成的,这个机器人模拟器叫做Isaac,Isaac SIM 和 Isaac Lab。
任何想制造机器人的人都知道,没有人能做到。没人能像你们一样可爱。但现在我们来看看这些,看看所有正在制造机器人的朋友。我们在制造大的机器人。不,正如我所说,没人能像你们那样可爱。但我们有新的机器人,就像你们在那边买的,比如LG,他们刚刚宣布了一款新机器人卡特彼勒。它们拥有史上最大的机器人。
那个可以把食物送到你家,连接着Uber Eats,那是送货机器人。我喜欢那些家伙。敏捷、波士顿动力、难以置信的是,还有手术机器人、操控机器人来自法兰克福,你们有Universal Robotics机器人,数量惊人的不同类型机器人。所以这是下一章。我们将更多地讨论机器人技术,但最终不只是关于机器人。我知道一切都与你们有关。
这是关于达到目标,其中一个最重要的行业,将被物理AI和AI物理彻底改变的是英伟达开始的那个行业。要是没有我即将谈到的公司,这一切都不可能实现。我很高兴从Cadence开始的所有人都要加速一切。Cadence CUDA X集成到所有的模拟和求解器中。
他们使用NVIDIA的物理、物理AI应用于不同的物理设备和工厂模拟。你将看到AI物理集成到这些系统中。不论是EDA还是SDA以及未来的机器人系统,我们都将拥有基本上使你们成为可能的同一种技术,这将彻底改变这些设计堆栈。
没有Synopsis的话,在芯片设计领域,Synopsis和Cadence都是完全不可或缺的。Synopsis在逻辑设计和IP方面领先。而Cadence则在物理设计、布局布线、仿真和验证方面占主导地位。Cadence在仿真和验证方面表现非常出色。两者都在向系统设计和系统仿真迈进。
因此,未来我们将在Cadence和Synopsis中设计您的芯片。我们将设计您的系统并在这些工具中模拟整个过程。这就是我们要给你的未来。是的,你将在这些平台中诞生。相当惊人,对吧?因此,我们非常高兴与这些行业合作。
正如我们已经把英伟达整合进Palantir和ServiceNow一样,我们现在正在将其整合进计算密集型的模拟行业,Synopsis和Cadence。今天,我们宣布西门子也正在进行同样的操作。我们将把CUDA X、物理、友邦保险、Gentek AI、Nemo、Nemotron深度整合进西门子的世界。原因如下。
首先,我们设计了芯片,并且在未来都会加速。英伟达,你会对此感到很高兴的。我们将拥有Gentek芯片设计师和系统设计师与我们一起工作,帮助我们进行设计,就像今天我们有Gentek软件工程师帮助我们的软件工程师编写代码一样。因此,我们将拥有智能芯片设计师和系统设计师。我们将在其中创造你,但之后我们必须建造你。
我们必须建造制造你的工厂,设计组装你们的生产线。这些制造工厂本质上将是巨大的机器人。难以置信,对不对?我知道。你知道怎么应对重力吗?你能跳吗?好吧,别炫耀了。
好的,所以现在这个行业,让英伟达得以发展的行业,我们非常高兴我们现在创造的技术已经达到了一个复杂和能力兼备的水平,能够帮助他们彻底改变他们的行业。所以从与他们的合作开始,我们现在有机会回馈并帮助他们革新自己的行业。让我们来看看我们将与西门子一起做的事情。来吧。
在物理AI方面的突破正在让AI从屏幕走向我们的现实世界。而正当全球为芯片、计算机、救命药物及AI建设各种工厂时,全球劳动力短缺也在加剧,我们需要由物理AI和机器人驱动的自动化比以往任何时候都更迫切。这正是AI与世界上最大的实体产业交汇的地方,也是英伟达与西门子合作的基础。
近两个世纪以来,西门子一直在建设世界的工业,而现在它正在为AI时代重新塑造这些产业。西门子正在将其EDA、CAE和数字孪生工具及平台整合进英伟达CUDA X库、AI模型和Omniverse。我们一起将物理AI带入整个工业生命周期,从设计和模拟到生产与运营。我们正站在一场新工业革命的开端,这是一个由英伟达和西门子共同为下一代工业打造的物理AI时代。
太棒了,对吧各位,你们怎么看?好的,我会紧抓不放,坚持住。这就是说,如果你看看当今世界的模型,毫无疑问Open AI是目前最大的标记生成器。生成的Open AI标记比其他任何东西都多。第二大群体可能是开源模型。我猜测随着时间推移,由于有如此多的公司、研究人员以及不同类型的领域和模式,开源模型将成为最大的一部分。
让我们来谈谈一个特别的人。大家都想这么做吧。让我们谈谈Vera Rubin。Vera Rubin?是的,继续。她是一位美国天文学家。她是第一个观测到这一现象的人。她注意到星系的尾部运动速度几乎和星系中心一样快。这显然不符合常理。根据牛顿物理学,就像太阳系一样,远离太阳的行星环绕太阳的速度会比靠近太阳的行星慢。
因此,除非存在我们所称的不可见物质,否则这种现象是无法解释的。她发现了暗物质,虽然我们看不见,但它确实占据了空间。因此Vera Rubin就是我们下一台计算机命名的来源。这不是个好主意吗?我知道,Vera Rubin旨在解决我们面临的一个基本挑战。用于AI计算的需求正在激增,对英伟达GPU的需求也在猛增。
之所以呈现爆炸式增长,是因为模型每年以十倍的数量级增加。更不用说,正如我提到的,O1的引入成为了AI的转折点,不再是单次回答问题。推理现在成为一个思考过程,为了教会AI如何思考,在训练后阶段引入了强化学习和巨大的计算量。
不再只是监督微调,或称为模仿学习或监督训练。现在有了强化学习,基本上是计算机通过自我尝试不同迭代学习如何执行任务。预训练、训练后和测试时扩展所需的计算量因此激增。
现在我们所做的每一次推理,不再只是单次输出标记数量,你可以看到AI在思考,而思考得越久,往往给出的答案越好。因此测试时扩展导致每年生成的标记数量增加了5倍。更不用说,同时,AI领域的竞争愈演愈烈,每个人都试图进入下一个层次,每个人都在向下一个前沿迈进。
而每当他们到达下一个前沿时,上一代AI标记的成本就开始以每年10倍的速度下降。每年10倍的下降实际上说明了一些不同的事情:竞争如此激烈,每个人都在努力进入下一个层次,总有人能到达下一个层次。因此,这一切都是一个计算问题。计算得越快,就越早能够达到下一个前沿。
所有这些事情都在同时发生。所以我们决定,我们必须每年推进计算技术的最前沿,一年都不能落后。一年半前我们已经开始出货GB 200。现在我们正在全面生产GB 300。如果Verirubin要赶上今年的进度,现在必须已经投入生产。所以今天我可以告诉大家,Verirubin已经进入全面量产阶段。
你们想看看Vera Rubin吗?好吧,来吧,请播放。Vera Rubin正好赶上了AI的下一个前沿。这是我们如何构建它的故事。架构方面,一个由6个芯片组成的系统,设计为一体协同工作,诞生于极端的共同设计。它从Vera开始,这是一款定制设计的CPU,性能是上一代的两倍,并搭配Ruben GPU。Vera和Ruben从一开始就被共同设计为双向且一致地快速共享数据,延迟更低。
接着,17,000个组件汇聚在一块Vera Ruben计算板上。高速机器人以微米级精度放置组件。最后由Vera CPU和两个Ruben GPU完成组装,能够提供100 petaflops的AI算力,是其前身的五倍。AI需要快速获取数据。Connect X9为每个GPU提供1.6 Tbps的扩展带宽。Bluefield 4 DPU分担存储和安全任务,使计算资源完全专注于AI。
Vera Rubin计算托盘经过全新设计,没有电缆、管道或风扇。配备了Bluefield 4 DPU、8个Connect X9网卡、2个Vera CPU和四个Ruben GPU。这是Vera Rubin AI超级计算机的计算基础模块。接下来是第六代MV Link交换机,传输的数据量超过全球互联网,连接18个计算节点,扩展至72个Ruben GPU协同工作。
然后是Spectrum X以太网光子学,这是世界上第一台拥有512通道并配备200Gbps能力的共封装光学器件的以太网交换机,可扩展数千个机架组成AI工厂。自设计开始已历时15,000工程师年。第一台Vera Rubin MVL 72机架上线。6款突破性芯片、18个计算托盘、9个MV Link交换机,包含220万亿个晶体管,重量接近2吨。迈向AI下一个前沿的一大步。Ruben来了。
你们觉得怎么样?这是一个Reuben Pod,包含11152个GPU和16个机架。如你所知,每个机架有72个Verirubin或72个Reuben。每一个Ruben实际上是由两个GPU芯片连接在一起的。我待会展示给你们看。但有些事情,嗯,我稍后再告诉你们,不能一下子全说完。
我们设计了六种不同的芯片。首先,我们公司内部有一个规定,这个规定很好:新一代产品中不应有多于一到两个芯片的变化。但问题是这样的,正如你所看到的,我们描述了每颗芯片中的晶体管总数。我们知道Moore定律在很大程度上已经放缓。因此,我们每年能获得的晶体管数量不可能跟上模型规模扩大10倍的速度。
也不可能跟上每年生成令牌数量增加五倍的速度。更不可能跟上令牌成本大幅下降的事实。如果行业要继续发展,不采取积极的大规模协同设计创新——基本上是在整个堆栈中同时进行所有芯片的创新——是不可能跟上这种速度的。
这就是为什么我们决定这一代别无选择,只能重新设计每一颗芯片。刚刚提到的每一颗芯片本身都可以开一场新闻发布会。在过去,可能会有一整家公司专门做这件事。它们每一个都完全具有革命性,是同类产品中的佼佼者。
Vera CPU。我为它感到无比自豪。在一个功率受限的世界里,Gray CPU的性能是现有最先进CPU的两倍。它的数据速率令人难以置信。它被设计用来处理超级计算机的工作,Vera是一个出色的GPS。Grace曾是一个出色的GPU。现在,Vera大大提升了单线程性能,增加了内存容量,整体性能都有显著提升。这是一个巨大的芯片。
这是Vera CPU,这是一个CPU,它连接到Ruben GPU。看看那个东西,是一个巨大的芯片。现在最特别的事情是,我将通过这些进行说明,我认为需要三只手,可能四只手才能做到。好的,这是Veris。Veris CPU有88个CPU核心,并且这些核心设计为多线程的。
但Vera的多线程设计是为了让176个线程中的每一个都能发挥其最大性能。因此,它实际上就像拥有176个核心,但只有88个物理核心。这些核心是使用一种称为‘空间多线程’的技术设计的。不过,IO性能非常惊人。这是Ruben GPU,在浮点性能上是Blackwell的5倍。
但最重要的是看底线。它的晶体管数量仅为Blackwell的1.6倍,这在一定程度上反映了当今半导体物理的水平。如果我们不做协同设计,如果我们不在整个系统的每一个芯片层级上做极端的协同设计,如何能够实现每年仅增加1.6倍的性能?因为那是你所拥有的晶体管总数限制了提升。
即使每个晶体管的性能稍微提高一点,比如25%,你也很难从现有数量的晶体管中获得100%的良品率。因此,1.6倍的提升为每年性能的增长设定了一个上限,除非你采取一些极端措施,我们称之为‘极端协同设计’。其中一个重要的发明就是NV FP4张量核心。
我们芯片中的Transformer引擎不仅仅是我们在数据路径中加入的4位浮点数,而是一个完整的处理器单元,能够动态和自适应地调整精度和结构,以应对不同层次的Transformer模型,从而在可能损失精度的情况下实现更高的吞吐量,并在需要时恢复到最高精度。
这种动态能力无法在软件中实现,因为它运行速度太快,所以必须能够在处理器内部自适应完成。这就是MVFP4的作用。当有人提到FP4或FP8时,对我们来说几乎没有什么意义,因为是张量核心的结构和所有算法使它得以工作。
关于NVFP4,我们已经发表了相关论文。它在精度和吞吐量保留方面的能力令人难以置信。这是一项突破性的工作。如果行业希望我们将来将这种格式和结构作为行业标准,我也不会感到惊讶。这完全是一场革命。这就是为什么尽管我们的晶体管数量仅增加了1.6倍,却能够实现如此巨大的性能飞跃。
好的,现在假设你有了一个强大的处理节点,这是处理器节点。举个例子,让我来演示一下。哇,超级重。你得是身体状况极好的CEO才能胜任这项工作。好的,好了。这个东西,我猜可能有几百磅重吧。我觉得这也挺有趣。拜托,不可能每个人都完蛋了吧。我不这么认为。好吧,那么。
看看这个,这是最后一个。我们彻底革新了整个MGX机箱。这个节点原本需要43根电缆,现在零电缆,只有6条管道。嗖,就两个在这里。组装这个需要两个小时,如果你走运的话,两小时就够了。当然,你很可能装错了,还得重新测试、测试、再组装。所以组装过程极其复杂,作为我们最早拆解的一台超级计算机,这是可以理解的。
从两小时缩短到五分钟,80%液冷,100%液冷,真的,真的是一个突破。好的,这是新的计算底盘,连接所有这些到底层机架交换机的东西,东西向流量被称为Spectromax Nic。毫无疑问,这是世界上最好的网络接口卡,得益于Mellanox的技术——很久以前加入我们的Mellanox,他们的高性能计算网络技术是无可匹敌的世界最佳。
算法、芯片设计、所有的互连、所有在其上运行的软件堆栈,绝对禁止直接内存访问(DMA),绝对是全球顶尖水平。现在它可以实现可编程的RDMA和数据路径加速器,我们的合作伙伴如AI实验室可以创建自己的算法来决定如何在系统中移动数据。这是世界级的。Connect X、Connectx 9 和 Vera CPU 是共同设计的,我们从未透露过,直到CX9出现,因为它是为了新型处理器而共同设计的。
你知道,Connectx 9 或 CX-8 和 Spectrum X 革新了以太网在人工智能中的应用方式。用于AI的以太网流量更加密集,需要更低的延迟,瞬间流量激增是以太网前所未见的。因此我们创造了 Spectrum X,即 AI 以太网。两年前,我们发布了 Spectrum X,如今英伟达是世界上最大的网络公司。
它如此成功,并被应用于各种安装场景,完全席卷了AI领域。性能令人难以置信,特别是当你拥有一个200兆瓦的数据中心,或者GW级数据中心时,这些都价值数十亿美元。假设一个GW级数据中心价值500亿美元,如果网络性能能够额外提升10%,就Spectrum X 来说,提高25%的吞吐量并不罕见。如果我们只提升10%,那就值50亿美元。网络成本几乎为零。
这就是为什么大家都使用 Spectrum X 的原因。这是一个不可思议的产品。现在我们将发明一种新的数据处理类型。Spectrum X 主要用于东西向流量,我们现在有一个新的处理器叫 Bluefield 4。Bluefield 4 让我们可以将一个超大规模的数据中心分隔成不同部分,以便不同的用户能使用其中的不同区域。
确保所有内容都可以虚拟化,如果他们选择虚拟化的话。你可以卸载大量的虚拟化软件、安全软件以及南北向流量的网络软件。因此,每个计算节点都将标配 Bluefield 4。Bluefield 4 还有第二个应用,我稍后会提到。这是一个革命性的处理器,我对它感到非常兴奋。
这是 MV Link 6 交换机,就在这里。这个交换机芯片是历史上传输速度最快的系列之一。世界刚刚达到200千兆比特,而这是每秒400千兆比特的交换机。之所以如此重要,是因为它可以让每个GPU同时与其他所有GPU进行通信。
这台交换机位于机架背板,使我们能够以两倍于全球互联网数据的速度移动相当于两倍的全球互联网数据量。全球互联网的横截面带宽约为100TB/s,而这台设备能达到240TB/s。这让每个GPU都能与其他所有GPU同时工作。
好的,那么在此之上,这是一台机架。每个机架中的晶体管数量是原来的1.7倍。是的。你能帮我做一下这个吗?通常重量约为两吨,但今天是两吨半,因为他们忘了把水排干。所以我们从加州运了很多水过来。你听到它的尖叫声了吗?当你旋转两吨半的东西时,总得发出点声音。你可以做到。好的,我们不会让你做两次。
所以,在这背后是MV link主干网,基本上是有两英里长的铜缆。铜是最好的导体,这些全是屏蔽铜缆,结构化的铜缆,是有史以来计算系统使用最多的铜缆。而我们的Serdes技术可以从机架顶部一直驱动到机架底部,速率达每秒400千兆比特。这真是不可思议。
这总共有两英里的铜缆,5000根铜缆,这才让MV link主干网成为可能。这个革新真正开启了NGX系统。我们决定创建一个行业标准系统,以便整个生态系统和供应链都能标准化这些组件。该MG X 系统由大约80,000个不同组件组成,如果我们每年都改变它,那将是巨大的浪费。
每一个主要的计算机公司,从富士康到广达,再到纬创,你知道,这个名单还在继续,包括惠普、戴尔和联想。每个人都知道如何构建这些系统。因此,我们能够将鲁本、维拉、鲁本挤入其中,尽管性能高得多,更重要的是,功耗是两倍。维拉·鲁本的功耗是格雷斯·布莱克威尔的两倍。
然而,这就是奇迹所在,进入系统的空气流量基本相同。更为重要的是,输入的水温也是一样的,45°C 进,45°C 出,数据中心完全不需要冷水机。我们基本上是在用热水冷却这台超级计算机,效率令人难以置信。这是新的机架。晶体管数量增加了 1.7 倍,但峰值推理性能提高了五倍,峰值训练性能提高了 3.5 倍。
好的,它们通过Spectrum X连接在顶部。哦,谢谢。这是世界上第一款使用台积电新工艺制造的芯片,我们共同创新称之为“coupe”。它是一种硅光子集成技术。这项技术使我们能够将硅光子直接整合到芯片中。它拥有512个端口,速度为每秒200千兆比特。
这是新的以太网AI交换机,Spectrum X以太网交换机,看看这块巨大的芯片。真正令人惊叹的是,它直接集成了硅光子技术,激光从这里进入,激光从这里进来,激光从这里进来,光学元件在这里,并且它们与数据中心的其他部分相连。数据中心。我待会儿再详细展示,这是机架顶部的部分,这是新的Spectromax硅光子交换机,对吧?
我想告诉大家一些新的东西。正如我刚才提到的,几年前我们推出了Spectromax,以此重新定义网络的工作方式。以太网非常容易管理,每个人都拥有以太网协议栈,全球每个数据中心都知道如何处理以太网。当时我们使用的唯一一种技术叫做InfiniBand,主要用于超级计算机。
InfiniBand 的延迟非常低,当然,其软件堆栈和整个可管理性对于使用以太网的人来说是非常陌生的。因此,我们决定首次进军以太网交换机市场,推出了 Spectrum X。这个产品一炮而红,使我们成为了全球最大的网络公司。如我刚才提到的,下一代 Spectrum X 将继承这一传统。
但正如我之前所说,人工智能已经重新定义了整个计算架构,每一层都发生了变化。可以推测,当人工智能开始在全球企业中部署时,也将彻底改变存储的方式。人工智能不使用 SQL,而是使用语义信息。当人工智能被使用时,它会产生临时的知识,临时内存调用,称为 KV 缓存,即键值组合。但这实质上是 AI 的缓存,也就是 AI 的工作内存。
AI 的工作内存存储在 HBM 内存中。每一个 token,GPU 在读取模型的整个模型时,都会读入整个工作内存并生成一个 token。然后将该 token 存储回 KV 缓存中。接着下一次操作时,它再次读入整个内存,流经我们的 GPU 并生成另一个 token。
如此反复,逐个生成 token。显然,如果你与这个 AI 进行长对话,随着时间推移,这种上下文记忆将会显著增长。更不用说模型本身也在扩展,我们使用 AI 的轮次也在增加。我们希望这个 AI 能够伴随我们一生,并记住我们与它进行过的每一次对话,对吧?还有我要求它进行的每一次研究。
当然,随着共享这台超级计算机的用户数量不断增加,超级计算机的规模也会继续扩大。因此,最初可以放入 HBM 的上下文内存已经不够用了。去年,我们开发了 Grace Blackwell 极速内存。我们称其为快速上下文内存。这也是为什么我们将 Grace 直接连接到 Hopper 和 Blackwell 上,以便扩展上下文内存。但即使这样仍然不够。
因此,下一个解决方案当然是进入网络,即通往公司存储的南北向网络。但是,如果你同时运行大量AIS,该网络将不再足够快。所以答案很明显是采取不同的方法。于是,我们创建了Bluefield 4,这样我们就能在机架内拥有一个非常快速的KV缓存上下文内存存储。
接下来我马上给大家展示,但这是一个全新的存储系统类别和行业趋势。对此我感到非常兴奋,因为这是几乎所有从事大量token生成的人目前的一个痛点。AI实验室、云服务提供商,他们都在为由KV缓存移动导致的大量网络流量问题而苦恼。因此,我们提出创建一个全新的平台,一个新的处理器,来运行整个Dynamo KV缓存上下文内存管理系统,并将其置于离机架其余部分非常近的位置,这一想法是革命性的。
这就是它,就在这里。这些全都是计算节点,每一个都是MV Link 72。这是Vera Ruben MV Link 72144 Ruben GPU。这里存储的就是上下文内存。每个节点背后有四个Bluefields,每个Bluefield后面是150千兆、150TB、150TB的内存——上下文内存。对于每个GPU,一旦你在每个GPU上进行分配,它将额外获得16TB。
在这个节点内部,每个GPU基本上有一TB的内存。现在有了这个直接位于同一东西向流量上的后备存储,以完全相同的数据速率——200Gbps贯穿整个计算节点结构,你将额外获得16TB的内存。好的,这是管理平面。这些是Spectrum X交换机,它们将所有设备连接在一起,最后这里的交换机将它们连接到数据中心的其他部分。好的。
这就是Vera Rubin。关于它有几个令人难以置信的特点。首先,正如我提到的,整个系统的能效是原来的两倍,从温度性能的意义上说,尽管功耗是原来的两倍,能耗也是两倍,但其计算量却高出许多倍。
但进入其中的液体仍然是45°C,这使我们能够节省大约6%的世界数据中心电力。这是一个非常重要的进步。第二件大事是,整个系统现在已经是保密计算安全的,这意味着一切都在传输中、静态时和计算期间被加密,并且每一条总线现在都被加密。每一个PCI Express、每一个MV Link、每一个CPU和GPU之间的8条MV Link以及GPU与GPU之间的一切现在都已加密。因此它是保密计算安全的。
这使得公司能够放心地让他们的模型被其他人部署,但永远不会被其他人看到。好的。所以,这个特定的系统不仅具有极高的能效,还有一件事非常不可思议,那就是由于AI工作负载的特性,使用Allreduce计算层时会瞬间飙升。所使用的电流和能量,同时真的超出图表范围。常常会飙升25%。
我们现在在整个系统中进行了功率平滑处理,这样你就不用过度配置25倍,或者如果过度配置25倍,你也不用浪费或不使用25%的能量。现在你可以充分利用整个功率预算,而且不需要额外配置。最后一件事当然是性能。
让我们来看看它的性能。这些图表只会让那些构建AI超级计算机的人喜欢。这需要对每一个芯片进行彻底重新设计,对每一个系统进行完全重写,以便使之成为可能。基本上,这就是训练AI模型的过程。第一列显示的是,你训练AI模型的速度越快,就能越快地将下一个前沿推向世界。这就是你的上市时间。这是技术领导力。这是你的定价能力。
绿色的情况本质上是A10万亿参数模型。我们将其从Deep Sea扩展出来,因此我们称之为Deep Sea Plus。在100万亿个tokens上训练10万亿参数模型。这是我们对构建下一代前沿模型所需的模拟预测。下一代前沿模型。Elon已经提到,Grok的下一个版本,我想Grok 5是7万亿参数。所以这是10万亿。
而在绿色标识中的是Blackwell。这里就Reuben的情况而言,要注意它的吞吐量要高得多。因此,只需要1/4数量的这些系统就能在我们给定的一个月时间内训练模型,对吧。所以时间对每个人来说都是一样的。你能多快地训练那个模型以及你能训练多大规模的模型,才是让你首先到达前沿的关键。
第二部分是你的工厂吞吐量。Blackwell再次处于绿色状态,工厂吞吐量很重要,因为以GW为例,你的工厂价值500亿美元。一个价值500亿美元的数据中心只能消耗1GW的电力。因此,如果你每瓦性能、吞吐量很好而不是很差的话,这将直接转化为你的收入。你的数据中心收入与第二列直接相关。
对于Blackwell来说,大约是Hopper的10倍。而对于Reuben来说,又会高出大约10倍,对吧。至于现在代币的成本,生成代币的成本效益如何。Reuben大约是1/110,正如Yep的情况一样。这就是我们将如何帮助所有人迈向下一个前沿领域,推动AI达到新的水平,当然,也为了更节能高效并且成本高效地建设这些数据中心。
所以这就是它。这就是今天的英伟达。你知道,我们提到过我们制造芯片,但如你所知,英伟达现在构建整个系统,而AI是一个全栈式平台。我们正在重新定义从芯片到基础设施再到模型和应用的所有内容,我们的工作就是创建整个堆栈,这样你们所有人都可以为世界其他地方创造出令人难以置信的应用。感谢大家的到来。希望大家在CES上玩得开心,在我放你们走之前,有好几页幻灯片我们需要剪掉。我们不得不把这些留在剪辑室里,所以我们有一些花絮在这里。我想你们会觉得有趣的。祝大家在CES上玩得开心,剪掉。
叙述者
旁白:英伟达在CES现场直播。第四次拍摄标记。Boom Mike行动。对不起各位。平台转变,嗯?这就对了。让我们开机,绿幕准备。快乐绿色世界最强大的AI超级计算机,你可以把它插在我烤面包机旁边的墙上。嘿,各位,我又卡住了。非常抱歉。这张幻灯片永远也不会奏效。我们就直接剪掉吧。你好,能听到我说话吗?
就像我刚才说的路由器,因为不是每个问题都需要最大、最智能的模型,只需要合适的模型即可。不,不,不要丢失任何东西。这个新的6芯片Reuben平台造就了一台令人惊叹的AI超级计算机。给你,小家伙。哦不,不,不是扩展法则。车上有只松鼠。准备好让松鼠离开。轻轻地请松鼠挪动一下。你知道今天最好的模型都是由专家混合而成的吗?
提示:本摘要由AI语言模型基于公开信息生成,包括自动生成的字幕和来自第三方来源的公开音频。尽管已尽力确保准确性,但AI生成的内容可能包含错误或遗漏。请参考各上市公司发布的官方材料以获取最准确和最新的信息。 本内容仅供参考,不构成投资建议或购买或出售任何投资产品的推荐。所呈现的观点和总结不代表moomoo的官方立场。Moomoo不对本内容的准确性、及时性或完整性作出任何明示或暗示的保证,并且对因使用本内容而造成的任何损失概不负责。原始电话会议内容的版权归各上市公司所有。
免责声明:此内容由Moomoo Technologies Inc.提供,仅用于信息交流和教育目的。 更多信息
42
121
31
173
13
7
7
+0
253
原文
举报
浏览 14万