黄仁勋：除了GPU，还提供整个AI技术生态

17611538698

webmaster@21cto.com

登录注册

黄仁勋：除了GPU，还提供整个AI技术生态

场长

人工智能 0 995 2024-03-22 02:37:47

导读：本文对黄仁勋的演讲实录做了一番整理归纳，并做了一些新总结，希望对各位开发者和 AI 用户有价值。

尽管 AMD 和英特尔不断地发出威胁，但是就目前，毫无疑问的领袖地位已经更换了名字，英伟达已经是人工智能基础设施的首要提供商。

昨天，Blackwell GPU 架构在首席执行官黄仁勋 (Jensen Huang) 的 GTC 主题演讲中首次亮相，其发布一些新技术和产品，将继续扩大其在性能和功耗方面的技术领先地位。

业界中很多人亲切的称黄仁勋是“老黄”、“皮夹克黄”或者叫“黄教主”。

他在这场会上如此说道：

“三十年来，我们一直在追求加速计算，目标是实现深度学习和人工智能等变革性突破，生成式人工智能是我们这个时代的决定性技术。Blackwell是推动这场新工业革命的引擎。与世界上最具活力的公司合作，我们将实现人工智能对每个行业的郑重承诺。”

关于Blackwell平台

英伟达推出的 Blackwell 平台，这是一种用于运行生成式人工智能的 GPU 架构。

这个产品是为了纪念美国著名统计学家和数学家 David Harold Blackwell 而命名，他在博弈论、概率论、信息论和统计学等领域做出了重大贡献。

除了加速生成式人工智能之外，英伟达还承诺，接替 Grace Hopper 的 Blackwell GPU 架构将在数据处理、工程模拟、电子设计自动化、计算机辅助药物设计和量子计算方面带来新的突破。

据黄仁勋“教主”称，它可以“在万亿参数大型语言模型上运行实时生成人工智能，其成本和能源消耗比其前身 Hopper 低至少 25 倍”。

Blackwell带来的变革性技术

Blackwell由六项新技术组成：2080亿个晶体管芯片、第二代变压器引擎、第五代NLink、RAS引擎、解压缩引擎以及对新的本机接口加密协议的支持。

Blackwell 的六项新技术之一由台积电开发的定制4纳米制造工艺。该工艺将构成其下一代 GPU 的基础，该 GPU 具有通过每秒10太字节的芯片间链接，创建一个统一的 GPU。

另外一个新功能是 Nvidia 的第二代 Transformer Engine，其增加了集成在 Nvidia TensorTT-LLM 和 NeMo Megatron 框架中的微张量缩放支持和动态范围管理算法，以通过四位浮点 AI 推理支持更大的计算算法和 AI 模型大小。

该芯片采用第五代 NVLink 网络交换机，为每个 GPU 提供高达每秒 1.8 太比特的双向吞吐量。它在一个节点中的多达 576 个 GPU 之间提供更快的通信，可以为更复杂的大语言模型（LLM）提供支持。

此外，由于采用了新的 RAS 引擎，Blackwell GPU 将成为首款配备专用引擎的芯片，可以实现更好的可靠性、可用性和可维护性。

英伟达还在芯片级添加了新功能，以支持人工智能驱动的预防性维护，从而增强诊断和可靠性。该团队表示，这将带来更长的系统正常运行时间，将允许大规模人工智能部署一次不间断运行长达数月。

Blackwell 还引入了更先进的机密计算功能来保护人工智能模型及其数据，这意味着它们在医疗保健和金融服务等注重隐私的行业中成为更现实的主张。最后，Nvidia 推出了一款新的解压缩引擎，旨在加速人工智能模型、数据分析和数据科学的数据库查询。

NVIDIA GB200 Grace Blackwell 超级芯片

本次活动，NVIDIA团队还发布了一款新型超级计算机 DGX SuperPOD，该计算机本身由 Blackwell 芯片提供支持。

该系统包括 36 个 GB200 超级芯片（每个超级芯片包含 36 个 NVIDIA Grace CPU 和 72 个 NVIDIA Blackwell GPU）。据 NVIDIA 称，与 NVIDIA H100 Tensor Core GPU 相比，这些超级芯片的 LLM 推理性能提高了近 30 倍。

它还可以使用 NVIDIA 的 Quantum InfiniBand 扩展到数万个超级芯片。

SuperPOD 还提供预测管理功能，帮助减少停机时间和低效率，并识别关注领域，以便建议维护步骤、调整计算资源以及保存和恢复作业。

Nvidia 网络高级副总裁吉拉德·谢纳 (Gilad Shainer) 提到，Nvidia X800 交换机后面会在微软 Azure、Oracle 云基础设施和其他平台上推出，将支持有史以来第一个万亿参数生成式 AI 模型。

NVIDIA还解释说，GB200 Grace Blackwell Superchips 将成为其新的Nvidia SuperPOD DGX GB2000 NVL72平台（下图）的关键组件，该平台是一个用于计算密集型工作负载的多节点液冷机架规模系统。它将结合多达 36 GB200 Grace Blackwell 超级芯片，包括 72 个 Blackwell GPU 和 36 个 Grace CPU，以及BlueField-3数据处理单元。

它使它们能够像单个更强大的 GPU 一样运行，具有高达 1.4 exaflops 的 AI 性能和 30 TB 的快速内存。总而言之，基于现有的 Nvidia H100 Tensor Core GPU 架构，与上一代平台相比，性能将提高 30 倍。

人工智能云时代来临，并将广泛可用

黄仁勋在大会上还表示说：

“NVIDIA DGX AI 超级计算机将是 AI 工业革命的工厂，新的 DGX SuperPOD 结合了 NVIDIA 加速计算、网络和软件的最新进展，使每个公司、行业与国家都能完善和生成自己的人工智能。”

但是设计、模拟和建立现代数据中心是非常复杂的，涉及性能、能源效率和可扩展性等多种考虑因素。它还需要汇集一支由计算和网络设计、计算机辅助设计 (CAD) 建模以及机械、电气和热设计方面技术精湛的工程师组成的团队。

NVIDIA 正打造世界上最先进的 AI 超级计算机，并在 GTC 上推出了最新产品——基于 NVIDIA GB200 NVL72 液冷系统的大型集群。它由两个机架组成，每个机架包含 18 个NVIDIA Grace CPU和 36 个NVIDIA Blackwell GPU，通过第四代NVIDIA NVLink交换机连接。

在展会上，NVIDIA 将这个全面运营的数据中心演示为NVIDIA Omniverse中的数字孪生，这是一个用于连接和构建支持 AI 的生成式 3D 管道、工具、应用程序和服务的平台。

为了尽快建立新的数据中心，NVIDIA 首先使用 Omniverse 连接的软件工具构建了数字孪生。工程师使用由 NVIDIA Omniverse API 提供支持的Cadence Reality 数字孪生平台，在通用场景描述(OpenUSD)中以完全物理精度和真实感统一并可视化多个 CAD 数据集。

设计、模拟和建立现代数据中心非常复杂，涉及性能、能源效率和可扩展性等多种考虑因素。

提高效率和准确性的设计、数据仿真和优化

新的 GB200 集群正在取代 NVIDIA 旧数据中心之一的旧系统集群。为了开始数字化建设，科技公司Kinetic Vision使用NavVis VLX 可穿戴激光雷达扫描仪扫描了该设施，以生成高精度的点云数据和全景照片。

然后使用Prevu3D软件删除现有簇并将点云转换为 3D 网格。这提供了该设施的物理精确 3D 模型，可以在其中模拟新的数字数据中心。

工程师使用 Cadence Reality 平台组合并可视化多个 CAD 数据集，提高了精度和真实感。该平台与 Omniverse 的集成提供了一个强大的计算平台，使团队能够开发基于 OpenUSD 的 3D 工具、工作流程和应用程序。

Omniverse Cloud API还增加了与更多工具的互操作性，包括 PATCH MANAGER 和 NVIDIA Air。通过 PATCH MANAGER，该团队设计了集群和网络基础设施的物理布局，确保布线长度准确且路由配置正确。

该团队使用由NVIDIA Modulus API 和 NVIDIA Grace Hopper加速的 Cadence Reality Digital Twin 解算器来模拟气流以及 Vertiv 和 Schneider Electric 等合作伙伴的新型液冷系统的性能。GB200 托盘中的集成冷却系统使用 Ansys 的解决方案进行了仿真和优化，该解决方案将仿真数据带入数字孪生中。

该团队还演示展示了数字孪生如何允许用户在生产物理系统之前全面测试、优化和验证数据中心设计。通过在数字孪生中可视化数据中心的性能，团队可以更好地优化其设计并针对假设场景进行规划。

用户还可以通过以集成方式平衡不同的边界条件（例如布线长度、电源、冷却和空间）来增强数据中心和集群设计，使工程师和设计团队能够更快、更高效、更优化地使集群上线比以前提高十余倍。

Nvidia DGX SuperPOD 预计将于今年推出。

在 GTC 活动上，黄教主团队指出，除了Nvidia 自己的 DGX 云服务外，亚马逊AWS、Google云和微软将成为首批在其公共云基础设施平台上提供 Blackwell GPU 访问权限的公司之一。

其它替代选择包括 Indosat Ooredoo Hutchinson、Nexgen Cloud、Oracle EU Sovereign Cloud 以及 Oracle 美国、英国和澳大利亚政府云等主权云平台，这些平台也将优先使用 Blackwell GPU。

还有一个最后选择是从第三方购买配备 Blackwell GPU 的众多服务器厂商，这些厂商包括戴尔公司、惠普企业有限公司、联想集团、思科系统公司和超微电脑公司等。

Nvidia和关联公司已经承诺在今年晚些时候推出首款基于 Blackwell GPU 的新型服务器。

人工智能的浪潮以几何倍数的进化，增长，是正在进行时～