在GTC 2022上,NVIDIA创始人兼CEO黄仁勋让AI工厂的概念浮出了水面,并且表示数据中心正在转变成AI工厂。黄仁勋的观点表明NVIDIA的全线产品正在与AI深度结合。
而从AI芯片需要解决的问题来看,也不再仅仅限于海量数据处理,以及实现最优的功率,还要构建用于并行处理的互连。当冯诺依曼架构因此而不可避免地向数据流架构迁移时,负责传输的网络设备也就与提供算力的芯片更紧密地结合在了一起。近日,NVIDIA网络专家崔岩与NVIDIA网络市场总监孟庆一起,为我们解读了这场变迁。
Spectrum-4革命进行时
NVIDIA BlueField DPU 掀起了一场革命,数据中心基础设施也因为让人工智能和机器学习驶上快车道,而进入了CPU、GPU和DPU共存的“3U一体”时代。但2021年推出的组合是NVIDIA Quantum-2交换机、ConnectX-7网卡、BlueField-3 InfiniBand DPU和相应软件等产品,它曾让云原生超级计算机中的难题得了全面解决。进入2022年,NVIDIA发布了Spectrum -4以太网平台,它由三大部分构成:Spectrum -4交换机、ConnectX-7智能网卡、BlueField-3 DPU和相应软件组成。
NVIDIA网络专家崔岩
两年前,当还隶属于Mellanox公司的Spectrum-3刚刚发布之时,就因为为云、存储和AI应用量身优化,面向新一代高效数据中心提供卓越的可扩展性、敏捷性和灵活性,支持 100/200/400Gb/s,而引发了一场风潮。
当Mellanox公司被NVIDIA收购之后,性能更加强大的Spectrum-4显然会因为为大规模数据中心基础设施提供所需的超高网络性能和强大安全性,引发更大关注。仅仅对比一个指标,就能明白Spectrum-4与Spectrum-3之间的差别:Spectrum-3以太网交换机 ASIC交换机的交换吞吐量为12.8 Tbps,到了Spectrum-4同一指标提升为51.2Tbps,整整高出了前一代产品4倍。
提升的不仅是性能,由于Spectrum -4交换机加入了NVIDIA的产品家族,所以最大的转变在于它不再仅是一个“人”在战斗。Spectrum -4交换机可以加速整个云网络架构,ConnectX-7智能网卡可以加速服务器节点中的网络性能适配器,再加上BlueField-3 DPU所提供的数据中心服务可相当于多达300个CPU核才能实现的服务,从而释放宝贵的CPU资源来运行关键业务应用,这三者的组合显然将给数据中心带来更多应用上的变化。
Spectrum -4交换机可以实现减少12倍 现有交换机的连接,但保持同等性能,从而实现了更高效;同时,3倍的线速加密能力也实现了更安全,最后,因为替代了多 台交换机,加上本身芯片的节能能力,整体功耗减少了40%。而这几方面的提升全部都是处理AI业务的大规模数据中心所急需的。
NVIDIA网络市场总监孟庆
崔岩介绍说:“Spectrum-4中还开发了很多新特点,比如在静态哈希情况下,一个数据流只能固定地选一条路径进行数据转发,如果流量比较大的情况下就会增加 拥塞的机会,导致这条链路产生延迟 。而Spectrum-4中的自适应路由技术,却可以让交换机负载均衡地连接到多个链路上去,当一条链路预测会产生拥塞 时,会将数据流的一部分转到其他链路上做转发,整个网络的运行效率因此而得以提升。”
再比如数字孪生所需的精准计时,由于数字孪生需要综合考量全生命周期、实时/准实时、双向等三个特性,因此精准计时功能十分重要。崔岩接着介绍说:“在Spectrum -4整个平台里面,我们都启用 了精准计时,为数据中心应用程序和时间敏感型基础设施提供更精准的时间同步。”
显然,凭借超强的性能和安全性,Spectrum-4 平台将带动数据中心实现架构转型,进而推动各类开创性研究的实现。
黑盒子的威力
对于一项创新性业务而言,往往在设计和开发业务之外,还需要配置业务所需的各种资源。这样,站在用户的角度来看,应用某项ICT技术时,最高效的方法就是让用户不关心其内部构造和原理,而只关心它的功能及如何使用这些功能。这样用户就可以集中精力于创新性业务本身,提高问题处理的效率。这个理论被西方学者提炼为黑盒子理论,而在本次GTC2022上发布的NVIDIA OVX计算系统,就完全可以看做是一个黑盒子系统。
要说起NVIDIA OVX计算系统功用,我们还需要回到被称为是“工程师的元宇宙”的Omniverse上。Omniverse可以实现 3D 设计协作以及可扩展的多 GPU 实时逼真仿真。当Omniverse与物理仿真技术和AI结合在一起时,Omniverse将在多种规模的事物上实现数字孪生,小到智能汽车,大到一个工厂、一座城市,甚至整个地球。黄仁勋将它描述为:“在扩展到巨大的规模之后,数字孪生就能成为一个与物理世界相连的虚拟世界。这代表着互联网的新一轮进化。”
显然,在利用Omniverse实现数字孪生的过程中,需要更为强大的算力支撑,而NVIDIA OVX计算系统恰好扮演了这样的角色。
OVX 系统结合了高性能 GPU 加速计算、图形处理和 AI 并配备了高速存储访问、低延迟网络、精确计时,具备创建逼真数字孪生所需的性能。NVIDIA OVX计算系统非常像DGX的盒子,它是一个标准化的产品,因而绝对算得上是“黑盒子理论”的产物。它专为运行 NVIDIA Omniverse,将被用于模拟复杂的数字孪生,以构建建筑、工厂、城市乃至整个世界的模型。因此我们也可以将OVX 系统看成是一个更为贴近业务层的技术底座。
孟庆介绍说:“Omniverse云化之后,可以允许来自数十亿台设备的用户进行3D设计协作和模拟。但对于宝马这类不适合公有云的用户, 用Omniverse实现类似于大型AI工厂的数字虚拟环境,就更为适合采用NVIDIA OVX计算系统。围绕NVIDIA OVX计算系统,宝马可以利用数字孪生去设计它的工厂、物流、工业机器人、调动库存等工作。因为这个过程中所需要的计算量很大,因此采用NVIDIA OVX计算系统,就可以不仅保障数据的安全性需求,还会让整个工作过程变得更为高效。”
标准化产品会带来应用上的便利,但也会无法满足一些个性经需求。对此,孟庆认为:“用户可以选择购买OVX SuperPOD这样的成品,也可以考虑自己的需求部署一个中型或小型的虚拟数字孪生环境,搭建的过程中可以参考我们的配置,特别是在网络配置上,NVIDIA OVX计算系统有非常多的合理性。比如现在用的是Spectrum -3,在32个节点里面提供200G带宽,如果再往上堆叠就会造成服务器资源的浪费,让服务器等待网络传输。因此,在后面的解决方案 中,我们会采用Spectrum -4交换机,相对来说更不容易产生浪费或者拥塞 。”
高速互连之路
在本次GTC2022上,还有一个技术并不显山露水,但通过一种新型的高速、低延迟、芯片到芯片的互连技术NVLink-C2C,NVIDIA Grace CPU 超级芯片可以完成两个CPU芯片的互连。这让NVLink又一次进入了我们的视野。
NVLink的这种变化不由得我们对它的应用前景产生新的猜想,因为原来NVIDIA NVLink是世界首项高速GPU互连技术,与传统的PCIe系统解决方案相比,能为多GPU系统提供更快速的替代方案。但现在却通过NVLink-C2C,实现了两个CPU芯片的互连。NVIDIA 的全新 NVLink 高速互连技术未来也许将被应用于所有未来的 NVIDIA 芯片,包括 CPU、GPU、DPU 和系统级芯片。
对此,孟庆做了解释:“NVLink实现的是芯片与芯片之间的连接,更多体现在硬件设计方面,这就决定了对使用者来说,配置方式不会有变化,原来的软件环境该怎么配置还是怎么配置,能够享受到的好处是带宽变大了,速度变快了。内部的驱动 已经被设计 在固件里了,因此未来不论连接的是CPU、GPU,还是DPU,我们都会提前帮用户把类似的事情做好,用户只需要关注应用就可以了。”
由于AI、新型医药研发等领域都对算力提出了更高要求,在芯片高速互连的路上,同时存在着NVLink、NVLink Switch,有时系统中还要用到InfiniBand,为了便于用户做出选择,孟庆介绍了三者之间的区别和联系:“NVLink只连接GPU,未来还会连接Grace CPU,DPU;NVLink Switch目前可以跨32个DGX把这其中的GPU都连在一起。但是在DGX服务器里面还有两个X86的节点,还需要 对外连接到存储,并且超过32个DGX的节点 之后,就 需要InfiniBand和别的机器再连起来。可以说,NVLink Switch更像一个‘内存网络’,它连的是GPU计算的内存,或可以理解为显存,它不连接其他所有的通用计算网络。它只提供了非常宽的通道,把GPU互联互通 起来。”
事实上,第三代 NVIDIA NVSwitch基于NVLink的高级通信能力构建,可为计算密集型工作负载提供更高带宽和更低延迟。为了支持高速集合运算,每个NVSwitch都有64个NVLink端口,并配有NVIDIA SHARP引擎,可用于网络内归约和组播加速。
从Spectrum-4以太网平台的发布,再到NVIDIA OVX计算系统的推出,直至NVIDIA NVLink的变迁,我们无不感受到数据中心在性能变得越来越强大的同时,也在向AI工厂演变。而短短两年间性能就实现了四倍的增长,也让我们又一次回想起黄仁勋对于未来的设想——未来需要比现在强大十亿倍的超级算力,英伟达的使命就是发明新的AI和计算技术,加速实现十亿倍的性能飞跃。在这样的重大转变面前,我们没有理由不保持关注。