
文章重写版本
随着AI大模型时代的来临,模型参数量和训练集规模的显著增长对计算能力提出了更高的要求。单纯依赖GPU芯片的单体算力已无法满足需求,促使业界将目光投向了系统架构层面的创新。特别是在网络这一底层核心技术领域,全球各大公司纷纷投入研发,展开了一场AI网络技术的激烈角逐。
在不久前举办的“2024开放计算中会”上,英伟达网络高级总监宋庆春详细介绍了AI网络的四大关键技术与全新网络平台。这四大技术包括:端到端的RDMA流量动态路由、AI云上业务性能隔离、网络计算以及网络数字孪生。
为了更好地帮助用户在云环境中构建生成式AI或AI工作负载,提升网络性能,英伟达推出了全新的网络平台——加速以太网平台NVIDIA Spectrum-X。这一平台并非单一产品,而是涵盖了Spectrum-4以太网交换机、BlueField-3 DPU、LinkX线缆及模块和相关软件,为生成式AI在云端提供了强大的规模化能力。
Spectrum-X平台的创新之一是动态路由技术。当前,国内数据中心中通用算力仍占主导地位,但随着应用场景的变化,生成式AI云将成为数据中心发展的新趋势。生成式AI云需要强大的算力和云的灵活性。英伟达推出的面向AI的以太网络,针对AI业务进行了端到端的优化。其中,RDMA技术通过网络直接将资料传入计算机存储区,实现高效的数据传输,同时内存带宽和CPU周期,进一步提升应用系统性能。
性能隔离技术同样重要。在AI云上,多个租户同时运行应用程序的情况很常见,每个租户又可能运行多个任务。为了保障任务间的隔离以及性能隔离,英伟达引入了先进的拥塞控制技术,解决了因AI应用的突发式通信造成的网络拥塞问题。
至于网络计算,它是指通过计算机网络进行计算的方式,将计算任务分配给多个网络节点,协同完成。这种分布式和协的特点使得数据更加安全可靠,并能够更好地应对并发访问。网络数字孪生作为物理网络的虚拟表述,结合数据、模型和接口进行分析、诊断、仿真和控制,实现与物理网络之间的实时交互映射。这一技术有助于运营商模拟、选择、优化解决方案,并降低对实际网络的影响和安全风险。
