2023年3月22日,亚马逊云科技和英伟达宣布了一项多方合作,致力于构建全球最具可扩展性且按需付费的人工智能(AI)基础设施,以便训练日益复杂的大语言模型(LLM)和开发生成式AI应用程序。

借助由NVIDIA H100 Tensor Core GPU支持的下一代Amazon Elastic Compute Cloud(Amazon EC2)P5实例,以及亚马逊云科技最先进的网络和可扩展性,此次合作将提供高达20 exaFLOPS的计算性能来帮助构建和训练更大规模的深度学习模型。P5实例将是第一个利用亚马逊云科技第二代Amazon Elastic Fabric Adapter(EFA)网络技术的GPU实例,可提供3200 Gbps的低延迟和高带宽网络吞吐量。因此客户能够在Amazon EC2 UltraCluster中扩展多达2万个H100 GPU,满足按需访问超级计算机的AI性能需求。

新的超级计算集群

新的P5实例构建于亚马逊云科技和英伟达十多年来在AI和HPC基础设施交付方面的合作基础之上,也立足于双方在P2、P3、P3dn和P4d(e)前四代实例方面的合作。P5实例是基于英伟达GPU的第五代亚马逊云科技产品,与最初部署的英伟达GPU(始于CG1实例)已相隔近13年。

P5实例非常适合对日益复杂的LLM和计算机视觉模型进行训练和运行推理,并应用于要求严苛的计算密集型生成式AI应用程序,包括问题回答、代码生成、视频图像生成和语音识别等领域。

对于致力于以可扩展和安全的方式将AI赋能的创新推向市场的企业和初创公司而言,P5实例是不二之选。P5实例采用8个英伟达H100 GPU,能够在一个Amazon EC2实例中实现16 petaFLOPs的混合精度性能、640 GB的高带宽内存和3200 Gbps的网络连接(比上一代实例高出8倍)。P5实例性能的提升使机器学习模型训练时间加快了6倍(将训练时间从数天缩短到数小时),额外的GPU内存可帮助客户训练更庞大更复杂的模型。预计P5实例的机器学习模型训练成本将比上一代降低40%。相比灵活性较差的云产品或昂贵的本地系统,它为客户提供了更高的效率。

Amazon EC2 P5实例部署在Amazon EC2 UltraCluster的超大规模集群中,该集群由云端最高性能的计算、网络和存储系统组成。每个EC2 UltraCluster都是世界上功能最强大的超级计算机之一,助力客户运行最复杂的多节点机器学习训练和分布式HPC工作负载。它们采用PB级无阻塞网络,基于Amazon EFA,这种面向Amazon EC2实例的网络接口使客户能够在亚马逊云科技上运行需要在大规模高级节点间通信的应用程序。EFA的定制操作系统绕过硬件接口,并与英伟达GPUDirect RDMA整合,可降低延迟、提高带宽利用率,从而提升实例间通信性能,这对于在数百个P5节点上扩展深度学习模型的训练至关重要。借助P5实例和EFA,机器学习应用程序可以使用NVIDIA Collective Communications Library(NCCL)扩展到多达2万个H100 GPU。因此,客户可以通过亚马逊云科技的按需弹性和灵活扩展能力,获得本地HPC集群的应用性能。除了这些出色的计算能力外,客户可以使用业界最广泛最深入的服务组合,比如面向对象存储的Amazon S3、面向高性能文件系统的Amazon FSx,以及用于构建、训练和部署深度学习应用的Amazon SageMaker。P5 实例将在今后几周提供有限预览版。

借助新的Amazon EC2 P5实例,Anthropic、Cohere、Hugging Face、Pinterest和Stability AI等客户将能够大规模构建和训练最庞大的机器学习模型。基于其它几代Amazon EC2实例的合作将帮助初创公司、大企业和研究人员无缝扩展来满足各自的机器学习需求。

为可扩展、高效的AI采用新的服务器设计

在H100发布之前,英伟达和在热力、电气和机械领域拥有专业知识的亚马逊云科技工程团队合作设计了服务器,以利用GPU提供大规模AI,重点关注亚马逊云科技基础设施的能源效率。在某些AI工作负载下,GPU的能效通常是CPU的20倍,对于LLM而言,H100的能效比CPU高300倍。

双方的合作包括开发系统散热设计、集成式安全和系统管理、与Amazon Nitro硬件加速虚拟机管理程序一起实现安全性,以及针对亚马逊云科技定制EFA网络结构的英伟达GPUDirect™优化技术。

在亚马逊云科技和英伟达专注于服务器优化工作的基础上,两家公司现已开始合作开发未来的服务器设计,以借助新一代系统设计、冷却技术和网络可扩展性提高扩展效率。