在被誉为“AI春晚”的GTC大会上,英伟达发布了下一代芯片架构Blackwell,大秀肌肉。
随后,亚马逊云科技与英伟达宣布,NVIDIA Blackwell GPU平台即将登陆亚马逊云科技,这意味着亚马逊云科技的客户,很快就能使用新一代GPU基础设施,在云上更快、更大规模、更安全地构建和运行数万亿参数的大语言模型。
据了解,Blackwell继承了Hopper GPU架构,拥有2080亿个晶体管,是英伟达首个采用多芯片封装设计的GPU,推理能力是Hopper的30倍。英伟达创始人黄仁勋介绍,如果用Blackwell训练一个1.8万亿参数GPT模型,只需要2000个GPU,花费90天时间,以及四兆瓦的电力。
这次合作,是双方在技术领域的强强联合。
一方面,亚马逊云科技将提供配置GB200 NVL72的英伟达Blackwell平台,该平台具备配备72颗Blackwell GPU和36颗Grace CPU,通过第五代NVIDIA NVLink?互连。
另一方面,亚马逊云科技将在云中为其提供EFA网络连接、高级虚拟化的Amazon Nitro系统和Amazon EC2 UltraClusters超大规模集群等技术支持,客户能够在亚马逊云科技上扩展至数千个GB200 Superchips。
亚马逊云科技还计划提供配备基于新的英伟达B100 GPU的Amazn EC2实例,并能够在Amazon EC2 UltraClusters中进行大规模部署。
此前,亚马逊云科技已经成功推出基于英伟达H100芯片的Amazon EC2 P5实例,客户能够在云上将其P5实例扩展到超过2万个英伟达H100 GPU,后续还提供可短期使用这些实例的EC2 Capacity Blocks for ML功能,以帮助客户更好地安排云上生成式AI开发进程。
GB200芯片同时也在亚马逊云科技和英伟达共同开发的AI平台NVIDIA DGX? Cloud上可用,这是一个在亚马逊云科技上双方共同开发的AI平台,为企业开发者提供了构建和部署先进生成式AI模型所需的专用基础设施和软件。
Blackwell也加入了双方合作的Project Ceiba项目,这是一台专为英伟达自身的研究和开发而设的超级计算机,独家托管在亚马逊云科技上,它搭载了20,736颗GB200 Superchips芯片,并通过第四代EFA网络扩展,为每个Superchip提供高达800 Gbps的低延迟、高带宽网络吞吐量;
与去年11月底的re:Invent2023全球大会上披露的上一代Ceiba相比,计算性能从65exaflops提升至414 exaflops,提升了6倍多。
亚马逊云科技首席执行官Adam Selipsky表示:“我们双方的深入合作可以追溯到13年前,那时我们共同推出了世界上第一个亚马逊云科技上的GPU云实例,而今天我们为客户提供了最广泛的英伟达GPU解决方案。英伟达下一代Grace Blackwell处理器是生成式AI和GPU计算的标志性事件。”
英伟达创始人兼首席执行官黄仁勋表示:“人工智能正在以前所未有的速度推动突破,导致新的应用、商业模式和跨行业的创新。我们与亚马逊云科技的合作正在加速新的生成式AI能力的发展,并为客户提供前所未有的计算能力,以推动可能性的边界。”
推荐阅读: