NVIDIA再次证明其为何是AI老大:横扫所有MLPerf训练基准、在GPT-175B中实现近乎完美的扩展、Hopper速度提升30%1
NVIDIA再次在MLPerf中展示了其威力,在GPT-3175B等大型模型中,HopperH100和H200GPU的效率接近100%,并且获得了巨大的提升。
NVIDIA以更强劲的MLPerfv4.0性能结束2024年上半年,EOS超级计算机现在比去年快3倍,H200和H100AIGPU在训练工作负载方面继续变得更强
说到AI,就不能不提NVIDIA,该公司通过其最新的MLPerfTrainingV4.0基准测试再次证明了这一点,它在各个方面都占据主导地位。NVIDIA表示,AI计算需求继续以爆炸式的速度增长,自推出Transformer以来,我们在短短2年内就看到需求增长了256倍。
相关报道NVIDIAGeForceRTX4090GPU提供比笔记本电脑CPU高达15倍的AI吞吐量,TensorRT-LLM将性能提升高达70%
NVIDIA再次证明其AI老大地位:横扫所有MLPerf训练基准、在GPT-175B中实现近乎完美的扩展、Hopper速度提升30%2
另一个方面是性能,性能越高,为企业带来的投资回报率(ROI)就越高。NVIDIA分享了三个部分以及性能在每个部分中的重要性。
NVIDIA再次证明其AI老大地位:横扫所有MLPerf训练基准、在GPT-175B中实现近乎完美的扩展、Hopper速度提升30%2
首先是训练,需要有更多智能模式,训练速度更快。第二个是推理,包括交互式用户体验,例如ChatGPT,用户希望对刚输入的查询立即做出响应。NVIDIA最近在其收益电话会议上提到,LLM服务提供商有机会在4年内每投资1美元就能产生7美元的收入,这对企业来说是相当巨大的。
出色的AI性能可以转化为巨大的商机。例如,在我们最近的财报电话会议上,我们描述了LLM服务提供商如何在NVIDIAHGXH200服务器上运行Llama370B模型,在短短四年内将一美元投资变成七美元。此回报假设LLM服务提供商以每百万代币0.60美元的价格提供Llama370B,HGXH200服务器的吞吐量为24,000个代币/秒。
NVIDIAH200GPU为生成式AI和HPC提供强大动力
NVIDIAH200TensorGPU以Hopper架构的优势为基础,拥有141GBHBM3内存,与H100GPU相比,内存带宽增加了40%以上。NVIDIAH200TensorCoreGPU突破了AI训练的极限,在MLPerfTraining首次亮相时将H100的性能提高了14%。
NVIDIA软件带来无与伦比的性能提升
此外,由于对NVIDIA软件堆栈进行了大量优化,我们使用512H100GPU配置提交的速度与一年前相比提高了27%。这一改进凸显了持续的软件增强如何显著提高性能,即使使用相同的硬件也是如此。
这项工作的成果是,在短短一年内,规模扩大和软件改进显著,性能提升了3.2倍。这种组合还实现了近乎完美的扩展—GPU数量增加了3.2倍,性能也随之提升。
擅长法学硕士微调
随着企业寻求定制预训练大型语言模型,LLM微调正成为一项关键的行业工作负载。MLPerf本轮推出了一项新的LLM微调基准,该基准基于应用于MetaLlama270B的流行低秩自适应(LoRA)技术。
NVIDIA平台在这项任务上表现出色,可轻松从8个GPU扩展到1,024个GPU。这意味着NVIDIA平台可以高效处理小型和大型AI任务,从而满足各种业务需求。
加速稳定扩散和GNN训练
NVIDIA还在上一轮提交的相同系统规模上将StableDiffusionv2的训练性能提高了80%。