NVIDIA展示了其GeForceRTX40GPU的令人印象深刻的数据,其中包括Llama和Mistral等AI模型中的旗舰RTX4090。
NVIDIA的GeForceRTX40GPU在新的Llama和MistralAI基准测试中超越笔记本电脑CPU和NPU,并通过TensorRT-LLM进一步加速
NVIDIA的Windows版TensorRT-LLM加速为WindowsPC平台带来了一些惊人的性能提升。我们已经看到NVIDIARTX“AIPC”功能集中增加了一些令人印象深刻的改进和新功能,而且随着该公司通过其旗舰产品GeForceRTX4090GPU展示了一些巨大的性能数据,情况正在变得更好。
相关报道NVIDIA再次证明了为什么它是AI老大:横扫所有MLPerf训练基准,在GPT-175B中实现近乎完美的扩展,Hopper现在速度提高了30%
在一篇新的AI-Decoded博客中,NVIDIA分享了其现有的GPU产品线如何超越整个NPU生态系统,而后者在2024年仅达到50TOPS。与此同时,NVIDIA的RTXAIGPU具有数百TOPS,使用GeForceRTX4090可达到1321TOPS,使其成为运行LLM等的最快桌面AI解决方案。它也是地球上最快的游戏显卡。
NVIDIA的GeForceRTXGPU提供高达24GB的VRAM,而NVIDIARTXGPU提供高达48GB的VRAM,这使得它们在处理LLM(大型语言模型)时非常强大,因为这些工作负载需要大量视频内存。NVIDIA的RTX硬件不仅配备专用视频内存,还通过TensorCores(硬件)和前面提到的TensorRT-LLM(软件)提供AI专用加速。
NVIDIA的GeForceRTX4090GPU上所有批次大小生成的令牌数量非常快,但启用TensorRT-LLM加速后,它会显著提高,超过4倍。
NVIDIA现在分享了一些使用开源Jan.ai平台的新基准测试,该平台最近还将TensorRT-LLM集成到其本地聊天机器人应用程序中。这个聊天机器人在一个易于使用的解决方案中使用了Llama或Mistral等AI模型。该软件提供商现在提供了一些在NVIDIA的GeForceRTX40GPU上运行的基准测试,这些基准测试与带有专用AINPU的笔记本电脑CPU进行了对比。
与不带TensorRT-LLM的AMDRyzen98945HSCPU相比,NVIDIAGeForceRTX4090GPU的性能提高了8.7倍,而使用加速后,领先优势扩大到15倍(比非TensorRT-LLM配置提高了70%)。
您每秒最多可以处理170.63个token,而AMDCPU每秒只能处理11.57个token。即使使用NVIDIAGeForceRTX4070笔记本电脑GPU,您也可以获得高达4.45倍的加速。更有趣的是,该公司还分享了使用eGPU配置中的RTX4090的数据,以展示如何使用外部GPU进一步加速笔记本电脑的AI工作负载性能。与同款AMD笔记本电脑CPU相比,此配置的性能提升了9.07倍。
NVIDIA最近列出了当前的AI计算能力格局,并展示了其GeForceRTX40台式机CPU如何从入门级的242TOPS扩展到高端的1321TOPS。与我们今年将在SOC上看到的最新45-50TOPSAINPU相比,最低端增加了4.84倍,最高增加了26.42倍。