GPU着色器核心(Nvidia术语中称为CUDA核心)和ROP是现代GPU的重要方面。随着即将推出的RTX50系列,Nvidia似乎专注于前者,而不是两者。Harukaze5719在X(正式Twitter)上报道称,Nvidia即将推出的BlackwellRTX50系列GPU的CUDA核心数量将仅比AdaLovelaceRTX40系列GPU有所改进,而ROP在各个层级上保持不变。唯一的例外是入门级GB207,其ROPS数量将大幅减少33%。
ROP,即渲染输出单元(也称为光栅操作管道),在传统的GPU3D渲染管道中发挥着至关重要的作用。顾名思义,它们负责处理像素和纹理信息,换句话说,就是光栅化工作负载。ROP通常不如着色器核心那么重要,但它们在GPU管道中仍然发挥着关键作用。您需要根据着色器核心和其他处理集群的数量来调整ROP的数量,以提供最佳性能。
查看更多
Harukaze的新信息(基于流行者Kopite7kimi的公式)表明,Nvidia不会在其面向游戏的BlackwellGPU架构版本中添加更多渲染输出单元。从大概是主流的GB206一直到旗舰GB202,各种GPU的ROPS数量据称将与其AdaLovelace(RTX40系列)前代产品完全相同。据报道,唯一的例外是GB207,它将在削减ROPS数量方面更进一步,与AD107相比将减少33%。Nvidia
不增加ROPS数量似乎很奇怪,但该公司架构师很可能认为Blackwell已经有足够的ROP。如前所述,ROPS并不是GPU性能的全部,尤其是在结合光线追踪、升级和其他效果的现代工作负载上。如果架构变得不平衡,ROPS越多并不一定意味着性能越高。Nvidia也可能正在改进Blackwell中单个ROPS的性能,这将为传闻的变化提供另一种解释。
以GB207的33%ROPS削弱为例。Nvidia即将推出的AD107GPU的ROPS数量与稍大且因此更昂贵的AD106相同。但尽管有这种看似优势,基于AD107的GPU从未能够与基于AD106的GPU竞争。正如我们的RTX4060评测所示,配备AD107的RTX4060卡在游戏性能方面远不及RTX4060Ti。两者之间的主要区别在于CUDA核心数量和其他处理核心(RT、张量和纹理)。
也许AD107是“规格过高”,Nvidia会用GB207削减ROPS数量,这可能会拉大与GB206的差距。此外,Nvidia似乎还将把CUDA核心数量削减至2,560个,低于RTX4060上的3,072个。与此同时,GB206拥有多达4,608个着色器,数量与AD106相同(但RTX4060Ti仅启用了4,342个核心)。这些变化很可能会让GB207和GB206部件之间的差距更大。
说到CUDA核心,Nvidia在其顶级GB202上据称将拥有多达24,576个着色器(192个SM—流式多处理器)。它还将拥有一个512位内存接口,当与GDDR7结合使用时,可以大大提高内存带宽。另一方面,GB203将与当前的AD103类似,最多有84个SM和10,752个着色器,而AD103上有80个SM和10,240个CUDA核心,并且具有相同的256位接口(但支持GDDR7)。如果这些传言属实,那么潜在的RTX5090和RTX5080之间将出现绝对巨大的差距。
继续往下看,GB205取代了AD104,但AD104最多有60个SM和7,680个着色器,而新显然最多有50个SM和6,400个着色器—并且同样坚持使用相同的192位内存接口。GB206将保留与其前身AD106相同的36个SM和4,608个CUDA核心数量,并具有128位接口。最后也是最不重要的一点是,GB207将仅提供20个SM和2,560个CUDA核心,并具有128位GDDR6内存接口。
希望这不言而喻,但读者应该对所有提供的信息持保留态度。这些非官方数据可能来自泄露,也可能只是谣言贩子根据合理的情况散布各种想法。根据目前的传言,Nvidia将在今年年底发布前两款RTX50系列GPU,但最后三款要到2025年才会问世。这为变化和进一步猜测留下了充足的时间。我们还没有听说过消费者Blackwell架构的变化,但可以肯定的是,CUDA、Tensor和RT核心将会升级——ROPS和其他元素也可能会发生变化。
不过,有一件事是肯定的:如果Nvidia真的计划在顶级GB202解决方案上使用512位内存接口和多达192个SM,那么这不会便宜。终极性能、强大功能,以及巨额的银行账户支出。