首页 > 优选经验 > 正文

AMDStrixPointRyzenAI9365APU基准测试揭示了Zen5的IPC延迟吞吐量和各种性能方面

来源:优选经验2024-06-25 16:47:27
导读 AMDStrixPointRyzenAI9365APU基准测试揭示了Zen5的IPC、延迟、吞吐量和各种性能方面1据报道,AMD的StrixPointRyzenAI9365Zen5APU已经过Davi...

AMDStrixPoint“RyzenAI9365”APU基准测试揭示了Zen5的IPC、延迟、吞吐量和各种性能方面1据报道,AMD的StrixPoint“RyzenAI9365”Zen5APU已经过DavidHuang的测试,他对其IPC、延迟和性能进行了深入分析。

AMDRyzenAI9365“StrixPoint”APU在发布前经过多项基准测试,Zen5的IPC、吞吐量、延迟等更详细的信息

注意-DavidHuang的博客指出,此处提到的数字基于AMDStrixPointAPU的工程样本,主要是RyzenAI9365,因此请谨慎对待这些数字,因为它们可能不代表最终产品。他还明确指出,测试系统运行的是非官方系统固件/软件。

AMDStrixPoint“RyzenAI9365”APU基准测试揭示了Zen5的IPC、延迟、吞吐量和各种性能方面2

图片来源:DavidHuang的博客

首先,David获得了一台早期的AMDStrixPoint笔记本电脑,据报道,该笔记本电脑配备了RyzenAI9365SKU。测试平台使用了32GB容量的LPDDR5x-7500内存。今天的测试主要关注IPC和吞吐量,首先使用InstructionRate工具来测量三代ZenCPU的指令吞吐量/延迟,包括Zen3、Zen4和Zen5架构。

David指出,尽管Zen5由于其彻底的设计而有所改进,但该架构也存在一些缺点,如下所示:

各类标量ALU指令的吞吐量都有了大幅提升,但是由于移动端Zen5中矢量单元数量相比桌面和服务器减少了一半,所以本次测试中的SIMD吞吐量与Zen4相比保持不变。即便在矢量单元减少一半的Zen5核心上,所有宽度的SIMD存储操作相比上代依然提升一倍,SIMD加载存储吞吐量达到1:1;

分支处理能力大大增强,每个周期可处理的未执行分支由2个增加到3个,每个周期可处理2个执行分支,这应该和新的前端设计有关;

128/256/512bitSSE/AVX/AVX512SIMD整数加法计算的延迟全部提升至2个周期,这个改变或许是为了更容易维持高频率。

128/256bitSIMD整数加法运算吞吐量相比Zen4减半,但512bit保持不变,推测该问题仅存在于SIMD减半的Zen5核心上,可能与端口分配有关;

删除了Zen4中引入的nop融合功能。不再可能将nop指令与同一个宏操作上的另一条指令合并;

调整了部分逻辑寄存器操作的吞吐量,将部分mov操作和部分寄存器归零操作的吞吐量统一为5,与Zen4相比有混合改进。

测试还重点关注并行双管道前端,这会影响指令获取、解码和宏操作缓存。据称,通过运行不同长度和数量的NOP指令,可以观察到Zen4和Zen5之间的差异。观察结果如下:

Zen5采用与Tremont类似但更宽的多前端设计,使用两个4宽x86解码器和至少8宽的宏操作缓存来实现8宽重命名;

考虑以下现象

Zen5在单线程中运行连续的NOP指令时无法使x86解码带宽超过4;

在指令吞吐量部分,测试了两个分支指令是否可以在一个周期内处理;

合理推测,Zen5不会采用类似Gracemont的预解码ILD缓存方案,而是必须在分支预测器预测到被采取的分支时,让两个解码器同时工作,也就是直接让其中一个解码器从下一个分支目标地址开始解码。从这个角度来看,AMD在分支稀疏的场景下,还是需要依靠宏操作缓存来实现高吞吐量。

Zen5不仅支持同一个周期从两个位置解码x86指令,还支持同一个周期从宏操作缓存中的两个位置获取指令,实现在宏操作缓存覆盖范围内每个周期执行两个分支指令;

当核心运行两个SMT线程时,每个线程可以独占一个解码器,使得整个核心的x86解码吞吐量限制在大多数情况下达到8。

关键词:
版权声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。

猜你喜欢

最新文章