(图 via WCCFTech)
AMD 指出,CDNA 2 内核可加速 FP64 和 FP32 矩阵运算,FP64 理论峰值性能最高可达上一代的 4 倍。
Introducing the AMD Instinct MI200 Series Accelerator(via)
得益于业内领先的 2.5D Elevated Fanout Bridge(EFB)封装技术,AMD 首创的多芯片 GPU 设计,在内核数量上达到了上一代的 1.8 倍、内存带宽达到了 2.7 倍,聚合理论峰值内存带宽也高达 3.2 TB/s 。
第三代 Infinity Fabric 技术可管理多达 8 条 Infinity Fabric 链路,将 AMD Instinct MI200 计算节点与三代霄龙(EPYC)处理器和其它 GPU 连接起来,以实现统一的 CPU / GPU 一致性、并最大限度地提升系统吞吐量。
据悉,AMD Instinct MI200 内部是一块 Aldebaran GPU,并且可进一步细分为主 / 副两部分芯片。每个芯片有 8 组着色器引擎(总共 16 组 SE),且每 SE 包含 16 个具有全速率 FP64 / FP32 / 二代矩阵引擎的 CU(用于 FP16 / BF16 操作)。
每个芯片 die 上拥有 128 计算单元(CU)/ 8192 个流处理器,总计可轻松达成 220 计算单元 / 14080 个留处理器,辅以新颖的 XGMI 内部互联设计、且每个小芯片具有 VCN 2.6 引擎 / 主 IO 控制器。
AMD Instinct MI200 系列加速器基于 AMD CDNA 2 架构,可为广泛的高性能计算(HPC)工作负载提供业内领先的应用程序性能。
其中 MI250X 型号提供 4.9X 倍于竞品的 FP64 性能,以及超过 380 万亿次的理论峰值半精度(FP16)浮点运算性能,可极大推动 AI 等数据驱动的研究工作。
性能方面,AMD Instinct MI200 也超越英伟达 A100 解决方案,并打破了多项纪录,比如高达 3X 的 AMG 性能。
DRAM 方面,AMD 采用了 1024-bit @ 8 通道接口,总计 8192-bit 总线位宽,且每个接口可支持 2GB HBM2e 缓存。
每个堆栈具有高达 16GB 的 HBM2e 缓存,最大可达 128GB 。相比之下,英伟达 A100 平台只有 80GB HBM2e 缓存。
AMD Instinct MI200 的显存速率也达到了 3.2 Gb/s,总带宽 3.2 TB/s,较 2TB/s 的英伟达 A100 80GB 型号还领先 1.2 TB/s 。
目前已知的是,AMD Instinct MI200 将为三台顶级超算提供支持,包括美国百亿亿级 Frontier 系统、欧盟 pre-exascale LUMI 系统、以及澳大利亚千万亿级 Setonix 系统。
最后,AMD 为 Instinct MI200 系列 GPU 加速卡提供了三种配置选项,包括 OAM 形式的 MI250 / MI250X、以及双槽 PCIe 形式的 MI210 。
本文来源:cnBeta 如有侵权请联系管理删除