20 年后重返独显战场，深度分析英特尔 Xe GPU 战略 - 新闻

12月15日消息，近日，EETimes对英特尔的显卡战略和发展前景进行了梳理分析。

在他们看来，英特尔新发的Xe架构是为开发更多全场景适配显卡做铺垫。同时，英特尔近日发行的独立显卡“DG1”弥补了英特尔的技术短板，并将在市场上获得一定反响。

英特尔在发布两款Xe GPU后，成功跻身独立显卡制造商行列。然而，“参与”和“引领”之间有很大的区别。从休闲玩家的笔记本电脑到高端游戏台式机，从入门级安卓游戏硬件到超级计算机，英特尔的显卡战略几乎无所不包。很显然，英特尔想成为显卡领域的领导者，但是英特尔真的可以吗？

过去，计算机显卡主要有两种用途：游戏和专业可视化（ProViz）。游戏硬件包括街机、游戏机和个人电脑。ProViz硬件主要用于计算机辅助设计（CAD）、数字内容创建（DCC）、医学成像和各种视觉模拟需求。在2005年后，GPU逐渐应用于各类高性能计算（HPC）应用。

如今，计算机显卡的应用场景不再局限于游戏、ProViz或HPC，但随着新应用场景的出现，适配问题愈发凸显。比如，高并行的GPU能为人工智能、深度学习（DL）/机器学习（ ML）应用程序提供支持，但往往需要在传统的游戏和ProViz数据格式之外，获取额外的数据格式支持。云端游戏显卡和服务器端图形渲染应用专为游戏打造，但是这类显卡并非数据中心的最佳选择。

若想成为显卡领跑者，英特尔必须开发全系列的显卡，涵盖传统用途、HPC和新兴应用场景。而这项任务的艰巨性无需多言。

近几个月，英特尔终于推出了近20年来第一款独立显卡，同时透露了更多的显卡战略细节。我们现在就来领略一下英特尔的雄图大略，同时听取专家的分析意见。

一、英特尔Xe架构：高度平行、用途多样

三年前，英特尔再次投身独立显卡研发，邀请业界大牛Raja Koduri加入英特尔，成立核心和视觉计算小组（Core and Visual Computing Group）来专攻独立显卡。

当时，英特尔明确表示，将以客户端、数据中心和高性能计算细分领域为服务对象，更好地处理人工智能、图形处理（游戏、模拟、ProViz、AR/VR等）、机器学习等高性能需求任务。

为此，英特尔曾尝试推出代号为“Larrabee”的多核处理器。按照设想，这款显卡能够在满足图像处理需求的同时，承担高性能计算负载。然而，由于英特尔执意想采用x86架构，这次尝试最终失败了。

Koduri掌舵后，英特尔开始研发高度平行架构“Xe”，Xe架构能够适应不同的工作负载需要，算力在TFLOPS（每秒万亿次的浮点运算）到ExaFLOPS（每秒百亿亿次的浮点运算）区间不等，具有较强的场景适应性。

截至目前，英特尔已推出Xe-LP低功耗系列，用于集成核显、入门级独显。在未来几年，英特尔还计划发布三套Xe GPU架构，以满足不同工作负载需要。

此外，为了确保Xe GPU（以及AI加速器、GPU、FPGA等）简单可用，英特尔面向软件开发团队推出了oneAPI工具包（统一编程模型）以及零级接口规范（仅针对AI、GPU、FPGA产品）。

二、Xe-LP：96个EU，内存带宽提高2倍！

近20年来，英特尔尽管缺席独显市场，却一直活跃在集成显卡领域，针对低价、低能耗的电脑推出了Gen架构。

Gen架构能够很好地适用于轻量级任务，但并不适用于数据中心等高性能要求任务。为此，英特尔推出了全新的Xe架构。

针对入门级产品，英特尔推出了Xe-LP，主要用于集成核显、入门级独显。

和去年推出的Gen 11架构一样，英特尔Xe-LP架构也能全面支持DirectX 12_1 API。此外，新架构带来了明显的性能优势，借助英特尔10nm Superfin制程工艺实现了更高的频率潜力（最高可达1.7GHz，上一代仅为1.1GHz）。

英特尔Xe-LP iGPU率先应用于第11代酷睿处理器“Tiger Lake”。Xe-LP iGPU的顶配版本具有96个执行单元（EU），运行速度可达1536 FP16 FLOPS/clock，每周期Texel纹理、Pixel像素渲染能力也从32、16提升到48、24。

内存子系统经改进，具有新的L1 Data Cache（数据高速缓存）、16 MB L3 Cache，同时支持端到端压缩及新的Ringbus互连技术，与上一代产品相比，可将带宽提高2倍。

和上一代架构相比，Xe-LP架构一大更新便是执行单元（EU）。全新EU集成了8-wide FP/INT ALU8和2-wide extended math ALU。8-wide FP/INT ALU8运算速度可达1 FP32/INT32 ops/clock、2 FP16/INT16 ops/clock和4 INT8 ops/clock，以更好地处理AI工作负载产生的各类数据。同时，两个EU共享线程控制（Thread Control），从而节省空间。

如若所有FP/INT ALU均以1.35GHZ的频率工作，Tiger Lake的高端Xe-LP iGPU可提供约2.1 TFLOPS的FP32图形处理性能，近乎是英特尔上一代Iris Plus G7显卡（1.12 TFLOPS）的两倍。此外，英特尔还提供了入门版本的Xe-LP iGPU，入门版本的EU等单元数量较少，性能也相对弱一些。

Xe-LP GPU还配备了英特尔最新的显示引擎（Display Engine）和媒体引擎（Media Engine）。新款媒体引擎具有12-bit end-to-end video pipeline，可播放BT.2020等格式的视频，同时能为最新编解码器（例如AV1）提供硬件加速解码功能。

由于集成显卡主要用于办公和媒体浏览，媒体引擎对集显的重要性不言而喻，同时对各类流媒体应用也有不可或缺的作用。

显示引擎支持四个video pipeline以及eDP、DisplayPort 1.2、HDMI 2.0、Thunderbolt 4/USB4 Type-C输出，足以满足当今的集成显卡和入门级独显的需求。

三、英特尔集显市占率达70%，Xe-LP市场潜力巨大

英特尔将Xe-LP集成显卡和独立显卡的用户群体定位为游戏玩家和创作者。

游戏方面，英特尔在提升硬件性能的同时，还努力优化驱动程序等软件表现。

例如，Xe-LP驱动程序支持硬件/软件调度代码签名（hardware/software scheduling codesign），为基于DirectX 11的游戏增加了灵活性。此外，这一系列还支持VRS可变帧率渲染，根据渲染场景的不同来选择降低或者提升渲染内容，以免在次要场景上浪费过多算力。

同时，英特尔还增加了游戏锐化（GS）技术，该技术可在分辨率不变的情况下提高游戏图像的清晰度，从而节省带宽，不过有可能增加GPU的其他部分的负荷，用户可以选择自行启用/禁用GS技术。

Jon Peddie Research的研究指出，全球近70％的PC搭载了英特尔的集成显卡。因此，英特尔一旦过渡到其新的Xe-LP架构，“吃”内置显卡的游戏必须相应作出调整。此外，英特尔还可以定制驱动程序，保持产品竞争力。

“ Xe-LP是英特尔显卡战略的第一步，”英特尔发言人布鲁斯·费恩伯格（Bruce Fienberg）说，“它是英特尔系列产品的节能基础，同时让英特尔20年来首款独显成为现实。Xe-LP面向的集显市场相当庞大，每年都有成千上万的新用户。Xe-LP将会支持全球大多数人的视觉体验。”

值得注意的是，在所有英特尔Xe微架构中，Xe-LP节能效果最佳、面积最优。英特尔表示，Xe-LP架构未来定将应用于PC和各类可拆卸式平板电脑。

四、英特尔Xe DG1：英特尔二十年来首款独显

二十年来磨一剑。

英特尔二十年里推出的首款商用独显名为Iris Xe Max（以前被称为代号DG1）。该GPU基于Xe-LP微架构，其配置和Tiger Lake集成GPU顶配版相同。

这款显卡包含96个EU，每周期Texel纹理、Pixel像素渲染能力也提升到48、24，支持多达4 GB LPDDR4X的128位内存控制器以及PCIe 4.0 x4接口，可连接到笔记本电脑的CPU，没有太多的备用PCIe通道。

英特尔Xe DG1采用10nm SuperFin工艺生产，和Tiger Lake CPU所使用的节点相同。

由于英特尔Xe DG1专为笔记本电脑设计，其时钟频率为1650 MHz，可提供高达2.46 FP32 TFLOPS的性能。这款独显虽然具有英特尔顶配集成GPU的同等配置（尽管频率提高了22％），但更好的散热设计（TDP）封装结合128位内存，为其带来了更强劲的性能。

英特尔称，英特尔Xe DG1不受Tiger Lake的TDP约束，总内存带宽为68 GB/s，可为全高清游戏以及附加的AI工作负载提供出色性能。显然，英特尔的野心不止于入门级游戏，还希望利用DG1解决消费级应用（通常计算需求高，如Topaz Labs的Gigapixel AI）的需求。

从游戏性能的角度来看，英特尔Xe DG1 GPU的主要竞争对手是AMD的Radeon RX 560（2016年GPU），英伟达的GeForce GTX 1050 Ti（2017年GPU）或低端MX350同类产品，但尚未能够与英伟达基于Turing架构的GeForce MX450匹敌。

在1080p分辨率下，2.46 FP32 TFLOPS的算力的确能够能满足很多游戏的需求，但还不足以满足高分辨率大型游戏的需要。也正因于此，游戏玩家才对价格高昂的高性能独显趋之若鹜。

此外，2.46 FP32 TFLOPS也难以达到实时业务可视化（real-time business visualizations）对画面的要求。显然，DG1并非为此打造，但这也意味着，这类软件的开发人员目前不会选择英特尔的GPU。

Limestone Simulations首席执行官Yaroslav Lyssenko提到：“对于开发人员而言，游戏和业务可视化代表了两套完全不同的需求，游戏开发会主动适应硬件情况，但VR模拟却主动对硬件提出要求，以满足商业应用对画面的超高要求。”

尽管英特尔Xe DG1难以满足更高的工作负载需求，但它还可以用来加速由英特尔Deep Link、Addictive AI技术支撑的内容创作应用。

简而言之，Deep Link是一种软件和固件堆栈，可用于平衡英特尔Tiger Lake集成显卡和英特尔Xe DG1独显之间的工作负载和热设计功耗（TDP）。Addictive AI则能同时调用iGPU和dGPU的计算资源，以服务于某一应用程序。

如今，HandBrake、Topaz Gigapixel AI、XSplit等应用程序都支持Deep Link和Addictive AI技术。英特尔表示，未来将最终采用Blender以及讯连科技、Magix等公司研发的各类加速应用。

五、英特尔Xe DG1：销量未卜，谨慎观望

尽管电脑制造商可能会采用低端iGPU和英特尔Xe DG1，从而为玩家提供不同价位的英特尔产品，但英特尔独显能否冲击配有高端iGPU的CPU销量？这仍是一个未知数。

而且，英特尔Xe DG1并未实现性能的实质性跃升，英特尔的营销重点仍放在CPU上（很大程度上是因为它将DG1定位为协处理器）。尽管如此，Jon Peddie Research的负责人乔恩·佩迪（Jon Peddie）相信英特尔Xe DG1终将在市场上找到自己的位置。

“DG1终将找到市场，OEM厂家也会投入相关生产，” Peddie说，“OEM厂商没法拒绝英特尔这样一个强大的品牌。像NVIDIA GeForce MX350这样的老一代产品（NVIDIA近期发行了基于Turing架构的MX450）可以期待英特尔新品带来的推力。30%的性能提升背后的功耗和价格成本是多少，我们还尚在观望之中。毕竟从照片来判断，DG1尺寸并不小。”

结语：战略意义比商业价值更值得重视

在高性能显卡领域沉寂20年之后，英特尔终于又推出了“DG1”。尽管DG1的绝对性能谈不上惊艳，但却吹响了英特尔重回独显战场的号角。

DG1所代表的Xe架构解决了困扰英特尔多年的技术问题，为英特尔成为业界唯一一家能够提供CPU、GPU、FPGA、AI芯片的全能型公司打下基础。

结合英特尔的生态和产品体量，我们不难想见，英特尔独显入市后对显卡市场产生的巨大搅动，以及对同类产品形成的强劲角力。