1215日消息,近日,EETimes对英特尔的显卡战略和发展前景进行了梳理分析。

在他们看来,英特尔新发的Xe架构是为开发更多全场景适配显卡做铺垫。同时,英特尔近日发行的独立显卡“DG1”弥补了英特尔的技术短板,并将在市场上获得一定反响。

英特尔在发布两款Xe GPU后,成功跻身独立显卡制造商行列。然而,“参与”和“引领”之间有很大的区别。从休闲玩家的笔记本电脑到高端游戏台式机,从入门级安卓游戏硬件到超级计算机,英特尔的显卡战略几乎无所不包。很显然,英特尔想成为显卡领域的领导者,但是英特尔真的可以吗?

过去,计算机显卡主要有两种用途:游戏和专业可视化(ProViz)。游戏硬件包括街机、游戏机和个人电脑。ProViz硬件主要用于计算机辅助设计(CAD)、数字内容创建(DCC)、医学成像和各种视觉模拟需求。在2005年后,GPU逐渐应用于各类高性能计算(HPC)应用。

如今,计算机显卡的应用场景不再局限于游戏、ProVizHPC,但随着新应用场景的出现,适配问题愈发凸显。比如,高并行的GPU能为人工智能、深度学习(DL/机器学习( ML)应用程序提供支持,但往往需要在传统的游戏和ProViz数据格式之外,获取额外的数据格式支持。云端游戏显卡和服务器端图形渲染应用专为游戏打造,但是这类显卡并非数据中心的最佳选择。

若想成为显卡领跑者,英特尔必须开发全系列的显卡,涵盖传统用途、HPC和新兴应用场景。而这项任务的艰巨性无需多言。

近几个月,英特尔终于推出了近20年来第一款独立显卡,同时透露了更多的显卡战略细节。我们现在就来领略一下英特尔的雄图大略,同时听取专家的分析意见。

一、英特尔Xe架构:高度平行、用途多样

三年前,英特尔再次投身独立显卡研发,邀请业界大牛Raja Koduri加入英特尔,成立核心和视觉计算小组(Core and Visual Computing Group)来专攻独立显卡。

当时,英特尔明确表示,将以客户端、数据中心和高性能计算细分领域为服务对象,更好地处理人工智能、图形处理(游戏、模拟、ProVizAR/VR等)、机器学习等高性能需求任务。

为此,英特尔曾尝试推出代号为“Larrabee”的多核处理器。按照设想,这款显卡能够在满足图像处理需求的同时,承担高性能计算负载。然而,由于英特尔执意想采用x86架构,这次尝试最终失败了。

Koduri掌舵后,英特尔开始研发高度平行架构“Xe”Xe架构能够适应不同的工作负载需要,算力在TFLOPS(每秒万亿次的浮点运算)到ExaFLOPS(每秒百亿亿次的浮点运算)区间不等,具有较强的场景适应性。

截至目前,英特尔已推出Xe-LP低功耗系列,用于集成核显、入门级独显。在未来几年,英特尔还计划发布三套Xe GPU架构,以满足不同工作负载需要。

此外,为了确保Xe GPU(以及AI加速器、GPUFPGA等)简单可用,英特尔面向软件开发团队推出了oneAPI工具包(统一编程模型)以及零级接口规范(仅针对AIGPUFPGA产品)。

二、Xe-LP:96个EU,内存带宽提高2倍!

20年来,英特尔尽管缺席独显市场,却一直活跃在集成显卡领域,针对低价、低能耗的电脑推出了Gen架构。

Gen架构能够很好地适用于轻量级任务,但并不适用于数据中心等高性能要求任务。为此,英特尔推出了全新的Xe架构。

针对入门级产品,英特尔推出了Xe-LP,主要用于集成核显、入门级独显。

和去年推出的Gen 11架构一样,英特尔Xe-LP架构也能全面支持DirectX 12_1 API。此外,架构带来了明显的性能优势,借助英特尔10nm Superfin制程工艺实现了更高的频率潜力(最高可达1.7GHz,上一代仅为1.1GHz)。

c5274be98c9340b0aaac0a6af91d5cf0.jpg

英特尔Xe-LP iGPU率先应用于第11代酷睿处理器“Tiger Lake”Xe-LP iGPU的顶配版本具有96个执行单元(EU),运行速度可达1536 FP16 FLOPS/clock,每周期Texel纹理、Pixel像素渲染能力也从32、16提升到48、24

内存子系统经改进,具有新的L1 Data Cache(数据高速缓存)、16 MB L3 Cache,同时支持端到端压缩及新的Ringbus互连技术,与上一代产品相比,可将带宽提高2倍。

ba72ef345b2343ee85e267170c1c092b.jpg

和上一代架构相比,Xe-LP架构一大更新便是执行单元(EU)。全新EU集成了8-wide FP/INT ALU82-wide extended math ALU8-wide FP/INT ALU8运算速度可达1 FP32/INT32 ops/clock2 FP16/INT16 ops/clock4 INT8 ops/clock,以更好地处理AI工作负载产生的各类数据。同时,两个EU共享线程控制(Thread Control),从而节省空间。

ecd4fe136ba84ec6bbebe7d8f594fa23.jpg

如若所有FP/INT ALU均以1.35GHZ的频率工作,Tiger Lake的高端Xe-LP iGPU可提供约2.1 TFLOPSFP32图形处理性能,近乎是英特尔上一代Iris Plus G7显卡(1.12 TFLOPS)的两倍。此外,英特尔还提供了入门版本的Xe-LP iGPU,入门版本的EU等单元数量较少,性能也相对弱一些。

c17aa5c10a93499aa61b62c8c20b7f07.jpg

Xe-LP GPU还配备了英特尔最新的显示引擎(Display Engine)和媒体引擎(Media Engine)。新款媒体引擎具有12-bit end-to-end video pipeline,可播放BT.2020等格式的视频,同时能为最新编解码器(例如AV1)提供硬件加速解码功能。

由于集成显卡主要用于办公和媒体浏览,媒体引擎对集显的重要性不言而喻,同时对各类流媒体应用也有不可或缺的作用。

显示引擎支持四个video pipeline以及eDPDisplayPort 1.2HDMI 2.0Thunderbolt 4/USB4 Type-C输出,足以满足当今的集成显卡和入门级独显的需求。

481099a8b3144ccf9414ed35751e3780.jpg

三、英特尔集显市占率达70%,Xe-LP市场潜力巨大

英特尔将Xe-LP集成显卡和独立显卡的用户群体定位为游戏玩家和创作者。

游戏方面,英特尔在提升硬件性能的同时,还努力优化驱动程序等软件表现。

例如,Xe-LP驱动程序支持硬件/软件调度代码签名(hardware/software scheduling codesign),为基于DirectX 11的游戏增加了灵活性。此外,这一系列还支持VRS可变帧率渲染,根据渲染场景的不同来选择降低或者提升渲染内容,以免在次要场景上浪费过多算力。

同时,英特尔还增加了游戏锐化(GS)技术,该技术可在分辨率不变的情况下提高游戏图像的清晰度,从而节省带宽,不过有可能增加GPU的其他部分的负荷,用户可以选择自行启用/禁用GS技术。

Jon Peddie Research的研究指出,全球近70%的PC搭载了英特尔的集成显卡。因此,英特尔一旦过渡到其新的Xe-LP架构,内置显卡的游戏必须相应作出调整。此外,英特尔还可以定制驱动程序,保持产品竞争力。

“ Xe-LP是英特尔显卡战略的第一步,英特尔发言人布鲁斯·费恩伯格(Bruce Fienberg)说,它是英特尔系列产品的节能基础,同时让英特尔20年来首款独显成为现实。Xe-LP面向的集显市场相当庞大,每年都有成千上万的新用户。Xe-LP将会支持全球大多数人的视觉体验。

值得注意的是,在所有英特尔Xe微架构中,Xe-LP节能效果最佳、面积最优。英特尔表示,Xe-LP架构未来定将应用于PC和各类可拆卸式平板电脑。

四、英特尔Xe DG1:英特尔二十年来首款独显

二十年来磨一剑。

英特尔二十年里推出的首款商用独显名为Iris Xe Max(以前被称为代号DG1)。该GPU基于Xe-LP微架构,其配置和Tiger Lake集成GPU顶配版相同。

这款显卡包含96EU,每周期Texel纹理、Pixel像素渲染能力也提升到48、24,支持多达4 GB LPDDR4X128位内存控制器以及PCIe 4.0 x4接口,可连接到笔记本电脑的CPU,没有太多的备用PCIe通道。

英特尔Xe DG1采用10nm SuperFin工艺生产,和Tiger Lake CPU所使用的节点相同。

由于英特尔Xe DG1专为笔记本电脑设计,其时钟频率为1650 MHz,可提供高达2.46 FP32 TFLOPS的性能。这款独显虽然具有英特尔顶配集成GPU的同等配置(尽管频率提高了22%),但更好的散热设计(TDP)封装结合128位内存,为其带来了更强劲的性能。

英特尔称,英特尔Xe DG1不受Tiger LakeTDP约束,总内存带宽为68 GB/s,可为全高清游戏以及附加的AI工作负载提供出色性能。显然,英特尔的野心不止于入门级游戏,还希望利用DG1解决消费级应用(通常计算需求高,如Topaz LabsGigapixel AI)的需求。

从游戏性能的角度来看,英特尔Xe DG1 GPU的主要竞争对手是AMDRadeon RX 5602016GPU),英伟达的GeForce GTX 1050 Ti2017GPU)或低端MX350同类产品,但尚未能够与英伟达基于Turing架构GeForce MX450匹敌。

1080p分辨率下,2.46 FP32 TFLOPS的算力的确能够能满足很多游戏的需求,但还不足以满足高分辨率大型游戏的需要。也正因于此,游戏玩家才对价格高昂的高性能独显趋之若鹜。

此外,2.46 FP32 TFLOPS也难以达到实时业务可视化(real-time business visualizations)对画面的要求。显然,DG1并非为此打造,但这也意味着,这类软件的开发人员目前不会选择英特尔的GPU

Limestone Simulations首席执行官Yaroslav Lyssenko提到对于开发人员而言,游戏和业务可视化代表了两套完全不同的需求,游戏开发会主动适应硬件情况,但VR模拟却主动对硬件提出要求,以满足商业应用对画面的超高要求。

尽管英特尔Xe DG1难以满足更高的工作负载需求,但它还可以用来加速由英特尔Deep LinkAddictive AI技术支撑的内容创作应用。

简而言之,Deep Link是一种软件和固件堆栈,可用于平衡英特尔Tiger Lake集成显卡和英特尔Xe DG1独显之间的工作负载和热设计功耗(TDP)。Addictive AI则能同时调用iGPUdGPU的计算资源,以服务于某一应用程序。

如今,HandBrakeTopaz Gigapixel AIXSplit等应用程序都支持Deep LinkAddictive AI技术。英特尔表示,未来将最终采用Blender以及讯连科技、Magix等公司研发的各类加速应用。

五、英特尔Xe DG1:销量未卜,谨慎观望

尽管电脑制造商可能会采用低端iGPU和英特尔Xe DG1,从而为玩家提供不同价位的英特尔产品,但英特尔独显能否冲击配有高端iGPUCPU销量?这仍是一个未知数。

而且,英特尔Xe DG1并未实现性能的实质性跃升,英特尔的营销重点仍放在CPU上(很大程度上是因为它将DG1定位为协处理器)。尽管如此,Jon Peddie Research的负责人乔恩·佩迪(Jon Peddie)相信英特尔Xe DG1终将在市场上找到自己的位置。

“DG1终将找到市场,OEM厂家也会投入相关生产,” Peddie说,“OEM厂商没法拒绝英特尔这样一个强大的品牌。像NVIDIA GeForce MX350这样的老一代产品(NVIDIA近期发行了基于Turing架构MX450)可以期待英特尔新品带来的推力。30%的性能提升背后的功耗和价格成本是多少,我们还尚在观望之中。毕竟从照片来判断,DG1尺寸并不小。

结语:战略意义比商业价值更值得重视

在高性能显卡领域沉寂20年之后,英特尔终于又推出了“DG1”。尽管DG1的绝对性能谈不上惊艳,但却吹响了英特尔重回独显战场的号角。

DG1所代表的Xe架构解决了困扰英特尔多年的技术问题,为英特尔成为业界唯一一家能够提供CPU、GPU、FPGA、AI芯片的全能型公司打下基础。

结合英特尔的生态和产品体量,我们不难想见,英特尔独显入市后对显卡市场产生的巨大搅动,以及对同类产品形成的强劲角力。