在经过多次的延期以后,英特尔首个基于Chiplet设计的第四代至强可扩展服务器处理器Sapphire Rapids终于正式发布。据介绍,该系列处理器包括了包括常规版本和注入 HBM 的Max版本。
外媒tomshardware更是直言,英特尔拥有 52 款全新 CPU 的庞大产品组合将与去年首次亮相的 AMD EPYC Genoa系列展开激烈竞争。
据报道,虽然 AMD 的芯片以单个芯片上最多 96 个内核保持核心数量领先,但英特尔的 Sapphire Rapids 芯片使该公司最多达到 60 个内核,比之前第三代Ice Lake至强的 40 个内核的峰值提高了 50%.
英特尔声称这将使通用计算能力比其上一代芯片提高 53%,但在演示期间,他们基本上避免与 AMD 的芯片进行直接比较。然而,英特尔已向媒体提供样品以供不受限制的第三方审查,因此它并没有回避竞争。
Sapphire Rapids 非常依赖新的加速技术,这些技术可以直接购买,也可以通过新的现收现付模式购买。
芯片的这些新的专用加速器区域旨在从根本上提高多种类型工作的性能,例如压缩、加密、数据移动和数据分析,这些工作通常需要独立的加速器才能实现最佳性能。
尽管拥有明显的核心数量领先优势,但 AMD 的 Genoa 处理器并没有类似的加速功能。
在使用新加速器时,英特尔声称在某些工作负载中,每瓦性能比其上一代模型平均提高 2.9 倍。英特尔还声称 AI 推理和训练提高了 10 倍,数据分析工作负载提高了 3 倍。
英特尔的 Sapphire Rapids 采用“Intel 7”工艺制造,还带来了一系列新的连接技术,例如对 PCIe 5.0、DDR5 内存和 CXL 1.1 接口(type 1 and 2 devices)的支持,为公司提供了对AMD的Genoa站稳脚跟。
英特尔的 Sapphire Rapids 产品堆栈涵盖 52 个型号,分为“性能”和“主流”双插槽芯片,用于通用型号。还有用于液冷、单路、网络、云、HPC 和存储/HCI 系统的专用型号。
结果,感觉几乎每个工作负载都有一个专门的芯片,这就创建了一个令人困惑的产品堆栈。
然后,这些芯片被分为各种 Max、Platinum、Gold、Silver 和 Bronze 子层(sub-tiers),每个子层表示不同级别的插槽可扩展性、对 Optane 持久内存的支持、RAS 功能、SGX 飞地容量等。
Sapphire Rapids 芯片现在还配备了不同数量的板载启用加速器设备。目前,重要的是要知道每个芯片都可以启用可变数量的加速器“设备”(在上面的规格表中列出——将“设备”的数量视为类似于加速器“内核”)。
您可以购买完全支持所有加速器的四个设备的芯片,或者您可以选择支持设备数量较少的较便宜的芯片型号。
如果芯片未完全启用,您可以稍后通过称为Intel on Demand的新的现收现付机制激活加速器. “+”模型默认启用每种类型的至少一个加速器。但是,有两类芯片具有两种不同的加速器分配。
我们将在下面深入探讨这些细节以及不同类型的加速器。
新处理器都支持 AVX-512、深度学习提升 (DLBoost) 和新的高级矩阵扩展 (AMX) 指令,后者通过使用一组称为图块的新二维寄存器在 AI 工作负载中提供爆炸性的性能提升。
英特尔的 AMX 实施将主要用于提高 AI 训练和推理操作的性能。
和以前一样,英特尔的第 4 代至强可扩展平台支持 1、2、4 和 8 插槽配置,而 AMD 的 Genoa 仅可扩展到两个插槽。
AMD 在 PCIe 连接选项方面处于领先地位,提供多达 128 个 PCIe 5.0 通道,而 Sapphire Rapids 最高提供 80 个 PCIe 5.0 通道。
Sapphire Rapids 还支持高达 1.5TB 的 DDR5-4800 内存分布在每个插槽的八个通道中,而 AMD 的 Genoa 支持高达 6TB 的 DDR5-4800 内存分布在每个插槽的 12 个通道中。
英特尔已将其 2DPC(每通道 DIMM 数)配置指定为 DDR5-4400,而 AMD 尚未完成其 2DPC 传输速率的资格认证(该公司预计将在本季度发布 2DPC 规格)。
Sapphire Rapids 处理器能提供从八核型号到 60 核型号等不等的SKU,旗舰 Xeon Scalable Platinum 8490H 的起价为 415 美元,最高价为 17,000 美元。
8490H 有 60 个内核和 120 个线程,所有四种加速器类型都已完全启用。该芯片还具有 112.5 MB 的 L3 缓存和 350W TDP 额定值。
Sapphire Rapids TDP envelopes span从 120W 到 350W。350W 的额定功率明显高于英特尔上一代 Ice Lake Xeon 系列的 280W 峰值,但对更高性能的不懈追求使整个行业都在推向更高的极限。
例如,AMD 的 Genoa 以类似的 360W TDP 达到顶峰,尽管是针对 96 核型号,甚至可以配置为高达 400W。
8490H 是唯一的 60 核型号,并且仅在启用所有加速引擎的情况下才可用。
回到 56 核 Platinum 8480+ 将花费 10,710 美元,但每种类型的加速设备中只有一个处于活动状态。该处理器具有 3.8 GHz 升压时钟、350W TDP 和 105MB 的三级缓存。
英特尔的新型片上(on-die )加速器是其 Sapphire Rapids 处理器的关键新组件。
如上所述,您可以购买已激活所有加速器选项的芯片,也可以选择更便宜的型号并根据需要通过 Intel On Demand 服务购买加速器许可证。并非所有芯片都具有相同的加速器选项,我们将在下面介绍。
英特尔尚未提供加速器的定价指南,但许可证将通过服务器 OEM 提供,并通过软件和许可 API 激活。
无需直接购买完整许可证,您还可以选择按使用量计费的现收现付功能,以衡量您使用了多少服务。此功能可能会在 CSP 中流行。
Intel On Demand 服务背后的想法是让客户只激活他们需要的功能并支付费用,同时还提供了不需要购买新服务器或处理器的未来升级路径。
相反,客户可以选择使用加速引擎来提高性能。这也让英特尔及其合作伙伴能够从同一个功能芯片中“雕刻”出多种类型的 SKU,从而简化供应链并降低成本。
这些功能代表了英特尔将固定功能加速器引入处理器裸片的悠久历史的延续。尽管如此,Sapphire Rapids 上强大的单元仍需要软件支持才能发挥全部性能。
英特尔已经与多家软件供应商合作,以支持广泛的应用程序,您可以在上面的相册中看到其中的许多应用程序。
英特尔有四种类型的加速器可用于 Sapphire Rapids。数据流加速器 (DSA:Data Streaming Accelerator) 通过卸载 CPU 的数据复制和数据转换操作来改进数据移动。
当系统负载波动时,动态负载平衡器 (DLB:Dynamic Load Balancer) 加速器介入以提供数据包优先级并动态平衡 CPU 内核之间的网络流量。
英特尔还有一个内存分析加速器 (IAA:In-Memory Analytics Accelerator),可以加速分析性能并卸载 CPU 内核,从而提高数据库查询吞吐量和其他功能。
英特尔还将其快速辅助技术 (QAT:Quick Assist Technology) 加速器带入了 CPU。此功能过去驻留在芯片组上。该硬件卸载加速器增强了加密和压缩/解压缩性能。
英特尔使用 QAT 加速器已有一段时间,因此该技术已经享有广泛的软件支持。
不幸的是,这些芯片具有不同的加速能力——你不能在所有型号上购买四个“设备”。Sapphire Rapids 处理器由两种类型的设计(Die Chops)组成,如 SKU 表中所列。
XCC 芯片由四个die组成,每个die都有一个加速器(IAA、QAT、DSA、DLB)。这意味着您最多可以在这些芯片上激活每种类型的四个加速器(例如,4 个 IAA、4 个 QAT、4 个 DSA、4 个 DLB)。
相比之下,一些芯片使用单个 MCC die,因此它们只有一个 IAA 和 DSA 加速器以及两个 QAT 和 DLB 加速器(2 个 QAT、2 个 DLB、1 个 IAA、1 个 DSA)。
Intel Max CPU 系列和 Ponte Vecchio Max GPU 系列
英特尔最近公布了有关其即将推出的至强 Max 系列 CPU 和英特尔数据中心 GPU Max 系列(Ponte Vecchio) 的详细信息。今天标志着正式启动。
英特尔配备 HBM2e 的 Max CPU 型号上市,具有 32 至 56 个内核,并基于标准的 Sapphire Rapids 设计。这些芯片是第一批采用 HBM2e 内存封装的 x86 处理器,从而为处理器提供了更大的 64GB 本地内存池。
HBM 内存将有助于处理对内核数量不那么敏感的内存绑定工作负载,因此 Max 型号的内核数量少于标准型号。
目标工作负载包括计算流体动力学、气候和天气预报、人工智能训练和推理、大数据分析、内存数据库和存储应用程序。
Max CPU 可以在多种配置下运行,例如将 HBM 内存用于所有内存操作(仅 HBM - 不需要 DDR5 内存),将 HBM 呈现为单独内存区域的 HBM“平面模式”(这需要广泛的软件支持),或者在使用 HBM2e 作为 DRAM 支持的缓存的 HBM“缓存模式”中。后者不需要更改代码,很可能是最常用的操作模式。
Xeon Max CPU 将与AMD 的 EPYC Milan-X 处理器相抗衡,后者带有一个称为 3D V-Cache 的 3D 堆叠 L3 缓存。Milan-X 模型每个芯片具有高达 768MB 的总 L3 缓存,可提供令人难以置信的带宽量,但它提供的容量不如英特尔的 HBM2e 方法。这两种方法各有优缺点,因此我们迫不及待地想对 Xeon Max 处理器进行测试。
值得注意的是,富士通的 A64FX Arm 处理器使用了类似的 HBM 技术。配备 HBM 的 A64FX 处理器为 Fugaku 超级计算机提供动力,该超级计算机多年来一直是世界上最快的(直到去年由AMD 驱动的百亿亿级 Frontier接管)。Fugaku 仍然保持在 Top500 的第二位。
英特尔还推出了之前代号为 Ponte Vecchio 的 Max GPU 系列。英特尔此前推出了三种不同的 GPU 型号,它们均采用标准 PCIe 和 OAM 外形规格。
英特尔傲腾持久内存 (PMem) 300
作为 Sapphire Rapids 发布的一部分,英特尔悄悄推出了最后一个系列的傲腾持久内存 DIMM。最后一代代号为 Crow's Pass 但正式名称为 Intel Optane Persistent Memory 300,将提供 128、256 和 512 GB 容量,并以 DDR5-4400 运行。这比之前的 DDR4-3200 峰值有了很大的改进,但这也意味着如果 Sapphire Rapids 系统计划使用傲腾,则必须将标准内存从支持的 DDR5-4800 降频到 DDR5-4400。
英特尔声称 300 系列在随机工作负载中提供的顺序带宽增加了 56%,带宽增加了 214%,同时支持每个插槽高达 4TB 的 Optane,或系统总容量为 6TB。
就像上一代 Optane 200 系列一样,DIMM 的运行功率为 15W。但是,他们现在升级到 DDR-T2 接口和 AES-XTS 256 位加密。
在 2015 年首次亮相时,英特尔和合作伙伴美光吹捧其底层技术 3D XPoint,其性能和耐用性是 NAND 存储的 1000 倍,同时密度是 DRAM 的 10 倍,但该技术现在即将走到尽头。
英特尔已经停止生产用于客户端 PC 的 Optane 存储产品,这是有道理的,因为它是将其 NAND 业务出售给 SK 海力士。
然而,英特尔保留了其数据中心的内存业务,包括其持久内存 DIMM ,它可以作为主内存的附件——只有英特尔提供的功能。在 300 系列模块之后,这些产品也不会出现任何后代。
英特尔将行业转向基于 CXL 的架构作为结束 Optane 业务的原因,反映了英特尔前合作伙伴美光去年退出该业务时的情绪. Sapphire Rapids 同时支持 Optane DIMM 和 CXL 接口,但这将是最后一次看到两者同时出现——CXL 将成为未来业界将奇异存储器连接到芯片的首选方法。
英特尔延迟交付旗舰芯片的内幕
去年 5 月,芯片巨头英特尔的高管桑德拉里维拉 (Sandra Rivera)得到了一些令人震惊的消息。
工程师们花了五年多的时间来开发一种功能强大的新型微处理器,以在数据中心执行计算任务,并且确信他们最终得到了正确的产品。但在讨论该项目的例行早会上,出现了潜在严重技术缺陷的迹象。
这个问题非常麻烦,以至于微处理器的代号 Sapphire Rapids 不得不推迟发布——这是英特尔多年来最重要的产品之一遭遇的一系列挫折中的最新一次。
“我们非常沮丧,”负责英特尔数据中心和人工智能集团的执行副总裁里维拉女士说。“这是一个痛苦的决定。”
Sapphire Rapids 的发布时间最终从 2022 年年中推迟到本周二,比预期晚了近两年。该产品的长期开发——在一个封装中结合了四个芯片——凸显了在美国试图确立其在基础计算机技术领域的主导地位时英特尔扭亏为盈所面临的一些挑战。
自 1970 年代以来,英特尔一直是运行大多数电子设备的小硅片领域的领先者,最著名的是一种称为微处理器的品种,它在大多数计算机中充当电子大脑。但这家硅谷公司近年来失去了在制造技术方面的长期领先优势,而这有助于决定芯片的计算速度。
2021 年成为英特尔首席执行官的帕特里克·盖尔辛格 ( Patrick Gelsinger ) 誓言要恢复其制造优势并在美国建立新工厂。
Sapphire Rapids 的坎坷发展对英特尔能否反弹以按时交付未来芯片具有影响。这是一个可能会影响许多计算机制造商和云服务提供商的问题,更不用说数百万使用可能由英特尔技术提供支持的在线服务的消费者了。
“我们想要的是一个可预测的稳定节奏,”联想负责服务器销售的执行副总裁柯克斯考根说,这家中国公司计划推出 25 个基于新处理器的新系统。“Sapphire Rapids 是旅程的开始。”
对英特尔来说,压力还在。随着对用于个人电脑的芯片的需求下降,该公司在其最赚钱的业务服务器芯片方面面临着激烈的竞争。这个问题令华尔街感到担忧,自从 Gelsinger 上任以来,英特尔的市值暴跌超过 1200 亿美元。
在周二的在线活动中讨论以科罗拉多河的一部分命名的 Sapphire Rapids,英特尔客户描述了使用该处理器的计划,他们表示这将为人工智能任务带来特别的好处。该产品的正式名称为第 4 代英特尔至强可扩展处理器,与至强芯片系列的另一个延迟添加一起推出。该产品以前的代号为 Ponte Vecchio,旨在加速特殊用途的工作,并与 Sapphire Rapids 一起用于高性能计算机。
Gelsinger先生在接受采访时说,尽管有延误,但 Sapphire Rapids 已经具备了成功的条件。他在 2021 年选择里维拉女士接管开发它的部门,她正在利用经验教训改变英特尔设计和测试其产品的方式。他说英特尔已经对 Sapphire Rapids 发生的事情进行了几次内部审查。
Sapphire Rapids 始于 2015 年,由一小群英特尔工程师进行讨论。该产品是该公司首次尝试采用新的芯片设计方法。公司现在通常在每块硅片上封装数百亿个微型晶体管,但像Advanced Micro Devices和其他公司这样的竞争对手已经开始用塑料封装中捆绑在一起的多个芯片制造处理器。
英特尔工程师提出了一种包含四个裸片的设计,每个裸片都有 15 个处理器“内核”,就像用于通用计算工作的独立计算器一样。该公司还决定为特殊任务(包括人工智能和加密)添加额外的电路块,并与其他组件通信,例如存储数据的芯片。
共同领导英特尔设计工程团队的 Shlomit Weiss 说,这么多元素之间的相互作用“非常复杂”。“复杂性通常会带来问题。”
Sapphire Rapids 团队努力解决由设计人员错误或制造故障引起的缺陷、缺陷,这些缺陷可能导致芯片进行错误计算、工作缓慢或停止运行。他们还受到产品制造过程延迟的影响。
但到 2019 年 12 月,工程师们达到了一个里程碑,称为“流片”。那时,包含完整设计的电子文件会被转移到工厂制作样品芯片。
由于 Covid-19 迫使封锁,样品芯片于 2020 年初运抵。工程师们很快就让 Sapphire Rapids 上的计算核心相互通信,该项目的总工程师 Nevine Nassif 说。但比预期更多的工作仍然存在。
一项关键的杂务是“验证”,这是一个测试过程,英特尔及其客户在样本芯片上运行软件以模拟计算杂务并发现错误。一旦发现并修复缺陷,设计可能会返回工厂制造新的测试芯片,这通常需要一个多月的时间。
重复该过程导致错过最后期限。Nassif 女士说,Sapphire Rapids 旨在对抗 AMD 的 Milan 处理器,该处理器于 2021 年 3 月推出。但到 6 月它仍未准备就绪,当时英特尔宣布推迟到明年进行更多验证。
就在那时,里维拉女士介入了。这位长期担任英特尔高管的人在 2019 年被任命为首席人力资源官之前,已经成功地建立了网络产品业务。
“我们必须恢复执行力,”基辛格先生说。“我需要有人能够挺身而出,为我解决这个问题。”
2021 年 10 月,Rivera 女士和一位高级设计主管建立了每周一次的 Sapphire Rapids 状态会议,每周一早上 7 点举行。她说,这些会议表明在查找和修复错误方面取得了稳步进展,这增强了人们对 2022 年第二季度开始生产的信心.
然后是去年五月发现的缺陷。里维拉女士不愿详细描述,但表示它影响了处理器的性能。6 月,她利用一次投资者活动宣布延迟至少四分之一,这将 Sapphire Rapids 推迟到了 11 月。
“我们已经准备好发货了,”纳西夫女士说。最后的延迟“考虑到已经付出的所有努力,真是太令人难过了。”
里维拉女士从挫折中看到了一系列教训。一个原因很简单,英特尔在 Sapphire Rapids 中包含了太多的创新,而不是更早地提供一个不那么雄心勃勃的产品。
她还得出结论,该团队应该花更多时间使用计算机模拟来完善和测试其设计。里维拉女士说,在样品芯片出现错误之前发现错误成本较低,并且可以删除功能以简化产品。此后,她转而加强英特尔的模拟和验证能力。
“我们曾经有很多这样的肌肉,我们任其萎缩,”里维拉女士说。“现在我们正在重建。”
她还确定英特尔安排的产品数量超过了其工程师和客户能够轻松处理的数量。因此,她简化了产品路线图,包括将 Sapphire Rapids 的继任者从 2023 年推迟到 2024 年。
更广泛地说,里维拉女士和其他英特尔高管推动该组织开发更好的流程来记录技术问题,并在公司内外共享该信息。