zen3 服务器芯片,AMD EPYC霄龙服务器处理器亮相,Zen3架构性能飙升

news/2024/10/23 5:40:18/

AMD EPYC霄龙服务器处理器亮相,Zen3架构性能飙升

qk&BCkPT

{dl@#Tu

AMD EPYC霄龙服务器处理器亮相,Zen3架构性能飙升R8%u9o

N:^4OnVR

T2T?)_f /

备受关注的第三代AMD EPYC霄龙服务器处理器“米兰(Milan)”正式亮相。“米兰”采用7nm制程工艺,架构升级到Zen3,“米兰”家族7003系列有19个型号,性能较二代EPYC“罗马”有显著提升。

a4ff4ec27607bdda5251cb8c44bc18f3.pngMv%B#J 

在AMD服务器处理器的演进路线图上,“米兰”具有重要的战略位置,经历了前两代的“那不勒斯”和“罗马”之后,对于实现在数据中心市场的进一步攻城略地,“米兰”被寄予厚望。

发布会上,AMD高级副总裁兼服务器业务总经理Dan McNamara,AMD 全球院士、Zen核心首席设计师Mike Clark,AMD院士及SoC架构师Noah Beck,AMD EPYC产品管理全球副总裁Ram Peddibhotla等接受了集微网在内的媒体采访,从架构、设计、产品等方面详细介绍了“米兰”背后的更多细节。

Dan McNamara表示,“米兰”的发布将会进一步巩固AMD在数据中心市场中的地位,无论是从核心还是系统层面都体现出优越的性能。对于市场用户而言,在整体拥有成本方面,“米兰”将带来更高的价值,同时AMD也在加速布局生态,推出围绕“米兰”的更多应用。

7nmZen3架构 19%IPC性能提升

c758d818884b56a45de0beb03dc7db59.png

自2017年重返数据中心市场开始,AMD一直追求架构上的创新以及由此带来的性能飞越,从Zen1到到Zen3,都在IPC性能表现方面实现了显著提升。如采用Zen2架构的“罗马”发布时,实现了较上一代15%的IPC性能提升,而此次Zen3架构,实现了约19%的IPC性能提高,远高于行业平均水平。

据Mike Clark介绍,要实现这样的进步,必须在整个架构的每个环节去分别优化。首先,在Zen3上,AMD改善了分支预测的功能,不仅提高了准确性同时能够更快的到达目标,同时在系统中能发出更快指令,更高指数的吞吐量,增加了更多的流水线提高吞吐量,同时也为推理方面的工作负载去更强的赋能。从四核到八核都让整个通讯的速度加快,效果更完善,即使是在线程数比较低的系统中由于能够实现共享内存调用,可以降低有效的内存访问的延迟。

具体而言,从Zen2到Zen3,在前端改进方面,AMD将BTB提高了一倍,达到1024。同时增加了分支预测器的带宽,另外在分支预测中消除了冒泡现象,因为冒泡现象在很多架构中是常见问题,能够更快的从误测中去恢复,能够更快的寻址。

Mike Clark表示,对于更大的服务器工作负载而言,Zen3可以更无缝的在op cache和I cache切换,实现现更高颗粒度的流水线切换。

在执行部分,Zen3首先针对整数设置了专用的分支和ST数据拣选器,有更大的窗口,减少了某些运行时延,在浮点方面增加两个位宽的调度和分发,更快的FMAC周期,还有两条INT8的IMAC流水线。

在加载存储这部分Zen3有三个加载和两个存储,操作灵活性增加,也对内存依赖性的检测做了优化,同时对于这些非常随机内存的操作我们也提供了6个页表查询器去实现更好的TLB查询。

在指令集方面,在加速、加密和解密算法上Zen3扩展了AVX2指令到256位。Mike Clark指出安全是改进最大的部分,首先对SEV的改进,限制中断的注入,限制恶意管理程序注入SEV-ES访客中断/异常类型,还有能够将调试寄存器添加到交换状态中。

此外,Mike Clark介绍,在一代EPYC产品投入市场时,行业正在遭遇幽灵攻击,现在看当时的应对方式并不是最优解,但到目前三代时,应该说AMD从架构方面已经做好了强防御,同时对性能的折损也能够降到最低,在提升的IPC性能的同时,也大大增强了系统的安全性和稳定性。

9ede2c751cf1d96a18819149eff8a829.png

“8+1”小芯片设计 强化安全性能

a649a2b572ed706c429ec921c5253d12.png

从芯片上看,“米兰”仍延续了自“罗马”起的“8+1”小芯片设计方式,采用原来的运算CCX,Socket IO整合设计。所有的八核能够同时共享32MB的缓存。在兼容性上,Zen3与Zen2平台能够实现较好兼容,支持PCIe4有两个DIMMs通道,4TB每插槽。

目前三代霄龙处理器产品家族都采用了小芯片架构,能够在产品的配置方面给大家提供灵活性,让客户在选用方面更容易。

Noah Beck表示,从布局变化上,此前也有CCD这样的设计,但在Zen3上,AMD将CCD做了一个8核的完整整合。这样所有的8核心都能直接访问在本地的L3的32MB缓存,通过这样的设计可以降低时延,同时对于那些需要用内存子系统比较密集的应用可以有效地提高性能。

在内存通道方面,在Zen2架构中AMD提供了两种通道选择,一个是八通道,能够让内存位宽达到最大,还有四通道,主要是针对成本优化,一些对于内存需要不是那么高的客户可以选用。在Zen3上,AMD增加了六通道选择,六通道的选择可以支持在4和8之间做出一个更平衡的安排,可以让客户有更多的灵活性,同时优化内存方面的成本。这方面的好处是如果用推荐的通道可以避免内存通道中出现过热的点,同时能更好的平衡工作负载的需要,降低内存的成本和所需的核数。

在安全方面,Noah Beck介绍,Zen3延续了原来AMD的安全处理器核心的设计,同时能够把处理器安全的集成到IO Die上,另外也为密钥的生成和管理,提供了加密的功能,在Zen3上启用了硬件验证的启动,所以能够实现以硬件信任更为基础的平台的安全,现在我们整个os的核心也是在一个非常安全的水平上。

Noah Beck指出,Zen3传承了上一代在安全方面一些功能,如虚拟化方面的功能,同时新增了影栈技术,能够增加对控制流攻击的防护,SNP能够针对访客权限登录的一些虚机程序,防止恶意攻击。

在密钥管理方面,在Zen1系统中提供了SME和SEV,在Zen2中增加了访客加密态的保护,同时将同时可用的密钥的数量增加到209个。Zen3在此基础上增加了SNP,SNP可以增强系统完整性的保护,加强SEV和SEV-ES提供的保密性。

产品性能“碾压”对手 壮大生态布局

4ea66d5474f31ce0ddb7a64f9f37a20e.png

Ram Peddibhotla介绍,此次三代霄龙处理器7003家族共有19款产品,均有不同程度的性能表现。如有四款产品针对单核性能做了最大优化,能够提高他的单核频率,可调用缓存,可使用内存、带宽,单核性能是非常强的,非常适用于关系型数据库,技术类运算和商用的场景。

此外,还有五款产品属于核心密度高的产品,主要是能够给行业提供非常高的多线程运算性能和多插槽运算性能,针对的目标市场主要是企业应用,高性能计算和云计算。有十款产品面向性能平衡优化以及整体拥有成本需求的的企业客户。

84f29db10d9750fd8db5d364f0e64ba0.png

根据AMD展示的数据,“罗马”中已有部分产品对英特尔Xeon Gold 6258R在性能上实现超越,而从32核的“米兰”起之后的产品,无论是从单核性能、整体性能还是线程密度方面都有非常强的优势。

Ram Peddibhotla表示,同英特尔的Xeon Silver 4216产品比较,“米兰”16核产品有更强优势。

“总结来说,我们在二代产品罗马系列就已经比竞争对手要强,米兰能够进一步把性能差异拉大,把优势做强。”Ram Peddibhotla说。

在高性能计算方面,二代“罗马”的产品已经比竞争对手的6258R高出76%的速度,而在三代“米兰”上,性能比英特尔6258R最佳的双插槽处理器快106%。

在云计算应用方面,SpecinRate基准测试显示,AMD双插槽二代霄龙系统已经比英特尔的6258R的产品快81%。而到了三代米兰,性能快106%。

在企业应用方面,基于SPEC JBB的基准,二代产品比竞品性能快79%,三代比竞品性能高117%。

Ram Peddibhotla介绍,三代霄龙处理器同竞品的最佳处理器相比,性能方面有较强优势,如果是三代霄龙顶配产品,在核数增加之后,可以看到性能优势将更加明显。

基于SPECrate基准的整数性能测试显示,采用三代霄龙的7763服务器数量只有采用英特尔6258R服务器数量的一半。整体来看四年的TCO(总体拥有成本)可以实现35%的削减。

Ram Peddibhotla认为,从上述比较来看,AMD的服务器芯片将给客户带来巨大成本方面的节约,不管是前期购置成本,还是后期维护处理器生命周期的成本,不管是投资支出还是运维支出来说,整体拥有成本一定是AMD的产品优势。

d8a4bfde9f06eade97ba138ff61933e7.png

Ram Peddibhotla还表示,除了性能和整体成本优势方面之外,AMD也在进一步壮大生态布局,围绕三代霄龙产品打造更多解决方案,让客户能够更快、更明显地感受到AMD提供的价值,具体来说AMD的合作生态伙伴包括在超融合的情境下的应用,关系型数据库,数据分析。对于企业用户来说,这些是非常有相关性的应用市场,能够让客户能更快的去获得AMD提供的价值。


http://www.ppmy.cn/news/328322.html

相关文章

Python课期末考试复习

简答 定义函数的规则 1、函数代码块以def关键词开头,后接函数标识符名称和圆括号() 2、任何传入参数和自变量必须放在圆括号中间。圆括号之间可以用于定义参数。 3、函数的第一行语句可以选择性的使用文档字符串用于存放函数说明。 4、函数内容以冒号起始&#xf…

AMD皓龙系列服务器CPU,霄龙PK皓龙!AMD CPU 10年历史对比:一步登天

凭借全新的Zen架构,AMD处理器今年启动了绝地反击,无论主流的Ryzen还是发烧的Ryzen ThreadRipper都让人惊喜万分,而在服务器、数据中心领域,AMD同样带来了新的EPYC(霄龙),重返竞争,直面Intel Xeon。 AMD曾经…

【软件环境安装部署】华为云服务器下 Docker 安装 MongoDB 以及 SpringBoot 整合 MongoDB 开发使用

文章目录 安装测试 MongoDB拉取镜像创建和启动容器登录mongo容器,并进入到【admin】数据库创建一个用户,mongo 默认没有用户连接mongo数据库测试数据库,插入一条语句测试数据库,查询刚才插入的语句查看所有数据库开放指定端口开放…

【外企面试系列】必备口语短语与例句 - BC系列

back and forth 来回地,反复地 The children were running back and forth between the playground and the swings. (孩子们在游乐场和秋千之间来回奔跑。)We went back and forth on the decision before finally making up our minds. (我们在这个决定上反复权衡&#xff0…

一文详解!接口测试 API 自动化测试框架

目录 前言 框架定位 框架架构图 框架介绍 技术栈 Case 展示 执行展示 框架优势: 前言 接口测试 API 自动化测试框架可以提高测试效率和自动化程度,通常包括 HTTP 客户端、测试数据管理、测试报告生成、测试用例管理和调度等功能。下面是一个常用…

【大学计算机技术】第一章 测试3

文章目录 选择题 选择题 计算机主存含有大量的存储单元,每个存储单元都可以存放8个Byte。 A. 正确 B. 错误 正确答案: B 计算机有很多I/O接口,用来连接不同类型的I/O设备,但同一种I/O接口只能连接同一种设备。 A. 正确 B. 错误 正…

React Hook入门小案例 在函数式组件中使用state响应式数据

Hook是react 16.8 新增的特性 是希望在不编写 class的情况下 去操作state和其他react特性 Hook的话 就不建议大家使用class的形式了 当然也可以用 这个他只是不推荐 我们还是先创建一个普通的react项目 我们之前写一个react组件可以这样写 import React from "react&qu…

[ICNN 1993] Optimal brain surgeon and general network pruning

Contents IntroductionMethodOptimal brain surgeon (OBS)Computing the inverse HessianThe ( t − o ) → 0 (\mathbf t-\mathbf o)\rightarrow 0 (t−o)→0 Approximation References Introduction 作者提出 Optimal brain damage (OBD) 的改进 Optimal brain surgeon (OB…