英伟达(NVIDIA)希望通过使数据中心以1/10的成本运行10倍的速度,从而彻底改变企业计算。英伟达CEO黄仁勋(Jensen Huang)正在制定一项战略,其愿景是利用英伟达在人工智能架构中的强大地位,以重新构建当今的内部数据中心、公共云和边缘计算设备。这一端到端战略的关键包括清晰的愿景、大规模的芯片设计技能、整合内存、处理器、I/O和网络的基于Arm的新架构,以及一个引人注目的软件消费模式。
即使英伟达未能成功收购Arm,Wikibon相信它仍然能够通过积极参与Arm的生态系统来执行这一战略。如果收购Arm的尝试成功,我们则相信这一战略将把英伟达从世界上最有价值的芯片公司,转变为世界上最有价值的集成计算架构供应商。
在本期突破分析中,Wikibon将解释为什么会认为英伟达在为世界计算中心提供动力方面处于有利地位,以及它计划如何颠覆x86架构几十年来对数据中心市场的控制。
转型中的数据中心市场
巨型云只有少数几块,但数据中心有很多。尽管全球数据中心的数量正在整合,但根据IDC的数据,仍然有超过700万个。云就像宇宙一样,正在加速扩张,数以百万计的数据中心正在通过互联网——世界上新的、(不那么)私人的网络——相互连接。这种新的云,正在变得高度分布式,并由软件运行。
开放的API、外部应用程序、庞大的数字供应链和不断扩大的云计算,增加了世界各地数据中心中最敏感信息的威胁面和脆弱性。零信任(Z trust)似乎是在一夜之间从流行语变成了一个必须的任务。
人工智能被注入到每一个应用程序中,是疫情后势头最强的技术领域。Wikibon相信,为人工智能提供动力的架构将是英伟达强势进入数据中心市场的关键。
也就是说,这个新世界将不会仅仅由通用的x86处理器驱动。相反,它将得到基于 Arm 的供应商生态系统的支持,正如Wikibon一直在报告的那样,这些供应商正在对处理器性能产生前所未有的影响。
在Wikibon看来,英伟达在全球数据中心、公共云以及近端和远端计算架构的下一个时代中处于领先地位。
黄仁勋的清晰视野
下图强调了英伟达CEO希望扩大市场的一些基本假设。首先是数据中心存在大量浪费。他声称,如今部署在数据中心的 CPU 内核中只有一半真正支持应用程序。另一半是围绕运行软件定义数据中心的应用程序处理基础设施,而且它们的利用率严重不足。
分析师Zeus Kerravala在一篇博客文章中将英伟达的 Bluefield-3 DPU(数据处理单元)描述为一张完整的迷你服务器卡,内置了软件定义网络、存储和安全加速功能。据英伟达称,这一产品的带宽可以取代300个通用的x86核心。
黄仁勋认为,每个网络芯片最终都将是智能的、可编程的,并且能够进行承接从传统CPU中逐渐卸载出来的计算任务。他认为每一个服务器节点都将具备这种能力,并使每一个数据包和每一个应用程序都能被实时监控,无时无刻不被入侵。随着服务器迁移到边缘,Bluefield 将作为核心组件包含在内。他说了一个数字,每年有2500万台服务器出货,这是他的目标。
黄仁勋的最后一句话是至关重要的:“人工智能是我们这个时代最强大的力量。” 无论是否同意这句话,它都是有意义的,因为人工智能无处不在,而英伟达在人工智能领域的地位以及该公司正在构建的架构是其数据中心/企业战略的基本支柱。
人工智能在支出动量排行榜上名列前茅
来看看ETR数据,看看AI在CIO优先级列表中的位置。下面是Wikibon经常分享的一组数据视图。横轴是ETR数据中的市场份额或普遍性。请注意垂直轴,即净得分或支出速度。疫情过去后,已经看到人工智能在最近两次调查中占据了第一的位置。Wikibon认为,随着人工智能成为数字化转型和自动化的主力军,这种动态将持续相当长的时间。而人工智能将被注入到这个图表上的每一个点中。
令人惊讶的是,英伟达的架构是为人工智能工作负载量身定制的,上图中的几乎每个部分都将使用英伟达的技术。
工作负载趋向于英伟达架构
量化一下这意味着什么,以及英伟达在Arm的帮助下将如何进入企业市场。
在上图中,展示了来自Wikibon Research的预测,这些预测描绘了按工作负载类型划分的全球服务器基础设施支出百分比。以下是关键点:
- 去年的市场规模约为780亿美元,预计到本世纪末将接近1150亿美元,这也许是一个保守的数字。
- 将市场分为三大类工作负载——蓝色的是人工智能和其他在此定义的数据密集型应用程序。橙色是通用应用程序,如ERP、供应链、HCM、协作——基本上可视作Oracle、SAP、微软的应用和数百个通用应用。灰色是黄仁勋所说的浪费周期区域——将网络和存储的工作以及全世界数据中心的所有“软件定义”的管理工作卸载掉。
- Wikibon的观点是,随着投资转向AI+工作负载,通用工作负载正在受到挤压,而卸载工作转移到嵌入到存储和网络解决方案中的替代处理器上。后一种趋势让我们想起了HDD硬盘。多年来,企业被迫购买更多的硬盘,而不能充分利用存储功能,只是为了获得更好的性能。这是一种浪费和低效,现在终于出现了新技术来解决。
Wikibon认为,拥有Arm的英伟达已经做好了准备,可以向卸载市场发起进攻,从逻辑上讲,也可以向基于AI的工作发起进攻。但即使是橙色通用部分的一部分,也可以用于基于 Arm 的系统。例如,正如所报道的,AWS和Oracle 等公司使用基于Arm的设计来服务通用工作负载。他们为什么这样做?因为成本。因为一般来说,x86和英特尔都不能提供所需的价格/性能和效率,以满足降低数据中心成本的要求。因此,这些公司正在与ISV合作,以确保通用应用程序在基于Arm的处理器上运行,而客户不需要做任何改变。
思考——如果英特尔不回应会发生什么?
如果英特尔不对这一明显的动态作出反应,那么到本十年末英特尔将获得50%的通用工作负载市场。而就英伟达而言,它将主导蓝色AI+和灰色卸载工作,主导即比如占领90%的可用市场。
现在,英特尔当然不会袖手旁观让这种情况发生。Pat Gelsinger 非常清楚这一点,并正在推动英特尔采用新战略,这个战略可以更好地管理内存资源,并且适应卸载处理,还有更大的可编程性。但是英伟达和Arm在游戏中遥遥领先。此外,英伟达越来越多地与NetApp、DDN、VAST Data、WekaIO、Pure Storage 等存储领导者合作,相信这些企业将与英伟达的部分产品策略保持一致。
英伟达不再是一家游戏公司
英伟达是作为一家游戏公司而成名的。即使在今天,其近一半的收入也来自这一领域。询问任何一个游戏玩家他们对英伟达的看法,他们会滔滔不绝地谈论英伟达令人难以置信的性能、惊人的驱动程序、更平滑的色彩、更干净的图像呈现、优越的资源分配和其它功能,如屏幕录制功能,他们唯一不喜欢的是价格。
但是,英伟达已经通过追求企业市场来扩大其TAM。快速浏览一下英伟达在其企业投资组合中的某些部分所做的事情。
上图是英伟达投资者介绍的一张幻灯片,强调了该公司的三芯片战略。重要的是,英伟达正在积极地转向基于Arm的架构。幻灯片GPU部分显示的是英伟达的Ampere架构,不要与Ampere Computing公司混淆。出于显而易见的原因,英伟达采取以GPU为中心的方法,因为这是它的强项,但随着时间的推移,它可能会重新思考这个问题,并出于成本和灵活性的原因,更多地转向NPU等替代品。
在CPU部分,英伟达宣布了其Grace CPU,向著名计算机科学家Grace Hopper致敬。Grace 是一种新架构,它不依赖于x86,并且可以更有效地使用内存资源。
而DPU部分则显示了Nvidia的Bluefield DPU的路线图,正如Zeus Kerravala所描述的,它基本上是一个完整的卡上服务器。
上图中的DPU非常重要,但经常被忽视。转向Arm将使从芯片设计到生产的时间缩短50%,也就是把几年的时间缩短到18个月或更短。这将使英伟达拥有显著的上市时间优势。
在人工智能工作负载上加倍投入,并建立优势
上面的图形显示了英伟达的Jetson架构的选定细节,该架构旨在加速先前在(蓝色)条形图中显示的那些AI+工作负载。在Wikibon看来,这一点很重要,因为同样的软件支持从小型到超大型,包括边缘系统。Wikibon认为这种类型的架构很适合边缘的人工智能推理,以及使用人工智能的核心数据中心应用。因此,这是一个很好的例子,在广泛的性能和成本范围里利用一个架构,这将为英伟达带来好处。
具体到边缘工作负载,Wikibon认为今天的传统服务器供应商错过了更大的机会——主要是因为边缘工作负载目前很小,无法证明投资的合理性。这些厂商理所当然地贴近客户,并与工业巨头建立联系,以确定将现有的x86架构投资重新定向到所谓的“边缘”。 Wikibon相信他们在很大程度上把边缘机会看作是一个小型数据中心或数据的聚集点,他们希望提供大规模的水平基础设施,以利用其经营优势。他们谨慎地避免走到更边缘的“边缘”,避免在专业应用领域陷入过深。
英伟达和Arm看到了更大的前景。当供应商抛出TAM的数据,认为其优势价值将达到数万亿美元时,Wikibon认为真正的机会是深入制造业边缘进行实时人工智能推理。而这将需要大量的处理,而且它不会像传统的X86服务器一样。这些服务器将具有空间效率、低功耗、紧密封装/嵌入式、高性能、可编程和超级便宜等特点,而这正是英伟达和Arm的方向。
英伟达转向 Arm 解决了其最大的技术瓶颈
为什么转向基于Arm的架构对英伟达如此重要?
今天英伟达面临的最大成本挑战之一是保持GPU的利用率。GPU的典型利用率远低于20%。上图试图解释原因。
试想,图表的左侧显示了传统计算的机架。它强调了英伟达面临的瓶颈问题。处理器和DRAM被捆绑在一起的“独立块”。想象一下,一个机架上有成千上万的核心。每次系统需要另一个处理器中的数据时,它必须发送一个请求并去检索它,这个开销是很大的。像RoCE这样的技术旨在提供帮助,但它并没有解决基本的架构瓶颈。
因为每个GPU(如底部左侧所示)也有自己的DRAM,它必须与处理器通信以获得所需的数据——也就是说,它们不能有效地相互通信。
未来架构
上图右侧显示了英伟达的发展方向。从中间的SoC,即片上系统开始。CPU与NPU、IPU(图像处理器)......XPU(即其他替代性处理器)打包。这些都与SRAM相连,它是一个高速层--像L1缓存。SoC操作系统就在里面,这就是英伟达拥有杀手级新定价模式的地方。
该公司正在为运行在这套系统上的OS进行授权,并正在影响一种新的、真正引人注目的软件订阅模式,这种模式与企业用户越来越多的软件购买方式保持一致。理论上,英伟达可以免费赠送芯片,只对软件收费。
上图右边的外层是DPU和共享的DRAM和其它资源(例如 Ampere Computing——这次指这家公司——以及CPU、SSD和其它资源),这些是将共同管理 SoC 的处理器。
这种设计是基于Nvidia的三芯片方法,使用Bluefield DPU,利用Mellanox(即网络)。该网络实现了CPU之间的共享DRAM,这些CPU最终都将是基于Arm的。Grace 位于 SoC 内部,也位于外部层。当然,GPU以缩小版本(例如渲染GPU)的形式存在于SoC中,在外层也展示了一些用于AI工作负载的GPU——至少在近期是这样。最终,它们可能只存在于SoC中,但需要时间证明。
正如所看到的,英伟达正在采取一些严肃的举措,并通过与Arm合作和向Arm生态系统倾斜。这就是它计划如何大幅提高其解决方案的效率,减少对x86的依赖,并支持那些新兴的基于人工智能工作负载的方式。
谁在竞争计算领导地位?
下面是同一张XY图,显示了市场份额或普及性的跟踪与净得分或消费势头。Wikibon已经简化了ETR数据,以捕捉一些正在争夺计算数据中心领导地位的计算、存储和网络这些细分领域的厂商。
AWS处于一个非常强大的地位,相信其一半以上的收入来自于计算,所以是超过250亿美元运营成本的巨大规模。该公司设计了自己的芯片,并与独立软件开发商合作,在基于 Arm 的Graviton芯片上运行通用工作负载。微软和谷歌是计算力的消费大户,它们也销售了很多。特别是微软很可能会继续与OEM伙伴合作,以抓住本地数据中心的机会,但实际上英特尔是惠普、戴尔、思科和ODM(这里没有显示)等公司的计算提供商。
HPE在历史上曾开发过架构。HPE在HPC领域有着强大优势,而HPC执行的就是AI与数据密集型任务。HPE在新的计算架构和实验室实验中的共享内存方面所做的工作可能仍在进行,并可能在某一天派上用场。另外,HPE一直以设计自己的定制芯片而闻名,所以Wikibon不把他们算作这场竞赛中的创新者。
思科很有意思,因为它不仅有定制的芯片设计,而且它在十年前通过UCS进入计算业务,创造了一种整合数据中心资源的新思路,这一点很值得注意。思科对架构进行了投资,预计下一代UCS将标志着该公司数据中心业务的另一个显著的里程碑。此外,该公司还在安全方面进行了大量收购,以巩固其在数据中心的地位(例如AppD、ThousandEyes、Banzai、Meraki 等)。
戴尔刚刚有一份惊人的季度收益报告。该公司的整体收入增长了约12%,与去年相比,这并非易事。尽管传统EMC存储业务持续疲软,但戴尔仍在坚持。笔记本电脑需求继续飙升,戴尔的服务器业务也在再次增长。但Wikibon不认为戴尔是计算领域的架构创新者,相反该公司将满足于与供应商合作,无论是英特尔、英伟达、基于Arm的合作伙伴还是上述所有的供应商。Wikibon预测,戴尔将依靠其庞大的产品组合、优秀的供应链和执行精神,通过整合他人开发的核心架构创新来挤出利润。然而,Wikibon确实预计,特别是在存储方面,该公司将利用低成本的替代品,以更好地服务于前面讨论的那些卸载的工作负载。
IBM因其历史原因而引人注目。IBM凭借其大型机创造了第一个巨大的计算垄断地位,然后不知不觉地将其与微软一起交给了英特尔。Wikibon并不认为 IBM 有志于重新夺回曾经由大型机所拥有的计算平台的地位。在Wikibon看来,联合红帽并向混合云的进军是IBM的必由之路。
房间里的大象——英特尔、英伟达和中国公司
现在来看看大玩家们。英特尔、英伟达和中国公司。中国之所以重要,是因为阿里巴巴、华为等公司的存在,以及中国政府希望在半导体技术方面自给自足。
但在这里的前提是,在上述图片中,趋势是有利于英伟达而不是英特尔的。英伟达正在采取措施进一步为数据中心的新工作负载定位,并抢夺英特尔的据点。英特尔将尝试改造自己,但它本应在五到七年前发起今天Pat Gelsinger正在采取的举措。英特尔无法改变这一点,并且远远落后,该公司将需要多年时间才能赶上。
关于英伟达的一些数字
让我们暂时停留在英伟达与英特尔的比较上,看看这两家公司的财务状况。
以上是我们用一些简单明了KPI制作的一个简单图表。有些数字是近似的或四舍五入的,所以不要过分强调它,但是可以看到英特尔是一家价值约800亿美元的公司——是英伟达的4倍。然而英伟达的市值远远超过英特尔。为什么?因为成长线。在Wikibon看来,由于英伟达更强大的战略定位,这是合理的。
英特尔曾经是毛利率之王,但英伟达的利润率要高得多。在自由现金流方面,英特尔仍然占据主导地位。就资产负债表而言,英特尔,尤其是其新的代工战略,是一项比英伟达更具资本密集属性的业务。随着英特尔开始为其代工厂建立更多的生产能力,这将对该公司的现金状况产生压力。
在第三栏中,把英伟达+Arm大约在2022年底的预估数据放在一起,预估可以达到约为英特尔收入一半的年营收。如果能获得Arm的任何股份,这可能会推动英伟达的市值超过 0.5 万亿美元。风险在于,由于Arm交易是基于现金加上大量股票,因此可能会在一段时间内对市值造成压力。
Arm的毛利率为90%,因为它拥有的是几乎纯粹的许可模式,这对毛利率有所帮助——但Arm的收入相对较小,约为20亿美元,因此它并没有太大的推动作用。资产负债表数据是一个亮点。Arm表示公司不打算举债进行交易,但目前尚不明了Arm如何在不举债的情况下进行交易。
关键是鉴于英伟达的势头和增长,它在人工智能领域的战略地位,在所有正确地方的深度工程,以及与Arm一起释放巨大价值的潜力......从纸面上看,如果它能执行,看起来是一匹难以匹敌的“骏马”。
总结英伟达对企业市场的攻势
英伟达主导的人工智能业务所依托的架构正在演变,工作负载组合和未来的需求正朝着这些新架构发展,英伟达处于进入整个企业市场的有利位置。
市场已经从英特尔/x86转移到Arm生态系统,英伟达也在向前迈进,而英特尔必须在重塑自身的同时保留现有业务。这需要时间,但英特尔可能拥有美国政府的强大支持。
英伟达能否成功收购Arm?英国和欧盟的某些派系反对该协议,因为他们不希望美国对Arm技术向谁出售发号施令。此外,英伟达的竞争对手,如博通(Broadcom)、高通(Qualcomm)等都担心,如果英伟达收购了Arm,他们将处于竞争劣势。当然,中国也不希望英伟达控制Arm,原因很明显。
可以看到这样一种情况:美国政府向英国/欧盟监管机构施压,让该交易通过,以换取帮助资助欧洲工厂的承诺。人工智能和半导体——没有比这更具战略意义的了,美国军方有充分的理由支持这笔交易。作为促进交易的交换条件,政府可以向英伟达施压,让其为英特尔的代工业务提供资金。与此同时,政府可以强加条件,确保英伟达的竞争对手能够获得基于 Arm的技术。
Wikibon没有任何关于幕后情况的内部信息,但在其收益电话会议上,英伟达表示他们正在与监管机构合作,并有望在2022年初完成交易。
在这场国际象棋游戏中,有许多利害关系,有多个参与者。而国家的战略考虑,与那些拆分或限制大型科技公司的呼吁发生冲突。与此同时,中国的行动清晰而确定。对于英伟达来说,夺取数据中心市场大奖的大门已经打开。即使没有Arm,在服务企业技术的未来需求方面,英伟达也比其它任何公司处于更好的位置。(文/云科技时代编译)