AI芯片:华为Ascend(昇腾)910结构分析

news/2024/11/23 19:51:16/

前几天,华为发布了最新的AI芯片,号称目前全球最强,算力吊打谷歌TPU3和英伟达Tesla V100。
这么震撼人心,必须挺一波!!
华为牛逼!!
(这句5毛)

下面来具体分析一下。

一、昇腾910的整体结构

我去华为官网查了一下,然后就得到这么一点信息:
(之后截图补上,这是地址:https://e.huawei.com/cn/products/cloud-computing-dc/atlas/ascend-910)
看得我一脸蒙蔽。
信息太少了!

从其他新闻媒体公开的信息,总结一下:
昇腾910,采用达芬奇架构,7nm工艺,功耗350W,FP16算力为256T,INT8算力为512T。
有媒体说是32核。(没有官方石锤,不确定)
然后,没了。
这怎么猜?

呵呵,这有何难!!
来,咱们发散思维,细细研究一下,推测一下具体架构。

首先,FP16的算力是256T,这个是石锤的。这个数据后面有用。
然后,不是采用的达芬奇架构么?记得这不是华为的第一款达芬奇架构芯片。第一款达芬奇架构芯片是之前的昇腾310。还记得么?(这是我之前分析昇腾310的博客:https://blog.csdn.net/evolone/article/details/90317637)
那不妨回忆一下昇腾310的参数。
下面是我之前的分析:

从海报中能够看出,AI core 采用的是二维平面阵列结构,应该是类似谷歌TPU的脉动阵列结构。
从海报中可知,单个AI Core每周期可完成4096次MAC运算,那么4096=64X64,所以猜测MAC阵列的尺寸是64X64的。
支持8T半精度浮点计算和16T整型int8计算。
从公布的算力来看:
8T= 4K(4096 MAC) X 2(双核) X 1G(频率1GHz)
整体架构类似谷歌的TPU2,都是双核的。
当然,如果华为认为一次MAC运算包含的一个乘法,一个加法,如果各算一次,就是两次。
那么,算力的计算就是下面这种了:
8T= 2(一次MAC=一次乘法+一个加法) X 4K(4096 MAC) X 1(单核) X 1G(频率1GHz)

这么一结合,就能推算出昇腾910的架构了。
可能的算力计算方法如下:
以256T的FP16为例。
256T = 32(大核,每个8T算力)X 2(一次MAC=一次乘法+一个加法)X 4K(4096 MAC) X 1(单核,小核) X 1G(频率1GHz)
或者
256T = 32(大核,每个8T算力)X 4K(4096 MAC) X 2(双核,小核) X 1G(频率1GHz)

这么一看,推算方法还是有几分像模像样的,哈哈。
昇腾910与310的关系,有点像寒武纪DianNao与DaDianNao的关系。
单核与多核的区别。

二、达芬奇架构的AI Core内部结构分析

从机器之心的一篇文章中看到的关于达芬奇架构的结构图。
不知真假,姑且用来分析学习一下。
在这里插入图片描述
(这是地址:https://www.jiqizhixin.com/articles/2019-08-23-7)
由上图可知,整个达芬奇Core和谷歌的TPU比较像。
整体来看,两个bufferL0A和L0B作为输入,应该是其中一个暂存的是activition,另一个暂存的是权重。
红色的Cube模块,应该是类似谷歌TPU脉动阵列的结构,猜测是一个乘累加阵列,计算结果输出存放在另外一个buffer L0C。
Vector Unit,类似一个DSP,从buffer L0C中取得乘累加计算结果,然后进行pooling/padding,BN,激活,加法等处理。如果还没得到最终结果,就暂时返回存储在buffer L0C,如果得到了最终结果,就传递给Unified Buffer。
Scalar Unit应该是用来控制调度的,类似一个MCU,可以是ARM的,也可以是RISC-V的。

华为的达芬奇 AI core与谷歌TPU非常像。
但是,达芬奇做出了更多的优化设计。
最大的优化设计是引入了Vector Unit,这个可以看作功能强大的DSP。
以Vector Unit替换原来的BN/ADD/激活/POOLING/PADDING等模块,在不显著增加运算逻辑的前提下,尽可能增加芯片的灵活性。
原因:
(纯粹是我的个人分析,做不得准,我不负责任的啊。)
因为现在的深度学习算法还不成熟稳定,一直都有新颖的计算方法层出不穷,这就导致计算的需求一直在变。
但是,芯片逻辑是实际的物理电路,一旦设计好,那么就固定了,谁都变不了。而且芯片的研发设计需要少则几月多则几年的时间,所以,按照当下最新的算法需求设计的芯片,可能真正上市时,算法又变了。
那么芯片可能就废了。
或者,效率不高。

细细分析一下,常用的卷积,需要大量的乘累加,这个需求一直不变。所以,这一部分可以保留。
但是之后的BN/激活等模块,就灵活多变了,比如激活模块,可能出现了新的激活函数,那么原来的设计就不满足需求了。
所以,除开卷积等比较稳定的计算类型外,其他的计算就需要灵活处理了。
那么,这个时候,需要灵活处理的模块,使用固定逻辑就不满足客观现实了,改用通用性更高且可灵活编程配置的DSP就是自然而然的选择。
当然,因为根据实际算法需求而进行灵活的编程控制,DSP自身并不具备这样的功能,那么就需要一个类似MCU的模块了。也就自然引入了Scalar模块。

所以,目前来看,华为的达芬奇架构的Core,已经做了很多优秀的优化设计,属于世界领先水平了。

看到这里,内心澎湃,忍不住多说一句:
华为真牛逼!!


http://www.ppmy.cn/news/147467.html

相关文章

基于华为云IoT设计的智能门锁

1. 前言 近几年物联网发展非常迅猛、周边各种设备都已经接入互联网,远程集成控制。例如: 智慧交通、森林防火、智慧小区、智慧停车场、智慧牧业、智慧农业等等。为了降低用户的成本、门槛,各大厂商平台也都开发了自己的物联网IOT云平台,方便用户接入快速搭建自己的应用场景…

华为——智能驾驶

笔试 7月份第一题:80%第二题:80%第三题:0 一面(40分钟) 2021.09.26(10:30等到2:30)自我介绍回顾笔试代码(类似:课程表Ⅱ),讲思路(没…

写在AWE 2023前夕:华为全屋智能将重构家居智能化体验

在接近尾声的2023上海车展上,“智能座舱”和“智能驾驶”可以说是出镜率最高的两个名词,“第三空间”的智能化已经是不可逆的趋势。 当第三空间快速向智能化跃迁,人们居住的“第一空间”和工作的“第二空间”,能否顺应智能化浪潮…

企业出海,全球合并有高招!

今天继续给大家分享企业全球化发展的过程中,财务数智化过程中全球合并的作用。 全球合并其实也是依托于事项级的会计大数据,同时还有自己独立的三大能力来实现整体的全球合并。这三大能力包括: 1、多维数据,在全球合并系统里面一…

打造智慧化生活体验,华为发布全屋智能及智慧屏新品

原标题《华为没有造车,但是发布了一款智能车机》 12月21日,华为全屋智能及智慧屏新品发布会于广东东莞召开,正式发布华为智慧屏 S系列、华为智选车载智慧屏以及华为全屋智能系统。 其中,华为智选车载智慧屏是首款搭载分布式技术的…

华为奔赴“空间智能”,全屋智能的逻辑变了吗?

越来越多的企业正在追逐全屋智能的浪潮。 如果说一年前的时候,全屋智能的核心梯队里还只有华为、海尔、小米、小度等科技色彩鲜明的品牌,而今已经出现简爱家居、箭牌家居、尚品宅配等家装类企业,全屋智能逐渐从一个科技词汇演变为一种消费潮…

华为全屋智能空间 3.0 评测

华为全屋智能3.0就展示了华为围绕“高可靠、高感官、高智能、高心意、高掌控”缔造新时代空间智能化下五大优势的信心与决意。 一个智能化的空间首先要建立一个高度可靠的智能化平台,提供给空间智能设备稳定的连接和可靠的管控。华为全屋智能首创高集成可扩展的全屋…

公钥加密如何确保数据的完整性

数据需要安全,而安全需要加密,此外,加密在确保数据安全方面起着至关重要的作用。这是一个将数据转换为不可理解的形式的过程,只能通过加密密钥进行解码或解密。 加密密钥是在加密机制中生成的随机字符序列。它用于在加密过程中将…