细看AI芯片的“小趋势”

news/2025/1/12 19:45:34/

https://www.toutiao.com/a6686360647858389517/

 

 2019-05-02 17:34:13

来源:techweb

芯片战争未曾停歇。飞速发展的自动驾驶为芯片厂商带来了新的机会,IC设计商尝试推出更适用于AI场景的芯片,晶圆与封测厂商图加速换代生产线,以便赶上下一波AI时代的“潮流”。为了更直观的理解AI芯片,我们需要“拆解”两部iPhone。

揭开iPhone 4后盖,卸下主板PCB,可以看到一块拇指大小黑色塑料片。这是苹果第一代自家产的SoC(片上系统),名为A4处理器,它被焊接在iPhone 4主板背部,曾与乔帮主一同站在2010发布会舞台上。如今苹果自产SoC升级到了A12X,除了运算能力的增长,其内核架构也随着工业界芯片制造工艺进化而日趋精湛。

8年前的A4处理器撑起了iPhone的市场地位,这块搭载ARM核心、内部脉冲震荡可以飙升至1GHZ的芯片,仅一半的计算能力就可把上个世纪登月的阿波罗飞船甩在几条街后,而大部分用户只需用它打电话、收发邮件、偶尔玩一玩《愤怒的小鸟》。A系芯片演进到今天,苹果推出搭载最新处理器A12x的iPad Pro,库克试图说服人们一款不足6毫米厚度的电子设备就可胜任生活工作的全部需求,从而不在需要携带厚重的笔记本,确实有他的道理。

A12X代表着消费电子处理器已到达前所未有的高度。这款A12X内置模拟人脑神经元的集成电路,可以在人眼不可察觉的瞬间完成神经引擎、图像处理、数据处理的工作(FaceID),这在几年前还是科幻电影的元素。

细看AI芯片的“小趋势”

 

 

我们没有办法展示A12X的照片,但可以参照A11,视觉化苹果移动端SoC集成度变化。

今天再来对比两款芯片:两张单薄晶体板下方隐藏着一道巨大的技术鸿沟,从硅晶打磨、光刻、再到封装技术,背后是多年来理论学者与芯片工程师的尝试,以及全球芯片巨头间的角逐结果。如果不是制造工艺的进步、整个芯片的社会生产力不断提升,谁也不会想到会有类似科幻元素的产品触达我们的生活,影响到我们的感官体验。

国内华为也有自己的SoC系统:麒麟980。为证明最新麒麟980的实力,华为号召了几位大学生,设计出一套可以预装在荣耀Magic2上便可操纵车辆的驾驶程序,佐证了麒麟980计算能力。

这是一次创新式的尝试,但手机能够处理的道路信息还是非常有限,为了提供安全可靠的自动驾驶体验,我们需要更快、更灵活、更低功耗的的AI芯片。

在未来,无人驾驶汽车将集成诸多算法。想象一下,用户可以在手机App上“召唤”一辆附近空闲的无人车。无人车启动“大脑”,开始获得实时路况信息,这几乎占用了目前无人车“大脑”的运算带宽。每一秒钟,摄像头采集车附近360度视野图像,实时地运行卷积神经网络来区分行人与车辆。

与此同时,毫米波雷达收集到距离信息为车载决策层准确的判断依据:是继续直线行驶,还是转向避让?决策层需要在不到50毫秒的时间内反应,控制车辆动力及转向控制器,下位机继而将指令转化成PWM脉冲信号,指挥毫无思考能力的方向电机和动力电机。

几分钟后,无人车战胜了复杂的路况、穿过嘈杂街道,停靠在到精准的目标位置,等待乘客上车。随后,通过车载语音交互模块,无人车可获知用户的目的地。根据最新的高精度地图信息,再结合车身上的全方位传感器感知周遭情况,最终安全的抵达目的地。这一套流程,重复而单一,会使人类司机感到疲惫。

所以不难看出,AI芯片有三大要求:大吞吐,低延时,低能耗。对于厂商来讲,只要能占据更大的无人驾驶市场,钱不是问题。

为实现这一目标,Nvidia在2016年推出K字头运算GPU加速器,黄仁勋试图讨好马斯克以便挤掉以色列公司Mobileye,但显然后者不吃这一套,选择表面合作暗地却从AMD挖高管,打算自己搞AI芯片。只不过事实证明,最新的Model 3依然使用Nvidia的处理器,自研芯片之路还很长。

目前在业界中,有一种说法是AI芯片将沿「CPU-GPU-FPGA-ASIC」的路线演进。CPU曾在PC、服务器端时代统领江山,却不及GPU的大吞吐特性而沦为辅助,Nvidia曾在Drive Xavier架构上投入30亿美元,2018年CES上展示出了一款能够以500瓦的能耗代价实现每秒320万亿次运算。500瓦的能耗水平非常低,满载的车内空调大约在5千瓦时左右,占用传统燃油车2匹马力。

细看AI芯片的“小趋势”

 

 

然而未来国内能源属性趋势来看,无人驾驶模块将限制车辆的续航里程,500瓦的功耗还是太高。

中国一家名为深鉴科技创业公司在去年被国际FPGA巨头赛灵思(xilinx)收购,深鉴科技的一篇论文曾在FPGA 2017大会上评为最佳,在论文中他们设计的模型可以在XCKU060(一款FPGA芯片)上运行更高精度的语音识别效果,而且拥有更低的功耗。矛盾在于FPGA属于半定制化的工业产品,成本相对较高,XCKU060单片价格在4000美元左右。在相同计算力下,FPGA价格不占优势。谷歌旗下的Waymo目前使用的KU115(一款来自赛灵思的FPGA芯片),单片价格在5400美元左右,虽然换掉了早年使用的英特尔Xeon系列服务器芯片,运算性能不断提升,但整车价格也一路高歌猛进。

待算法、传感器成熟,ASIC才有施展拳脚的机会。我们之前提到的Mobileye,其产品便是基于的ASIC架构加速器,和Nvidia走截然不同的系统级处理器路线,ASIC全称为“专用集成电路”,其内置的异构模块可以针对信号、图像等处理算法进行特殊优化,但在设计流程上用到更长时间。

FPGA这个词想必就更加陌生了。简单来说,ASIC芯片是一个“KFC的汉堡包”,而FPGA更像“赛百味的三明治”,后者有更大的“重新设计”空间,可以根据用户需求添加内容、功能和优化。不过,针对FPGA进行编程,也可以设计出ASIC,但单片成本更高,而且需要大量专业脑力工作,是项“硬核”工艺,而想靠自家设计的FPGA落得应用,更是件困难的事情。

近年,国内涌现一批AI芯片的IC设计商,寒武纪、阿里、华为、百度、地平线、比特大陆等。在设计技术和制造技术之间,国内初创IC设计商处在很尴尬的境地,其设计成果若不能找到合适产品并量产,将意味着所有设计毫无商业意义。

细看AI芯片的“小趋势”

 

 

于是,我们将目光放到晶圆与封装厂商上来。

中芯国际是一家成熟的本土圆晶加工商,2017年市场占有率5.4%,YoY(增长率)达到6.35%,2018年28nm以上制程的芯片月产44万片,这些芯片会被安装到低功耗计算机、通讯设备、汽车等其他消费电子产品上。但是AI芯片领域,至少在云端训练计算方向上,14nm以下制程才算刚刚入门,截至2019年2月21日,中芯国际尚未交付任何14nm或以下制程的产品,但在媒体报道中称:“14纳米技术研发已进入客户导入阶段”。

这么来看,中芯国际确实已经有14纳米技术:FinFET工艺。FinFET是什么概念?简单来说,中芯将刻芯片的工艺水平从2维(CMOS)升级到3维(FinFET),是集成芯片工艺中值得“秀”的资本。 此前中芯的28nm多晶硅(Poly/SiON)工艺是相对台积电比较落后的技术,后来才有了HKMG制程工艺,虽然仍是28nm制程,但产品优化效果好,良品率也有所提升。对于大厂而言,前几年在20nm的工艺突破是一个分水岭,因为越低制程将越接近材料极限,例如:量子隧穿效应。FinFET工艺是目前应对量子隧穿效应最有效的方法,中芯国际的FinFET尚处在“有技术没产品”的阶段,正在2019年希翼实现突破。

细看AI芯片的“小趋势”

 

 

晶圆(图片来自维基百科)

在世界前三的封测企业中,有两家是本土品牌,一家是台湾日月光,另一家是江苏长电。2017年的数据统计显示,台湾日月光的市场占有率最高、营收最大。寒武纪的第一款SoC就是在日月光协作下完成的。

长电科技2018年第一季营收达54.90亿元,相较去年同期50.25亿元增长9.27%;实现净利润9600万元,而去年同期亏损1亿元。归属上市公司净利润为525万元,较去年同期3830万下降86.29%。而我们单独看江苏长电的产能,在较为复杂处理器封装工艺还是研发阶段,暂时没有量产可能。同样的,与长电科技各分秋色的华天科技、通富微电,均无较大功耗的AI芯片封装工艺,而小型SoC也难以胜任。苏州晶方是一家小型化晶圆的半导体厂商,主要靠TSV工艺吃饭,在AI芯片领域暂无涉足,不过相类似厂商可能会在智能设备普及、愈发依赖生物传感的情况下大有可为。

国内封测企业兴起的具有国际因素,例如松下等日韩封测厂在马来西亚因工人债务问题,于2016起陆陆续续撤离当地,将新厂设立在中国大陆。

五.在IC设计领域,2016年创立的寒武纪需要依托上游知识产权保护,下游需要借助圆晶制造厂、封测(日月光等)厂商实现量产,其产品出口有二:SoC厂商和系统厂商。

2017年,寒武纪参与完成了一款华为的AI芯片设计,也就是读者常听到的麒麟970。这颗芯片本身不是寒武纪生产,而只负责设计了其中部分模块。麒麟970本身属于SoC概念:将符合需求的功能ARM加上自己的IC晶片封装到一起。其优点在于集成度高、体积小巧,适合移动端设备。而要设计一颗SoC需要相当多的技术配合,例如上游的IP(intellectual property)授权、遵循晶圆制造标准。能从IC一路走到最后的测试阶段的SoC都是了不起的工程项目。

寒武纪和华为合作的麒麟970具有一定战略意义:去年(2018)全球手机市场整体下滑,唯独华为手机出货量上涨趋势(+43.9%),市场份额达到了世界第三的水平,但此前却没有自己的芯片,消耗了大量的IP授权费。与此同时,寒武纪正愁没机会进入移动端市场,干柴与烈火的相遇,进一步推动搭载麒麟970的Mate10出货量达到4000万台,如果保守估计,麒麟970为寒武纪带来不小于2亿美元收入。寒武纪本身是中科院计算所孵化的国家级AI及芯片团队。在过去3年里已经进行3轮融资,B轮融资后,估值跃升到25亿美元,在国内AI芯片处于领先地位。

国内AI芯片产业逐渐入轨,越来越多的互联网系和科研孵化系企业希望加入未来的芯片格局。一片拇指大小的硅晶体,此时仿佛一把通往新世界的入场券,吸引着IC厂商与下游制造商竭力一搏。


http://www.ppmy.cn/news/169515.html

相关文章

Wunder Fund Round 2016 (Div. 1 + Div. 2 combined) G

题面: 有一个初始为空的序列,在序列末尾随机添加1或2,有p的概率添加1,1 - p的概率添加2,如果序列末尾有连着的两个相同的数k,那么他们会合并成k 1,这个合并只要可行,可以一直持续下…

GRPC CPP 开发单向Stream服务器

上周提到我们要给llama.cpp增加一个grpc入口,这是最终成果仓库,等待进一步测试后提交合并。 今天讲讲GRPC CPP开发的麻烦事情。 参考文档 Quick start | C | gRPC,参考文档就是官方的这篇文档了,安装grpc可以参考我上一篇文章&…

JavaEE初阶学习:网络原理

1.应用层 应用层和代码直接相关的一层 决定了数据要传输什么,拿到数据之后如何使用 约定应用层数据报,数据格式,就是在自定义协议~~ 如何约定? 1.确定要传输那些信息,(根据需求走的) 外卖程序,有一个核心的功能,加载商家列表 请求 用户ID 用户的位置(经纬度) 响应 …

召回评价指标NDCG、MAP

【MAP】 1、AP A P ∑ i 1 n r e l ( i ) p i AP \sum_{i1}^{n}\frac{rel(i)}{p_i} APi1∑n​pi​rel(i)​ 其中 n 表示候选序列长度, p i p_i pi​表示第 i 个 item 的位置 本质是对每个位置item的分数加一个基于位置的筛选.简单粗暴,直接除以位置…

Hive3.1.3

文章目录 1、Hive入门1.1 Hive简介1.2 Hive本质1.3 Hive架构原理 2、Hive安装2.1 Hive安装地址2.2 Hive安装部署2.2.1 安装Hive(最小化)2.2.2 启动并使用Hive 2.3 MySQL安装2.3.1 安装MySQL2.3.2 配置MySQL 2.4 配置Hive元数据存储到MySQL2.4.1 配置元数据到MySQL2.4.2 验证元数…

Unity2D骨骼动画制作之单张图片编辑

1、打开骨骼制作面板 在Sprite Editor左侧选项,选择Skinning Editor 2、 (1)骨骼制作 Preview Pose 预览模式,可以预览动作并不会真正的改变设置 Reset Pose 将角色骨骼和关节恢复到原始位置 Edit Bone 编辑骨骼,…

造船厂事故/风险(背景+官方统计数据)

造船厂事故/风险(背景官方统计数据) 船厂工地常见事故船厂事故:发人深省的伤害统计船厂工地常见的风险有哪些? 造船业是周期性的、资本密集型的行业。更严格的环境法规于2020年初生效,引发了对抑制船舶废气硫排放技术的需求。与此同时&#…

Yolov5训练自己的数据集

先看下模型pt说明 YOLOv5s:这是 YOLOv5 系列中最小的模型。“s” 代表 “small”(小)。该模型在计算资源有限的设备上表现最佳,如移动设备或边缘设备。YOLOv5s 的检测速度最快,但准确度相对较低。 YOLOv5m&#xff1…