硅谷GTC 2017仿佛还在眼前,GTC China 2017又飘然而至,在硅谷GTC 2017上,NVIDIA发布了诸多堪称足以影响整个业界的重量级产品(详见老孙5月份的报道:GTC 2017现场直击:以人工智能的名义搞一场黑科技的盛会!),相信很多朋友也和老孙一样心中充满了好奇——GTC 2017和GTC China 2017时隔不足5个月,黄教主在此次GTC 大会上又能给我们带来多少惊喜呢?
然而,老孙显然还是低估了黄教主的魔力,虽然在此次大会上,NVIDIA并没有像在硅谷GTC上有Volta架构以及Tesla V100那样怪兽级产品的发布,但也给到场的观众带来了足以称得上惊喜和震撼的技术、产品和发布。
全球首款可编程推理加速器TensorRT 3
我们首先来谈谈在此次大会上重磅发布的TensorRT 3,如果你看过老孙5月份的报道,你应该知道,Tensor Core(张量运算单元)是Volta架构的一个重要的组件,也是推理算法的加速组件,而TensorRT是全球首款可编程推理加速器,借助CUDA的可编程性,TensorRT将能够加速助推深度神经网络日益多样化、复杂的增长趋势。借助TensorRT,我们就能够快速优化、验证并部署经过训练的神经网络,从而将训练好了的神经网络部署到Tesla V100、Jetson TX2、Drive PX 2等NVIDIA的GPU硬件上。它能够确保高度精确的INT8 和 FP16 网络执行,每年能为数据中心运营商节省数以百万美元计的采购和用电成本。借助它,开发者只需短短一天就能完成神经网络的训练,打造一个比其训练框架快3至5倍的可部署推理解决方案。TensorRT 3能够对来自于任何框架的计算图形进行处理,包括TensorFlow、Caffe 2、Chainer、PaddlePaddle、PYTORCH、TensorFlow、Theano等,几乎涵盖了所有的深度学习框架。
据老黄介绍,运行在Volta上的TensorRT 3在图像分类方面比最快的CPU还要快40倍,在语言翻译方面则快140倍,延迟减少一半。这是一套效率和速度兼备的平台。搭配NVIDIA最新GPU的一台服务器顶得上当前150台CPU服务器。换个角度来说,采用GPU 加速技术的一个数据中心所开展的推理工作相当于13个仅采用CPU的数据中心。
TensorRT 3与NVIDIA GPU的结合能够基于所有的框架、为诸如图像和语音识别、自然语言处理、视觉搜索和个性化建议等人工智能服务提供超快速且高效的推理。此外,TensorRT和NVIDIA Tesla GPU加速器的速度可达到CPU的40倍,而相较于基于CPU的解决方案,成本仅为其十分之一。
京东人工智能和大数据部门总监Andy Chen表示:“京东采用NVIDIA GPU和软件在数据中心内开展推理工作。通过采用NVIDIA的 Tesla GPU和 TensorRT,我们能够同时针对1,000个高清视频流进行实时推理,而服务器数量则减少至原来的二十分之一。NVIDIA的深度学习平台为京东带来了卓越的性能与效率。”
而目前,已经有超过1,200家来自各行各业的公司开始采用NVIDIA推理平台,并借此从数据中获得全新洞察,并为企业和消费者部署智能服务。亚马逊、微软、Facebook和谷歌、以及阿里巴巴、百度、科大讯飞、京东、腾讯等中国领先企业均已开始采用NVIDIA推理平台。
全球首款自主机器处理器Xavier
Xavier的发布可以说是本次GTC China的一大惊喜,Xavier是全球首款自主机器处理器,是迄今为止最为复杂的片上系统,老黄表示,自主机器处理器和以前用在手机、计算机、笔记本、服务器中的处理器完全不同。自主机器处理器拥有很多高清传感器,能够自主接收处理诸多实时信息,并且能够实时观察周围的环境,然后重新搭建对于周围世界的模型,因此需要使用计算机视觉、深度学习、传感器视觉等。同时,自主机器处理器还需要利用并行计算来了解周围的情境,并根据相应的情况采取对应行动。早在几年前,NVIDIA就已经开始致力于研发适用于自动化机器的称之为Xavier的处理器,它是一个芯片上的超级计算机,几百名NVIDIA工程师完成了这一最复杂的项目,并且毫无疑问复杂程度是史无前例的。
Xavier集成了8核CPU、Volta TensorCore 和CUDA GPU、传感器、8K HDR VP、以及CVA,可以应用在30TOPS的计算机视觉、深度学习等机器人所需要的领域,有着超高的计算力与能效比。这款处理将于2018年第一季度提供给早期合作伙伴,2018年第四季度全面推出。老黄还在会上宣布,Xavier将会成为下一代Jetson的片上系统,而京东 X 将会采用英伟达的Jetson平台,实现其自主机器。
TensorRT 3 AI推理软件、DeepStream SDK&CUDA 9
为了进一步推动人工智能的发展,在本次大会上NVIDIA推出了一系列人工智能加速软件。其中,全新的TensorRT 3 AI推理软件能够大幅提升从云端至终端设备(包括无人驾驶汽车和机器人)的推理性能并降低成本。TensorRT 3与NVIDIA GPU的结合能够基于所有的框架、为诸如图像和语音识别、自然语言处理、视觉搜索和个性化建议等人工智能服务提供超快速且高效的推理。而DeepStream SDK和CUDA 9是两款助力人工智能开发者更便利的进行编程开发的工具,NVIDIA开发者计划副总裁Greg Estes表示,NVIDIA DeepStream SDK能够大规模提供实时、低延迟的视频分析。它能够帮助开发者集成先进的视频推理能力(包括 INT8 精度和 GPU 加速转码),为采用人工智能的服务提供支持,例如使用单一Tesla P4 GPU加速器,对多达30个高清流进行实时物体分类和场景解析。而CUDA 9是NVIDIA 加速计算软件平台CUDA的最新版本,该版本支持NVIDIA Volta架构,库的速度提高了5倍,为线程管理提供了新的编程模型,并且更新了调试和分析工具,能够为HPC和深度学习应用程序提供加速。CUDA 9专门进行了优化,能够在采用Tesla V100 GPU加速器时提供最大性能。
与众多中国合作伙伴深入合作
除此之外,在本次GTC China 2017上,NVIDIA还宣布了与众多中国合作伙伴的重大合作。在智慧城市领域,NVIDIA宣布将与海康威视携手共建AI城市。海康威视已经在端到端解决方案中采用了NVIDIA平台。此外,大华、华为和阿里巴巴都将会提供基于 NVIDIA平台的AI视频解决方案。在零售领域,NVIDIA宣布将与中国大型在线零售商京东合作。京东每年配送的包裹数量超过300亿,且这一数字还在以50%的速度逐年增长。为应对如此大的增幅,京东正着手推出能够向客户派发包裹的JDrover,以及能携带30 公斤包裹的无人机JDrone。京东的目标是在2022年之前建设一支拥有100万架无人机的机群。上述两种配送工具均由京东创新实验室JD X负责开发,由NVIDIA Jetson超级计算平台提供技术支持,且运行TensorRT以实现导航和无人送货。在云数据中心领域,阿里云、百度和腾讯均已在其云服务中部署Tesla V100 GPU加速器。另外,包括华为、浪潮和联想在内的中国顶尖OEM均已采用NVIDIA的HGX服务器架构并使用Tesla V100 GPU来构建新一代加速数据中心。
全面拓展人工智能培训计划
在此次大会上,NVIDIA还宣布将联手中国领先的科技公司,为开发者、数据科学家和研究人员提供人工智能动手实验培训,拓展其在华人工智能培训计划。NVIDIA还宣布其深度学习学院(DLI)将联手腾讯及丽台科技(Leadtek),合作推出在线培训与讲师指导的线下研讨会。通过与腾讯的合作,DLI课程将充分利用腾讯云端NVIDIA GPU的强大优势,且双方还将合作开发针对人工智能研究这一新兴领域的全新培训内容。丽台科技的DLI认证讲师将在全国范围内举办公开及闭门研讨会,开展人工智能动手实验培训。
NVIDIA开发者计划副总裁Greg Estes表示:“人工智能正在全面席卷技术大环境,在越来越多的领域中,深度学习方面的专长将成为核心技能。NVIDIA深度学习学院发展迅速,仅在今年就有数万名学员参与到了课程之中,这也体现出市场对于可直接投入实践应用的实操培训的极大需求。”
据悉,NVIDIA深度学习学院与包括AWS、Coursera、Facebook、谷歌、Hewlett-Packard Enterprise、IBM、微软及Udacity等在内的全球技术领导者和在线培训合作伙伴开展了合作,旨在采用所有主要的深度学习框架,为开发者提供有关最新人工智能技术的培训。NVIDIA正在通过全球各地的交付合作伙伴,向开发者提供此前很难在高等教育机构之外获取的实用性技能。
走进AI新时代
就像老黄说的那样,如今,AI已经无处不在,深度学习、大数据和GPU的结合将会引爆AI、软件和计算领域的深刻变革,而凭借NVIDIA Volta架构、Tesla GPU、TenSorRT等高科技产品的助推,引领人类深刻变革的AI时代已经即将到来,而我们,将是这次深刻变革的目击者,这是我们的幸运,也是给我们带来的挑战。