英特尔推出oneAPI 2023工具包,大幅提升即将推出的英特尔硬件的价值

news/2024/10/29 3:37:58/

英特尔工具的新功能提升了跨平台生产力。

今天,英特尔宣布英特尔® oneAPI工具包的2023年版本已在英特尔®开发者云平台(Intel® Developer Cloud)上线,并正在通过现有的渠道推送。新的oneAPI 2023工具包支持即将推出的第四代英特尔®至强®可扩展处理器、英特尔®至强® CPU Max 系列和英特尔®数据中心GPU,包括Flex系列和新的Max系列。这些工具可提升性能和生产力,并增加了对新的Codeplay1插件的支持,使开发者能更容易地为那些非英特尔的GPU架构编写SYCL代码。这些基于标准的工具提供了硬件方面的选择,也让在跨架构系统上运行的高性能应用的开发变得更加轻松。

英特尔oneAPI 2023工具包包括一套完整的最新编译器、库、分析和移植工具,以及优化后的AI和机器学习框架,让开发者能为oneAPI支持的CPU、GPU和FPGA构建高性能、跨架构的应用。开发者可使用这些工具快速实现性能目标,并通过单个代码库节省时间,从而将更多时间用于创新。

新版本的oneAPI工具包可帮助开发者利用英特尔硬件的先进功能:

• 第4代英特尔至强可扩展处理器和至强CPU Max系列,内置英特尔®高级矩阵扩展(英特尔® AMX)、Quick Assist技术(QAT)、 英特尔®AVX-512、bfloat16及更多。

• 英特尔®数据中心GPU,包括内置基于硬件的AV1编码器的Flex系列,以及Max系列。Max系列提供灵活数据类型的支持,内置英特尔®Xe矩阵扩展(英特尔®XMX)、矢量化引擎(vector engine)、 英特尔®Xe-Link互联扩展和其它功能。

oneAPI 2023工具包具有先进的软件性能:

• 英特尔®Fortran编译(Intel® Fortran Compiler)提供了完整的Fortran语言直至 Fortran 2018标准的支持,并扩展了对OpenMP GPU分流的支持,加快了符合标准的应用程序的开发。

• 英特尔®oneAPI数学内核库(oneMKL)包含OpenMP分流能力的扩展,提高了可移植性。

• 英特尔®oneAPI深度神经网络库(oneDNN) 支持第四代英特尔至强处理器和Max系列CPU处理器的高级深度学习功能,包括英特尔®AMX、英特尔®AVX-512、VNNI和bfloat16。

通过丰富的SYCL支持,以及代码迁移和分析工具的强化,让面向多架构系统的代码开发变得更轻松,进而提高开发者的生产力。

• 英特尔®oneAPI DPC++/C++编译器增加了Codeplay为英伟达和AMD GPU开发的新插件的支持,以简化SYCL代码的编写,并提高代码面向这些处理器架构的可移植性。这提供了一个统一的构建环境,并整合了工具,以提高跨平台生产力。作为该解决方案的一部分,英特尔和Codeplay将为英伟达GPU的oneAPI插件开始提供商业化的优先支持(priority support)。

• 基于开源 SYCLomatic的英特尔 ®DPC++兼容性工具增加了100多个新的CUDA APIs支持,让从CUDA到SYCL的代码迁移变得更容易。

• 用户可以使用英特尔®VTune™ Profiler识别大规模MPI应用中的不均衡问题。

• 英特尔®Advisor为英特尔数据中心GPU Max系列添加了自动化roofline分析,以识别内存、缓存或计算瓶颈,确认其原因并进行优先处理,同时提供可操作的建议,以优化从CPU到GPU 的工作负载分流中的重复数据传输成本。

48%4的开发者面向使用多种处理器的异构系统进行开发,因此需要更高效的跨架构编程来应对现实工作负载日益扩大的范围和规模。结合使用oneAPI 的开放、统一的编程模型与英特尔基于标准的多架构工具,开发者能够在CPU和加速器的硬件、性能、生产力和代码可移植性方面自由地进行选择。相反,为专有编程模型(如CUDA)编写的代码,缺乏面向其它硬件的可移植性,让开发实践变得孤立,将企业困于一个封闭的生态系统中。

此外, 开放生态系统也在继续扩大对oneAPI的使用,新的oneAPI卓越中心正在陆续成立。剑桥大学Open Zettascale 实验室正致力于将重要的百万兆级的备选代码(candidate codes)移植到oneAPI上,包括CASTEP、FEniCS和AREPO。该中心还提供课程和研讨会,由专家讲授oneAPI使用方法和工具,用于编译和移植代码以及优化性能。目前,在全球总共已经建立了30个one API卓越中心。

*可前往英特尔新闻发布室了解更多产品性能具体细节:https://www.intel.com/content/www/us/en/newsroom/news/oneapi-2023-tools-maximize-value-intel-hardware.html#gs.lgulrs

备注:

1 Codeplay是一家英特尔旗下的公司。

2 MLPerf™ DeepCAM: 

• 使用优化后的Pytorch 1.11在MLPerf™ HPC-AI v 0.7 DeepCAM训练基准上获得未经认证的性能提升。结果没有经过MLCommons协会的认证。未经认证的结果没有经过MLPerf™审查,可能使用与经MLPerf™规范认证的结果不一致的测量方法和/或工作负载实现方式。MLPerf™名称和标识是MLCommons协会在美国和其他国家的商标。保留所有权利。严禁未经授权的使用。更多信息见www.mlcommons.org。

• AMD EPYC 7763 :英特尔截至2022年4月7日的测试。1-节点,2x AMD EPYC 7763,启用超线程,禁用 Turbo,总内存512 GB(16 个插槽/32 GB/3200 MHz, DDR4),BIOS版本AMI 1.1b,ucode版本0xa001144,操作系统Red Hat Enterprise Linux 8.5 (Ootpa),内核4.18.0-348.7.1.el8_5.x86_64,编译器gcc(GCC)8.5.0 20210514 (Red Hat 8.5.0-4),https://github.com/mlcommons/hpc/tree/main/deepcam, torch1.11.0a0+git13cdb98, torch-1.11.0a0+git13cdb98-cp38-cp38-linux_x86_64.whl, torch_ccl-1.2.0+44e473a-cp38-cp38-linux_x86_64.whl, intel_extension_for_pytorch-1.10.0+cpu-cp38-cp38-linux_x86_64.whl,Intel MPI 2021.5,Python3.8

• 英特尔®至强®8380可扩展处理器:英特尔截至2022年4月7日的测试。1-节点,2x英特尔®至强®8380处理器,启用超线程,禁用Turbo,总内存512 GB(16个插槽/32 GB/3200 MHz, DDR4),BIOS版本 SE5C6200.86B.0022.D64.2105220049,ucode版本0xd0002b1,操作系统Red Hat Enterprise Linux 8.5 (Ootpa),内核4.18.0-348.7.1.el8_5.x86_64,编译器gcc (GCC) 8.5.0 20210514 (Red Hat 8.5.0-4),https://github.com/mlcommons/hpc/tree/main/deepcam, torch1.11.0a0+git13cdb98, torch-1.11.0a0+git13cdb98-cp38-cp38-linux_x86_64.whl, torch_ccl-1.2.0+44e473a-cp38-cp38-linux_x86_64.whl, intel_extension_for_pytorch-1.10.0+cpu-cp38-cp38-linux_x86_64.whl (AVX-512), Intel MPI 2021.5,Python3.8

• 英特尔®至强®CPU Max系列(缓存模式)AVX-512:英特尔截至2022年5月25日的测试。1-节点,2x英特尔®至强®CPU Max系列,启用超线程,禁用Turbo,总内存 128GB高带宽内存(HBM)和1TB(16个插槽/ 64 GB/ 4800 MHz, DDR5),集群模式:SNC4,BIOS版本EGSDCRB1.86B.0080.D05.2205081330,ucode版本0x8f000320,操作系统CentOS Stream 8,内核5.18.0-0523.intel_next.1.x86_64+server,编译器gcc (GCC) 8.5.0 20210514 (Red Hat 8.5.0-10), https://github.com/mlcommons/hpc/tree/main/deepcam, torch1.11.0a0+git13cdb98, AVX-512, FP32, torch-1.11.0a0+git13cdb98-cp38-cp38-linux_x86_64.whl, torch_ccl-1.2.0+44e473a-cp38-cp38-linux_x86_64.whl, intel_extension_for_pytorch-1.10.0+cpu-cp38-cp38-linux_x86_64.whl (AVX-512),Intel MPI 2021.5,Python3.8

• NVIDIA A100 80GB:英特尔截至2022年4月13日的测试。1-节点,2x英特尔®至强®8360Y可扩展处理器,启用超线程,启用Turbo,总内存256 GB(16个插槽/16 GB/3200 MHz),PCIe版NVIDIA A100,BIOS版本AMI 1.1b,ucode版本0xd000311,操作系统Red Hat Enterprise Linux 8.4 (Ootpa),内核4.18.0-305.el8.x86_64,编译器gcc (GCC) 8.4.1 20200928 (Red Hat 8.4.1-1),https://github.com/mlcommons/hpc/tree/main/deepcam, pytorch1.11.0 py3.7_cuda11.3_cudnn8.2.0_0, cudnn 8.2.1, cuda11.3_0, intel-openmp 2022.0.1 h06a4308_3633,python3.7

• 英特尔®至强®CPU Max系列(缓存模式)BF16/AMX:英特尔截至2022年5月25日的测试。1-节点,2x英特尔® 至强®CPU Max系列,启用超线程,禁用Turbo,总内存128GB高带宽内存(HBM) 和1TB(16个插槽/64 GB/4800 MHz,DDR5),集群模式:SNC4,BIOS版本EGSDCRB1.86B.0080.D05.2205081330,ucode版本0x8f000320,操作系统CentOS Stream 8,内核5.18.0-0523.intel_next.1.x86_64+server,编译器gcc (GCC) 8.5.0 20210514 (Red Hat 8.5.0-10),https://github.com/mlcommons/hpc/tree/main/deepcam, torch1.11.0a0+git13cdb98, AVX-512 FP32, torch-1.11.0a0+git13cdb98-cp38-cp38-linux_x86_64.whl, torch_ccl-1.2.0+44e473a-cp38-cp38-linux_x86_64.whl, intel_extension_for_pytorch-1.10.0+cpu-cp38-cp38-linux_x86_64.whl (AVX-512,AMX,启用BFloat16),Intel MPI 2021.5,Python3.8

• 第四代英特尔®至强®可扩展处理器多节点集群:英特尔截至2022年4月9日的测试。16-节点集群,1-节点,2x第四代英特尔®至强®可扩展处理器,启用超线程,启用Turbo,总内存 256 GB(16个插槽/16 GB/4800 MHz,DDR5),BIOS版本Intel SE5C6301.86B.6712.D23.2111241351,ucode版本0x8d000360,操作系统Red Hat Enterprise Linux 8.4 (Ootpa),内核4.18.0-305.el8.x86_64,编译器gcc (GCC) 8.4.1 20200928 (Red Hat 8.4.1-1),https://github.com/mlcommons/hpc/tree/main/deepcam, torch1.11.0a0+git13cdb98 AVX-512, FP32, torch-1.11.0a0+git13cdb98-cp38-cp38-linux_x86_64.whl, torch_ccl-1.2.0+44e473a-cp38-cp38-linux_x86_64.whl, intel_extension_for_pytorch-1.10.0+cpu-cp38-cp38-linux_x86_64.whl (AVX-512),Intel MPI 2021.5,Python3.8

3 LAMMPS

• 与AMD EPYC 7773X相比,英特尔®至强®CPU Max系列运行LAMMPS工作负载(原子流体的Geomean、铜、DPD、液晶、聚乙烯、蛋白质、Stillinger-Weber势、Tersoff势、水)的性能要高1.9倍。

• 与英特尔®至强®8380处理器相比,英特尔®至强®CPU Max系列处理器运行LAMMPS工作负载(原子流体的Geomean、铜、DPD、液晶、聚乙烯、蛋白质、Stillinger-Weber势、Tersoff势、水)的性能要高1.6倍:基于英特尔截至2022年10月28日的测试。1-节点,2x英特尔®至强®8380处理器,启用超线程,启用Turbo,NUMA配置的SNC2,总内存256GB(16x16GB 3200MT/s, Dual-Rank),BIOS版本SE5C620.86B.01.01.0006.2207150335,ucode版本0xd000375,操作系统Rocky Linux 8.6,Linux版本4.18.0-372.26.1.el8_6.crt1.x86_64,LAMMPS v2021-09-29 cmkl:2022.1.0, icc:2021.6.0, impi:2021.6.0, tbb:2021.6.0; 线程/核:; 启用Turbo; BuildKnobs:-O3 -ip -xCORE-AVX512 -g -debug inline-debug-info -qopt-zmm-usage=high

•  AMD EPYC 7773X: 基于英特尔截至2022年10月6日的测试。1-节点,2x AMD EPYC, 启用超线程,启用Turbo,NUMA配置的NPS数:4,总内存256GB(16x16GB 3200MT/s, Dual-Rank),BIOS版本M10, ucode版本0xa001224,操作系统Rocky Linux 8.6 (Green Obsidian),Linux版本4.18.0-372.26.1.el8_6.crt1.x86_64, LAMMPS v2021-09-29 cmkl:2022.1.0, icc:2021.6.0, impi:2021.6.0, tbb:2021.6.0; 线程/核:; 启用Turbo; BuildKnobs:-O3 -ip -g -debug inline-debug-info -axCORE-AVX2 -march=core-avx2;

• 英特尔®至强®CPU Max系列:英特尔截至2022年8月31日的测试。1-节点,2x英特尔®至强®CPU Max系列,启用超线程,启用Turbo,NUMA配置的SNC4,总内存128 GB(3200MHz的HBM2e高带宽内存),BIOS版本SE5C7411.86B.8424.D03.2208100444,ucode版本0x2c000020,操作系统CentOS Stream 8,Linux版本5.19.0-rc6.0712.intel_next.1.x86_64+server, LAMMPS v2021-09-29 cmkl:2022.1.0, icc:2021.6.0, impi:2021.6.0, tbb:2021.6.0; 线程/核:; 禁用Turbo; BuildKnobs:-O3 -ip -xCORE-AVX512 -g -debug inline-debug-info -qopt-zmm-usage=high

4 Evans Data Global Development Survey Report 22.1, 2022年6月

性能因用途、配置和其他因素而异。欲了解更多信息,请访问www.Intel.com/PerformanceIndex。结果可能会有所不同。 性能结果基于截至配置中所示日期的测试,并且可能无法反映所有公开可用的更新。

英特尔不负责控制或审计第三方数据。在评估数据准确性时,请参考其他信息源。

©英特尔公司,英特尔、英特尔logo及其它英特尔标识,是英特尔公司或其分支机构的商标。文中涉及的其它名称及品牌属于各自所有者资产

 


http://www.ppmy.cn/news/431011.html

相关文章

英特尔OneAPI介绍

oneAPI是什么? Intel oneAPI 是一个跨行业、开放、基于标准的统一的编程模型,它为跨 CPU、GPU、FPGA、专用加速器的开发者提供统一的体验,包含两个组成部分∶ 一项行业计划和一款英特尔beta产品。 英特尔 oneAPI 产品是英特尔基于 oneAPI 的…

英特尔与波士顿咨询公司联合向企业客户推售 AI

今日,英特尔和波士顿咨询公司表示,他们正在合作向大企业推售生成人工智能工具。 生成式AI是流行聊天机器人(如 OpenAI 的 ChatGPT)背后的一类技术,可以用类似人类的文本回复查询。谷歌母公司 Alphabet Inc和微软公司正…

英特尔oneAPI简介

oneAPI是英特尔推出的一个统一的软件开发套件,旨在使软件开发人员能够使用单一的代码库在不同的计算平台上开发应用程序。 它提供了一组标准化的应用编程接口(API),可以让软件开发人员在不同的计算平台上使用相同的代码开发应用程…

19. Intel最新微架构 Alder Lake

Alder Lake简介 Alder Lake是Intel耗时多年打造的一款全新架构,它是未来将要发布的第12代酷睿处理器的核心。 和以往的Intel处理器架构一样,Alder Lake包含了CPU、GPU、内存控制器、IO、显示输出和AI加速器等部件。它也是Intel首个采用大小核设计的高性…

字符串--从函数返回字符串指针

许多字符串处理函数是不需要返回值的,但实际上它们都被设计成了有返回值的函数。例如字符串赋值函数的函数原型为: char *strcpy(char *str1, const char *str2);字符串连接函数strcat()的函数原型为; char *strcat(char *str1,const char …

【C++】函数重载及引用

目录 一、函数重载 1、函数重载的概念 2、名字修饰 二、引用 1、引用概念 2、引用特性 3、常引用 4、引用的使用场景 4.1 做参数 4.2 做返回值 5、传值、传引用效率比较 6、引用和指针的区别 一、函数重载 1、函数重载的概念 函数重载:是函数的一种特殊情况&#…

转:苹果iphone APP界面设计尺寸官方版

苹果iphone APP界面设计尺寸官方版 转载于:https://www.cnblogs.com/stephen-init/p/4221326.html

【2.3.3被拒】苹果iOS上架屏幕截图尺寸及制作介绍

苹果上架需要的屏幕快照截图,各尺寸的截图是要求不同的机型去截图,如果不对应,就会被拒反馈2.3.3被拒条款! iOS APP上架被拒重新提交审核教程 下面是相关截图的介绍,根据要求做! 6.5寸(必须要)是x系列刘海屏iPhone手机截图(iPhone X、iPhone XS、iPhone XS …