参数是ChaGPT的近6倍,英特尔公布AI大模型Aurora genAI,具备1万亿参数

news/2024/11/28 16:35:28/

模型参数越大就越好吗?

英特尔公布AI大模型Aurora genAI

具备 1 万亿参数

 

据 wccftech 报道,英特尔近日公布了旗下生成式 AI 大模型 Aurora genAI。

据悉,Aurora genAI 参数量高达 1 万亿,其开发依赖于 Megatron 和 DeepSpeed 框架,这些结构增强了模型的强度和容量。而 ChatGPT 模型参数量是 1750 亿,这也意味着,Aurora genAI 的参数量是 ChatGPT 的近 6 倍。

据悉,Aurora genAI 模型是英特尔是与阿贡国家实验室和 HPE 合作开发的,它是一个纯粹 以科学为中心的生成式 AI 模型,将被用于各类科学应用,包括分子和材料设计、乃至涵盖数百万来源的综合知识素材,据此为系统生物学、高分子化学、能源材料、气候科学和宇宙学等提供值得探索的实验设计思路。这些模型还将用于加速癌症及其他疾病的相关生物过程的识别速度,并为药物设计提供靶点建议。

除了科研之外,Aurora genAI 还具有在自然语言处理、机器翻译、图像识别、语音识别、金融建模等商业领域的应用潜力。

阿贡实验室副主任 Rick Stevens 介绍称,“这个项目希望充分利用 Aurora 超级计算机的全部潜力,为能源部各实验室的下游科学研究和其他跨机构合作计划提供资源。”

根据介绍,Aurora genAI 模型将由生物学、化学、材料科学、物理学、医学等学科的常规文本、代码、科学文本和结构化数据训练而成。阿贡实验室正带头组织国际合作以推进该项目,参与方包括英特尔、HPE、能源部各下辖实验室、美国及其他国际性高校、非营利组织,以及 RIKEN 等国际合作伙伴。

Aurora genAI 模型将运行在英特尔为阿拉贡国家实验室开发的 Aurora 超算上,其性能达到了 200 亿亿次,是当前 TOP500 超算冠军 Frontier 的 2 倍。近日,英特尔和阿贡国家实验室还公布了 Aurora 的安装进度、系统规格和早期性能测试结果:

  • 英特尔已完成 Aurora 超级计算机 1 万多块刀片服务器的交付。

  • Aurora 的完整系统采用 HPE Cray EX 超算架构,将拥有 63744 个 GPU 和 21248 个 CPU,辅以 1024 个 DAOS 存储节点。Aurora 还将配备 HPE Slingshot 高性能以太网络。

  • 早期性能结果显示,Aurora 超算系统在实际科学和工程负载上具有领先性能,性能表现比 AMD MI250 GPU 高出 2 倍,在 QMCPACK 量子力学应用程序上的性能比 H100 提高 20%,且能够在数百个节点上保持近线性的算力扩展。作为 ChaGPT 的有力竞争者,Aurora genAI 的公布预示着 AI 大模型赛道又迎来了新的重磅玩家,并极有可能在未来对各种科学领域产生重大影响。不过目前,Aurora genAI 更像是处于概念阶段,英特尔的目标是到 2024 年完成 Aurora genAI 模型的构建。

对于英特尔的万亿参数 AI 大模型 Aurora genAI,有网友表示:“我不相信仅仅增加参数数量就能改进模型,我认为我们不应该发布新闻稿追逐增加参数数量。我在研究中还发现,较大的模型通常不会表现得更好,但由于不负责任的营销,这变得越来越难以向非技术人员解释。如果我们对这些营销放任不管,我们会让很多人失望,并降低大家对 AI 未来增长潜力的信心——我们不想要另一个 AI 寒冬。训练这些大型模型会产生巨大的环境成本,而且理解、使用和控制这些非常大的模型(即使作为研究人员)也变得更加困难。”

AI 军备竞赛进入

“万亿参数模型”对抗时代?

 

近几年,随着 AI 大模型赛道持续升温,越来越多的科技巨头加入进来,并不断打破参数规模记录。

2021 年 1 月,谷歌大脑团队重磅推出超级语言模型 Switch Transformer,该模型有 1.6 万亿个参数,是当时规模最大的 NLP 模型。同年 6 月,智源研究院发布悟道 2.0,该系统参数数量已超过 1.75 万亿,是当时全球最大的大规模智能模型系统。同年 11 月,阿里达摩院发布多模态大模型 M6,其参数已从万亿跃迁至 10 万亿,是当时全球最大的 AI 预训练模型。

有分析指出,中美 AI 军备竞赛的核心战场正是万亿级预训练模型。打造千万亿参数规模的预训练模型是人类的一个超级工程,可能会对国家甚至人类社会产生重大影响。

那么,模型参数越大就越好吗?

鹏城实验室网络智能部云计算所副所长相洋曾在接受 InfoQ 采访时指出:

我们最初见到的一些模型是几万个参数,后来就到了几亿、几十亿、百亿、千亿,还有可能上万亿。目前从事实来说,的确是模型越大数据越多,且质量越好,带来的性能是越高的。但是我个人认为,这个提升曲线可能会有一个瓶颈期,到了瓶颈或者平台期的时候,它的上升速度可能就会缓慢,或者说基本就达到稳定了。就目前而言,可能我们还没有到达平台期。所以说,“模型参数越大越好”这个说法在一定程度上是成立的。

但是,判断一个大模型是否优秀,不能只看参数,还要看实际表现。模型得出来的任务效果好,我们就可以认为这个模型是个好模型。参数不是问题,当机器无论是在存储还是计算能力都足够强的时候,大模型也可以变成小模型。

此外,还要考虑模型的可解释能力,以及是否容易受噪声的攻击。如果该模型有一定的解释能力,那这个模型就是一个好模型;如果该模型不易被噪声数据或是其他因素影响的话,那这个模型也是一个好模型。


http://www.ppmy.cn/news/105031.html

相关文章

Eclipse教程 Ⅷ

Eclipse Debug 配置 创建和使用 Debug 配置 Eclipse Debug 配置类似于运行配置但它是用于在调试模式下开启应用。 打开 Debug 配置对话框步骤为:Run > Debug Configurations 。 从左侧列表中选择 "Java Application" 选项来选择要调试的 Java 代码。…

【项目】ROS下使用N100模块

本文主要记录如何使用WHEELTEC N100 模块。 之前的版本是CP2102串口芯片,而2022年5月之后的N100采用的是CH9102串口芯片。 一、修改串口号: 工具:链接:https://pan.baidu.com/s/13Pdq45_Z0ZRwuaNN0I84Cg 提取码:i6j…

eclipse连接mysql全网最详细教程

第一步:我们先做连接前的环境准备工作 1、首先在MySQL官网下载驱动:(下载地址博主给大家整理好了直用) https://dev.mysql.com/downloads/file/?id498587 下下来是这个样子 2、在eclipse中新建一个工程 3、添加驱动到eclipse里…

史上最详细的使用Claude和接入Claude-api教程

是什么(What) Claude 是最近新开放的一款 AI 聊天机器人,是世界上最大的语言模型之一,比之前的一些模型如 GPT-3 要强大得多,因此 Claude 被认为是 ChatGPT 最有力的竞争对手。Claude 的研发公司是专注人工智能安全和研…

Vue2 创建 Vite 项目,新手教学

关于vite Vite是一种快速的现代化构建工具,可以显著提高Web应用程序的开发效率和性能。 以下是一些Vite的好处: 快速的冷启动:Vite使用原生ES模块解析器,在冷启动时会非常快速,不需要像Webpack一样构建整个应用程序。…

C#扩展——枚举的|位算,将选项快速组合起来

声明:本文为个人笔记,用于学习研究使用非商用,内容为个人研究及综合整理所得,若有违规,请联系,违规必改。 C#扩展——枚举的|位算,将选项快速组合起来 文章目录 C#扩展——枚举的|位算,将选项快速组合起来一…

广汽研究院面试(部分)

gprc底层用的什么协议?HTTP2。Q:HTTP和HTTP2有什么区别?答案可参考本博 腾讯的面试 Q:grpc使用的序列化协议protobuf,有什么优点?参考答案1: 序列化后体积相比Json和XML很小,适合网络…

前端036_用户模块_删除功能

标签模块_删除功能 1、需求分析2、EasyMock 添加模拟接口3、Api 调用接口4、测试1、需求分析 当点击删除按钮后, 弹出提示框。点击确定后,执行删除并刷新列表数据 确认消息弹框参考:https://element.eleme.cn/#/zh-CN/component/message-box#que-ren-xiao-xi 2、EasyMock 添…