Nvidia AI 发布 Llama-Minitron 3.1 4B:通过修剪和提炼 Llama 3.1 8B 构建的新语言模型

devtools/2024/9/24 1:28:18/

Nvidia 刚刚发布了语言模型的新版本,不过这次是一个小型语言模型:Llama-3.1-Minitron 4B 模型。这意味着它是语言模型不断发展的重要步骤之一,通过剪枝和知识提炼等尖端技术,将大型模型的效率与小型模型相结合。

在这里插入图片描述

Llama-3.1-Minitron 4B 模型是大型 Llama-3.1 8B 姐妹模型的提炼和剪枝版本。为了在原始 8B 模型的基础上创建更小的模型,Nvidia 在深度和宽度方向上使用了结构化剪枝技术。剪枝是一种删除网络中不那么重要的层或神经元的技术,目的是减小模型的大小和复杂度,同时保留其性能。在本例中,Nvidia 通过从模型中删除 16 层来进行深度剪枝,并将其从 8B 模型缩减为 4B 模型。另一种技术是通过削减嵌入维度和 MLP 中间层来进行宽度剪枝。

除了剪枝,Nvidia 还采用了经典蒸馏技术来提高 Llama-3.1-Minitron 4B 的效率。知识蒸馏是一个过程,在这个过程中,一个较小的模型(即学生)会被训练成模仿一个更大、更复杂的模型(即教师)的行为。通过这种方式,较小模型中保留了原始模型的大部分预测能力,但速度更快,资源更节省。Nvidia 将此与蒸馏技术和剪枝技术相结合,确保重新训练的 4B 模型性能优异,并在更大的模型中得到很好的应用。

在这里插入图片描述
Llama-3.1-Minitron 4B 模型在各种基准测试中表现出色,与更大型的先进开源模型相比,性能极具竞争力。在大多数领域,它的性能都远远超过许多其他小型语言模型,如 Minitron 4B、Phi-2 2.7B、Gemma2 2.6B 和 Qwen2-1.5B。广泛的基准测试证明,该模型在推理、编码和数学方面具有更高的准确性和效率。

Llama-3.1-Minitron 4B 模型的最大优势之一在于,它既能在同等条件下进行竞争,又能节约资源。它使用的训练代币数量仅是从头开始训练所需的一小部分,最多可减少 40 倍。这就节省了大量的计算成本。这使得它成为一个非常有吸引力的选择,可以部署在计算资源有限的场景中,以部署大规模语言模型

在这里插入图片描述
Nvidia 进一步优化了 Llama-3.1-Minitron 4B 模型,将其部署到 TensorRT-LLM 工具包中,从而增强了其推理性能。例如,该模型在各种情况下的 FP8 精度吞吐量比原来的 Llama 3.1 8B 模型提高了 2.7 倍。对 Llama-3.1-Minitron 4B 进行的额外优化使该模型变得异常强大和高效,可轻松应用于许多领域。

在这里插入图片描述
总之,Nvidia 发布的 Llama-3.1-Minitron 4B 模型是 LLM 创建过程中的一次巨大飞跃。因此,Nvidia 设计的模型在节省资源的同时实现了良好的性能,因此在许多 NLP 任务中非常有用。Llama-3.1-Minitron 4B 模型将成为 Nvidia 的 "Hugging Face "系列的一部分,并为不断变化的强大、免费的人工智能模型格局添砖加瓦。

感谢大家花时间阅读我的文章,你们的支持是我不断前进的动力。期望未来能为大家带来更多有价值的内容,请多多关注我的动态!


http://www.ppmy.cn/devtools/98500.html

相关文章

【ARM 芯片 安全与攻击 5.1 -- 瞬态攻击(Transient Execution Attack)】

文章目录 瞬态攻击(Transient Execution Attack)推测执行攻击乱序执行攻击瞬态攻击在 ARM 中的应用Spectre 攻击在 ARM 中的应用示例防御瞬态攻击的措施硬件层面软件层面Summary瞬态攻击(Transient Execution Attack) 瞬态攻击(Transient Execution Attack)是一种利用现…

qt笔记之qml中的TextEdit、TextInput、TextArea、TextField的区别

qt笔记之qml中的TextEdit、TextInput、TextArea、TextField的区别 code review! 文章目录 qt笔记之qml中的TextEdit、TextInput、TextArea、TextField的区别一.对比二.C环境中类似功能的控件 一.对比 TextEdit、TextInput、TextArea和TextField都是用于文本输入的组件&#…

关于 瑞芯微的 adb 的使用

步骤: 1 首先是 需要在 andorid 系统中, 在开发者选项中, 是能,USB调试 然后设置传输为文件传输(这个一般的板卡已经做好了,不用改) 2 然后在PC端 使用驱动精灵安装一个 adb 驱动&#xff0c…

嵌入式学习——(Linux高级编程——线程控制)

线程的互斥 一、互斥的重要性 在多线程编程中,互斥机制至关重要。当多个线程同时访问临界资源时,如果没有有效的互斥控制,可能会导致数据不一致、资源竞争等问题。通过互斥锁,可以确保在任何时刻只有一个线程能够访问临界资源&am…

数据库范式

相关概念 函数依赖 这里我纯白话解释了,纯概念去百度查。 我们设 R(U) 是属性集合 U 的一个关系模式,可以理解为一张表就算关系 R,里面的属性的集合就是 U。 其中 U {学号,姓名,年龄,身份证号,系名,系位置,课号,成绩}。 名词 概念解释 …

Sqlmap

Python 语言编写的开源SQL注入检测、利用工具丰富的特性、参数众多、强大的检测引擎指纹发现、脱裤、OS控制、RCE顺便发现XSS漏洞必备参数、HTTP头均可注入 SQL注入 与编程语言、数据库无关问题在程序代码 检测漏洞 ’1 and 1# 1 and 12# 1’ or 11# 1’ or 12#select [pas…

2-73 基于matlab的weber能量法求解齿轮时变啮合刚度的程序

基于matlab的weber能量法求解齿轮时变啮合刚度的程序,能够跑出刚度图,通过求解轮齿部分变形、基体变形及局部接触变形这三部分的变形,进而求得综合弹性变形,最终求出时变啮合刚度。程序已调通,可直接运行。 2- 73 齿轮…

docker具体操作

安装docker : 前提 centos 7 64位 centos内核版本3.10以上 1 uname -r 查看内核 2 yum install -y yum-utils device-mapper-persistent-data lvm2 下载依赖包 3 um-config-manager --add-repo http://mirrors.aliyun.com/docker-ce/linux/centos/docker-ce.re…