英伟达推出了全新的小型语言模型家族——Hymba 1.5B

embedded/2024/11/26 16:50:23/

  每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行! 订阅:https://rengongzhineng.io/

本周AI新闻: Nvidia给你AI发展定心剂 群雄逐鹿AI Agent赛道: B站视频链接地址: https://www.bilibili.com/video/BV1PmBWYCEHN/

英伟达推出了全新的小型语言模型家族——Hymba 1.5B,以其混合式架构成功击败Llama 3.2和SmolLM v2。作为一款拥有15亿参数的混合语言模型,Hymba专注于提升效率与性能,同时能够在资源有限的设备上运行。

Hymba采用了全新的混合头并行架构,将Mamba(状态空间模型,SSM)和Transformer的注意力机制并行整合。这一设计结合了两者的优势:注意力头(Attention Head)提供高分辨率记忆能力,SSM头则能有效总结上下文。这种架构不仅平衡了计算效率与记忆性能,还通过引入可学习的元标记(Meta Tokens),优化了输入处理,使注意力机制的压力大大减轻。更重要的是,Hymba创新性地引入了跨层KV缓存共享部分滑动窗口注意力机制,在显著降低内存占用的同时,确保了模型高效运算。

Hymba模型在设计中融入了多项技术突破:

  1. 混合架构:并行运行Mamba和注意力头,提升性能与效率。
  2. 元标记优化:在每个输入前加入元标记,用于存储关键信息,缓解注意力机制的内存负担。
  3. FlexAttention支持:结合PyTorch 2.5中的FlexAttention,增强训练与推理灵活性。
  4. 跨层KV缓存共享:在不同层与头部之间共享缓存,显著降低内存使用。
  5. 滑动窗口注意力:优化注意力计算,进一步提高模型效率。

Hymba还结合了16个SSM状态与3层完整注意力层,其余层采用滑动窗口设计。这种配置既保持了高效计算,又确保了足够的记忆分辨率。

Hymba-1.5B在基准测试中展示了卓越表现,击败了所有参数低于20亿的公共模型。在对比中,其性能甚至超越了Llama 3.2-3B,准确率高出1.32%,缓存需求减少11.67倍,吞吐量提升至3.49倍。此外,Hymba的处理速度达到了每秒664个Token,远超其他小型语言模型如SmolLM2和Llama 3.2-3B,这让其在运行资源受限的硬件上展现了极高的实用性。

Hymba的混合式注意力与SSM设计让其在各种任务中表现优异,包括通用基准测试和对记忆要求较高的任务。其出色的吞吐量与低内存占用,特别适合需要快速响应且资源有限的实际部署场景。

Hymba的推出标志着小型语言模型的新高度。通过其创新的架构设计与高效性能,英伟达为自然语言处理(NLP)技术在资源有限的设备上应用开辟了全新路径。元标记、跨层缓存共享、以及混合架构的结合,不仅降低了对内存的需求,也提高了模型的准确性与灵活性。

Hymba模型家族展示了NLP技术效率与通用性的巨大进步。作为一款高效且准确的小型语言模型,Hymba为未来在低资源环境中的语言模型部署提供了理想选择,或将引领下一波小型模型的技术革新。


http://www.ppmy.cn/embedded/140663.html

相关文章

高性能存储SIG月度动态:重构和优化fuse,推动containerd社区支持erofs

本次月报综合了 SIG 在 9、10 两个月的工作进展,包含多项新特性、优化、Bugfix 等。 一、SIG 整体进展 重构和优化 fuse 代码,为接下来的 writeback 性能优化特性做准备。 containerd erofs snapshotter PR 已提交,社区 review 讨论中。 …

介绍一下strcat(c基础)

hi , I am 36 适合对象c语言初学者 strcat(arr1,arr2); 是使arr2的内容接到arr1 格式 #include<string.h> strcat(arr1,arr2) arr2首元素会从arr1中的‘\0’开始替换。 返回值为arr1.(即arr1数组的首地址)链接分享一下arr的意义(c基础)-CSDN博客​​​​​​ …

Javaweb关于web.xml的相关配置信息

Javaweb关于web.xml的相关配置信息 初始页面 <!-- 规定加载进入的初始页面--> <welcome-file-list><welcome-file>/login.jsp</welcome-file> </welcome-file-list>配置Servlet <!--配置Servlet--> <servlet><servlet-name&g…

xtu oj Estrella‘s Chocolate

样例输入 2 5 2 5 3 2 4 1 5 3 5 3 2 4 1样例输出 8 5 解题思路&#xff1a;二分法&#xff0c;emm……&#xff0c;感觉挺难想到的。 问题简化 给定一个数组&#xff0c;和一个值k&#xff0c;数组分成k段。要求这k段子段和最大值最小。求出这个值。 1、求出数组中的最大…

20241125复盘日记

昨日最票&#xff1a; 南京化纤 滨海能源 广博股份 日播时尚 众源新材 返利科技 六国化工 丰华股份 威领股份 凯撒旅业 华扬联众 泰坦股份 高乐股份高均线选股&#xff1a; 理邦仪器高乐股份日播时尚领湃科技威领股份资金最多的票&#xff1a; 资金攻击最多的票&#xff1a; …

Spring Boot 实战:基于 Validation 注解实现分层数据校验与校验异常拦截器统一返回处理

1. 概述 本文介绍了在spring boot框架下&#xff0c;使用validation数据校验注解&#xff0c;针对不同请求链接的前端传参数据&#xff0c;进行分层视图对象的校验&#xff0c;并通过配置全局异常处理器捕获传参校验失败异常&#xff0c;自动返回校验出错的异常数据。 2. 依赖…

RLC串联谐振,品质因数的影响

串联谐振 电路谐振是正弦稳态电路的一种特定的工作状态&#xff0c;通常发生在电感L&#xff0c;电容C和电阻R构成的电路。当高频信号通过电感或者电容的时候会产生感抗或者容抗&#xff0c;电感的感抗随着频率的增加而增加&#xff0c;电容的容抗随着频率的增加而降低。 对于串…

path.resolve、path.join

文章目录 一、path.resolve二、path.join node中的path 模块&#xff1a;用于处理文件和目录的路径的实用工具&#xff1b;经常在一些打包配置中出现 一、path.resolve __dirname属于常量&#xff0c;案例中为D:\2024\webpack\webpack-demo\src__dirname只能写在最前面&#xf…