IBM刚刚发布了第三代Granite大型语言模型

news/2024/10/30 4:17:09/

  每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行! 订阅:https://rengongzhineng.io/

IBM刚刚发布了第三代Granite大型语言模型(LLM),其中核心包括Granite 3.0 2B Instruct和Granite 3.0 8B Instruct模型。作为开放源码模型,这些模型采用了Apache 2.0许可证,特别适用于在IBM watsonx AI平台上使用时免于法律责任风险。IBM强调,这些模型在12种人类语言和116种编程语言上进行了广泛的训练,共处理超过12万亿个令牌。Instruct模型意味着这些模型可以更准确地理解并执行指令。

企业用途及扩展能力
Granite 3.0系列专为企业任务优化,支持文本总结、信息提取、代码编写和解释性文档创建等任务。这些模型还可用于实体抽取和检索增强生成(RAG),显著提升文本生成的准确性。预计到2024年底,这些模型将支持文档理解、图表解释,甚至能够解答有关图形界面的产品屏幕问题。

新增的“代理型”用例让Granite 3.0具备自主识别需求、使用工具并在设定范围内自主行动的能力。例如在虚拟助手、客户服务和决策支持中,这些模型无需人工干预即可完成复杂任务。此外,IBM还推出了新的“推测解码器”,即Granite 3.0 8B Accelerator,这一功能可通过预测未来词汇来加速文本生成过程,推测解码速度可提高一倍。

在未来几周内,Granite 3.0的上下文长度将从4000个扩展到128,000个令牌,这对于长对话、RAG任务及代理型用例至关重要。同时,IBM还计划在年底前为Granite 3.0模型添加视觉输入,扩展其应用范围。

网络安全和未来发展
IBM的Granite 3.0模型在多个网络安全基准测试中表现优异,尤其在与Llama 3.1 8B Instruct和Mistral 7B Instruct的对比中显示出优势。IBM Research的团队在模型训练数据的筛选上投入大量研究,并开发了用于评估Granite模型网络安全性的专有基准。

未来IBM还将发布“专家混合架构”小型高效模型,如1B参数的Granite 3.0 1B A400M和3B参数的Granite 3.0 3B A800M。此架构将模型划分为多个专门子网络,以提升效率,同时仅在推理中使用少量参数,以实现更高效的边缘计算和CPU服务器部署。

Granite Guardian模型的安全保障
为确保输入和输出的安全,IBM还推出了Granite Guardian 3.0模型,用于检测潜在风险输入如越狱攻击,同时监控输出的偏见、公平性和暴力内容。Guardian模型在RAG流程中能检测到回答是否基于提供的上下文,若不符合则标记为异常。IBM计划到2025年将Granite Guardian模型规模缩小至1到4亿参数,以便更广泛应用于边缘设备、医疗、教育和金融领域。

持续更新和未来展望
Granite 3.0模型以其高性能和开放源码的灵活性在竞争中脱颖而出。IBM未来将增加JSON结构化提示等开发者友好功能,同时保持定期更新,使模型始终处于技术前沿。IBM对Granite系列模型的长期规划表明了其在推动AI技术创新方面的雄心。


http://www.ppmy.cn/news/1542992.html

相关文章

Docker Compose一键部署Spring Boot + Vue项目

目录 前提条件 概述 Compose简介 Compose文件 Compose环境 Compose命令 帮助命令 关键命令 Compose部署项目 初始化环境 查看代码文件 sql数据准备 nginx配置文件准备 创建 compose.yaml 一键启动compose多个容器 浏览器访问虚拟机ip:80(可省略默认的80端口) …

高级java每日一道面试题-2024年10月23日-JVM篇-说一下JVM有哪些垃圾回收算法?

如果有遗漏,评论区告诉我进行补充 面试官: 说一下JVM有哪些垃圾回收算法? 我回答: 在 Java 虚拟机 (JVM) 中,垃圾回收 (Garbage Collection, GC) 是一项非常重要的功能,用于自动管理应用程序的内存。JVM 采用多种垃圾回收算法来决定何时以及如何回收…

大数据新视界 -- 大数据大厂之大数据重塑影视娱乐产业的未来(4 - 3)

💖💖💖亲爱的朋友们,热烈欢迎你们来到 青云交的博客!能与你们在此邂逅,我满心欢喜,深感无比荣幸。在这个瞬息万变的时代,我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而 我的…

java中Scanner的nextLine和next方法

思考&#xff0c;输入1 2 3 4 5加上enter&#xff0c;输出什么 import java.util.Scanner;public class Main {public static void main(String[] args) {Scanner sc new Scanner(System.in);int[][] m new int[2][2];for (int i 0; i < 2; i) {for (int j 0; j < 2;…

`a = a + b` 与 `a += b` 的区别

在 Java 中&#xff0c;a a b 和 a b 都用于将 b 的值加到 a 上&#xff0c;但它们之间存在一些重要的区别&#xff0c;尤其是在类型转换和操作行为方面。 使用 操作符时&#xff0c;Java 会自动进行隐式类型转换&#xff0c;而使用 则不会。这意味着在 a b 的情况下&am…

工具_Nginx

文章目录 location语法介绍跨域配置https配置http重定向到https配置反向代理配置负载均衡配置upstream配置负载均衡算法&#xff08;1&#xff09;rr轮询&#xff08;默认&#xff09;&#xff08;2&#xff09;wrr加权轮询&#xff08;weight&#xff09;&#xff08;3&#x…

CI/CD 的原理

一、CI/CD 的概念 CI/CD是一种软件开发流程&#xff0c;旨在通过自动化和持续的集成、测试和交付实现高质量的软件产品。 CI(Continuous Integration)持续集成 目前主流的开发方式是协同开发&#xff0c;即多位开发人员同事处理同意应用不同模块或功能。 如果企业在同一时间将…

基于SSM+小程序的智慧旅游平台登录管理系统(旅游2)

&#x1f449;文末查看项目功能视频演示获取源码sql脚本视频导入教程视频 1、项目介绍 旅游平台开发微信小程序功能有管理员和用户。 1、管理员功能有个人中心&#xff0c;用户管理&#xff0c;景点分类管理&#xff0c;旅游景点管理&#xff0c;景点购票管理&#xff0c;景…