《大语言模型》学习笔记(一)

ops/2025/3/14 23:51:14/

一、什么是大语言模型

语言模型是指在海量无标注文本数据上进行预训练得到的大型预训练语言模型,例如GPT-3,PaLM和LLaMA。大语言模型(Large Language Model,LLM)是一种基于深度学习的自然语言处理模型,能够理解和生成人类语言。它通过大量文本数据进行训练,学习语言的统计规律和语义关系,从而完成各种语言任务,如文本生成、翻译、问答、摘要等。

二、大语言模型的特点

  1. 具有较为丰富的世界知识。与传统机器学习模型相比,大语言模型经过超大规模文本数据的预训练后能够学习到较为丰富的世界知识。
  2. 具有较强的通用任务解决能力。大语言模型主要通过预测下一个词元的预训练任务进行学习,虽然并没有针对特定的下游任务进行优化,却能够建立远强于传统模型的通用任务求解能力。
  3. 具有较好的复杂任务推理能力。大语言模型在大规模文本数据预训练后,能够展现出比传统模型更强的综合推理能力。
  4. 具有较强的人类指令遵循能力。大语言模型建立了自然语言形式的统一任务解决模式:任务输入与执行结果均通过自然语言进行表达。通过预训练与微调两个阶段的学习,大语言模型具备了较好的人类指令遵循能力,能够直接通过自然语言描述下达任务指令(又称为“提示学习”)。
  5. 具有较好的人类对齐能力。目前广泛采用的对齐方式是基于人类反馈的强化学习技术,通过强化学习使得模型进行正确行为的加强以及错误行为的规避,进而建立较好的人类对齐能力。目前很多线上部署的大语言模型应用,都能够有效阻止典型的模型功能滥用行为,一定程度上规避了常见的使用风险。
  6. 具有可拓展的工具使用能力。大语言模型具有较为通用的任务求解形式,可以通过微调、上下文学习等方式掌握外部工具的使用,如搜索引擎与计算器,通过具有特殊功能的工具来加强大语言模型的能力。目前最先进的大语言模型如GPT-4等能够支持多种工具的使用,从而极大地提升了模型的任务解决能力。

三、大语言模型关键技术概览

  1. 规模扩展。早期的研究主要关注模型参数规模所带来的性能优势,最近的工作则是加大对于高质量数据的规模扩展。针对十亿级别(如2B或7B)参数的模型使用超大规模的数据(如2T或3T词元)进行训练,仍然可能无法达到这些模型的最大数据容量。实现规模扩展的关键在于模型架构的可扩展性。Transformer模型的可扩展性非常强,对于硬件并行优化的支持也比较友好,特别适合大语言模型的研发,很多工作也在进一步针对其进行优化与改进。
  2. 数据工程。OpenAI于2019年就在GPT-2的论文中给出了当前大语言模型的技术路线图:通过在海量文本上进行下一个词预测的优化,使得模型能够学习到丰富的语义知识信息,进而通过文本补全的方式解决各种下游任务。这种方式最大的好处是,极大地简化了模型的设计与优化过程,使得模型训练与使用都是基于自然语言生成的模式进行的。在这种通用的预训练范式下,模型能力本质上是来源于所见过的训练数据,因此数据工程就变得极为重要。目前来说,数据工程主要包括三个方面。首先,需要对于数据进行全面的采集,拓宽高质量的数据来源;其次,需要对于收集到的数据进行精细的清洗,尽量提升用于大模型训练的数据质量;第三,需要设计有效的数据配比与数据课程,加强模型对于数据语义信息的利用效率。这三个方面的数据工程技术直接决定了最后大语言模型的性能水平。目前来说,针对英文的开源高质量数据集合比较丰富,相关的数据工程技术讨论也相对较多,但是对于其他语言的研究关注度还有待进一步加强。
  3. 高效预训练。由于参数规模巨大,需要使用大规模分布式训练算法优化大语言模型的神经网络参数。由于大语言模型的训练需要耗费大量的算力资源,通常需要开展基于小模型的沙盒测试实验,进而确定面向大模型的最终训练策略。为此,GPT-4构建了一整套面向大模型的基础训练架构,可以使用较少的算力开销来可靠地预测大模型的最终性能。
  4. 能力激发。现有的研究认为指令微调无法向大模型注入新的知识,而是训练大模型学会利用自身所掌握的知识与信息进行任务的求解。在提示学习方面,需要设计合适的提示策略去诱导大语言模型生成正确的问题答案。为此,研究人员提出了多种高级提示策略,包括上下文学习、思维链提示等,通过构建特殊的提示模板或者表述形式来提升大语言模型对于复杂任务的求解能力。提示工程已经成为利用大语言模型能力的一个重要技术途径。进一步,大语言模型还具有较好的规划能力,能够针对复杂任务生成逐步求解的解决方案,从而简化通过单一步骤直接求解任务的难度,进一步提升模型在复杂任务上的表现。
  5. 人类对齐。在实践应用中,需要保证大语言模型能够较好地符合人类的价值观。将人类偏好引入到大模型的对齐过程:首先训练能够区分模型输出质量好坏的奖励模型,进而使用强化学习算法来指导语言模型输出行为的调整,让大语言模型能够生成符合人类预期的输出。
  6. 工具使用。通过让大语言模型学会使用各种工具的调用方式,进而利用合适的工具去实现特定的功能需求。为了能够有效地使用外部工具,GPT系列模型通过插件机制来形成系统性的工具调用方式,这些插件可以类比为大语言模型的“眼睛和耳朵”,能够有效扩展大语言模型的能力范围。在技术路径上,工具调用能力主要是通过指令微调以及提示学习两种途径实现,而未经历过特殊训练或者缺乏有效提示的大语言模型则很难有效利用候选工具。

http://www.ppmy.cn/ops/165792.html

相关文章

modbusrtu.h:5:10: error: ‘QSerialPort‘ file not found

解决 QSerialPort 头文件未找到的问题: 1. 确保已安装 Qt Serial Port 模块 QSerialPort 属于 Qt Serial Port 模块,需先确认已安装该模块。 安装步骤: 打开 Qt Maintenance Tool: 在开始菜单搜索并打开 Qt Maintenance Tool 选择当前安装的 Qt 版本,点击 “添加或移除…

Elasticsearch 7.x入门学习-系统架构与工作流程

1 核心概念 1.1 索引(Index) Elasticsearch 索引的精髓:一切设计都是为了提高搜索的性能。 一个索引就是一个拥有相似特征的文档集合。比如说,你可以有一个客户数据的索引,另一个产品目录的索引,还有一个…

第十五届蓝桥杯大学B组(握手问题、小球反弹、好数)

一、握手问题 思路1&#xff1a; 1)先让所有人相互握手 第一个人49次 第二个人48次 第五十个人0次 共计01249 2)减去7个没握手的 016 #include<stdio.h> int main() {int a 50*49/2 - 7*6/2;printf("%d\n",a);return 0; } 运行结果&#xf…

【QT】-解析打包json

在 Qt 中&#xff0c;接收到 JSON 字符串后&#xff0c;可以通过 QJsonDocument 来解析 JSON 数据&#xff0c;获取字段值。同时&#xff0c;可以使用 QJsonDocument 将数据打包成 JSON 字符串&#xff0c;然后发送到 RabbitMQ 或其他地方。这个方法在 Qt 中非常常见且稳定。 …

Chrome 扩展开发 API实战:Proxy(七)

1. 引言 在现代浏览器生态中&#xff0c;代理设置是提升网络访问速度、保障隐私安全的重要手段。对于开发者而言&#xff0c;掌握如何在 Chrome 扩展程序中配置代理功能&#xff0c;不仅能满足特定的网络需求&#xff0c;还能为用户提供更灵活的上网体验。本文将以通俗易懂的语…

探索移动端开发新可能: Android Termux环境下部署MariaDB数据库

文章目录 前言1. 安装MariaDB2. 安装cpolar内网穿透工具3. 创建安全隧道映射mysql4. 公网远程连接5. 固定远程连接地址 前言 在这个数字时代&#xff0c;我们的智能手机早已突破了通话、发短信和刷社交媒体的界限。你知道吗&#xff1f;现在的智能机性能强大到足以支持我们进行…

Linux基础开发工具—vim

目录 1、vim的概念 2、vim的常见模式 2.1 演示切换vim模式 3、vim命令模式常用操作 3.1 移动光标 3.2 删除文字 3.3 复制 3.4 替换 4、vim底行模式常用命令 4.1 查找字符 5、vim的配置文件 1、vim的概念 Vim全称是Vi IMproved&#xff0c;即说明它是Vi编辑器的增强…

大白话解释 React 中高阶组件(HOC)的概念和应用场景,并实现一个简单的 HOC。

高阶组件&#xff08;HOC&#xff09;的概念 在 React 里&#xff0c;高阶组件&#xff08;Higher-Order Component&#xff0c;简称 HOC&#xff09;就像是一个“超级工厂函数”。它本身是一个函数&#xff0c;而且这个函数接收一个组件作为参数&#xff0c;然后返回一个新的…