NLP大模型学习总结

news/2024/12/18 1:10:02/

参考课程

【清华NLP】刘知远团队大模型公开课全网首发|带你从入门到实战-知乎

一、自然语言处理基础

1.1 自然语言处理的基本任务

让计算机理解人所说的文本 语音

  • 词性标注:区分每个词名词、动词、形容词等词性
  • 命名实体的识别:名词的具体指代是哪一类事物
  • 共指消解:代词指代的是前面哪一个实体
  • 句法关系:主谓宾这种
  • 中文的自动分词:标注词和词间的空格

1.2 词表示

  • 独热编码 One-Hot
  • 上下文 Co-Occurrence Counts
  • 词向量 Word Embedding——Word2Vec
    将词汇投射到低维向量空间

1.3 语言模型

  • 传统语言模型 计算概率分布
    基本假设:一个未来的词,只会受到前面的词的影响
    根据前面出现N - 1个词,计算第N个词的概率是多少
  • 神经网络模型 词向量处理
    循环神经网络RNN、 门控循环单元GRU、长短期神经网络LTSM、双向RNN、卷积神经网络CNN
    Transformer: Attention注意力机制、 Encoder-Decoder结构、更优秀的长文本处理能力
  • 大模型(预训练语言模型PLM)
    BERT、GPT、T5

1.4 NLP的应用

搜索引擎、知识图谱、机器阅读、人类助手、机器翻译、情感分类和意见挖掘、计算社会科学

二、大模型相关知识

大模型范式 = 预训练(无标注、自监督) + 微调

2.1 预训练大模型

  • Encoder-Only BERT派
    分析故事的专家
    两大基本任务:

    • 完形填空(maskerd language modeling)
    • 句子关系预测(sentence relationship prediction)
  • Decoder-Only GPT派
    讲故事的专家
    自回归训练、搜索空间小
    发展:GPT2->Gopher/Chinchilla->LLaMA

    • Gopher:验证扩大模型规模处理复杂任务
    • Chinchilla:增加数据比增加模型参数更有效
    • LLaMA:更小参数量实现GPT级性能
  • Encoder-Decoder T5派

2.1.1 常见大模型的参数大小

OpenAI GPT2 12B参数
OpenAI GPT3 175B参数
ChatGLM-6B 62B参数 130G模型大小
Chinese-Llama-2-7b-ggml-q4 3.8G模型大小

2.1.2 Huggingface-Transformers 库

环境配置

pip3 install torch torchvision torchaudio
pip3 install transformers

本地实践参考链接

本地使用huggingface transformers的预训练大模型-知乎

ChatGLM-6B模型加载-知乎

构建能够使用 CPU 运行的 MetaAI LLaMA2 中文大模型-知乎

2.2 微调

2.2.1 Prompt Engineering 提示词工程

  • 明确、具体是关键
  • 思维链技术:Chain-of-Thought
  • 自一致性技术:Self-Consistency
  • 从易至难技术:Least-to-Most

2.2.2 Delta Tuning 参数高效微调

  • 增量式 重新增加一组参数
  • 指定式 指定微调哪一部分参数
  • 重参数化 指定对哪一部分的参数进行重新设计

2.3 大模型高效计算OpenBMB

2.3.1 训练

数据并行、模型并行、流水线并行、混合精度训练等

2.3.2 推理、压缩

知识蒸馏、模型剪支、模型量化

2.4 大模型应用

信息检索、机器问答、文本生成
生物医学、法律、脑科学


http://www.ppmy.cn/news/1555999.html

相关文章

6.2 MapReduce工作原理

MapReduce工作原理涉及将大数据集分割成小块并行处理。Map任务读取数据块并输出中间键值对,而Reduce任务则处理这些排序后的数据以生成最终结果。MapTask工作包括读取数据、应用Map函数、收集输出、内存溢出时写入磁盘以及可选的Combiner局部聚合。ReduceTask工作则…

python之使用SFTP将Windows文件上传到Linux

环境 Python-3.8 Windows 64位安装必要的库 首先,确保已经安装了以下库: #有网安装方式: pip install paramiko #离线安装方式: pip install bcrypt-3.1.7-cp38-cp38-win_amd64.whl pip install cryptography-2.9-cp38-cp38-wi…

React中组件通信的几种方式

在构建复杂的React应用时,组件之间的通信是至关重要的。从简单的父子组件通信到跨组件状态同步,不同组件之间的通信方式多种多样。 1. 父子组件通信 父子组件通信是 React 中最基本的通信方式之一。在这种模式下,数据是从父组件通过 props …

关于stm32的STOP模式

1.停止模式唤醒后从哪里执行? 停止模式特性: MCU 在进入停止模式时,会保存当前的上下文(包括程序计数器和寄存器状态)。当有有效的唤醒事件时,MCU 会退出停止模式,并从进入模式时暂停的指令处继…

C#—泛型约束

C#—泛型约束 概念: 泛型约束就是告知编译器类型参数必须具备的功能。 在没有任何约束的情况下,类型参数可以是任何类型。 编译器只能假定 System.Object 的成员,它是任何 .NET 类型的最终基类。当分配给泛型的类型参数不满足约束的类型时&…

RabbitMQ中的Work Queues模式

在现代分布式系统中,消息队列(Message Queue)是实现异步通信和解耦系统的关键组件之一。RabbitMQ 是一个广泛使用的开源消息代理软件,支持多种消息传递模式。其中,Work Queues(工作队列)模式是一…

nginx问题总结

问题记录: 默认网络下部署nginx,挂载nginx.conf文件,提示:nginx: [emerg] host not found in upstream "shop" in /etc/nginx/nginx.conf:29。nginx配置内容: location /api {rewrite /api/(.*) /$1 break;…

Web身份认证 --- Session和JWT Token

Web 身份认证 --- Session和JWT Token 方法一: 通过使用Session进行身份认证方法二: 通过JWT token进行身份认证什么是JWTJWT完整流程JWT攻防JWT 如何退出登录JWT的续签 方法一: 通过使用Session进行身份认证 用户第一次请求服务器的时候,服务器根据用户提交的相关信…