NLP大模型学习总结

server/2024/12/16 19:06:56/

参考课程

【清华NLP】刘知远团队大模型公开课全网首发|带你从入门到实战-知乎

一、自然语言处理基础

1.1 自然语言处理的基本任务

让计算机理解人所说的文本 语音

  • 词性标注:区分每个词名词、动词、形容词等词性
  • 命名实体的识别:名词的具体指代是哪一类事物
  • 共指消解:代词指代的是前面哪一个实体
  • 句法关系:主谓宾这种
  • 中文的自动分词:标注词和词间的空格

1.2 词表示

  • 独热编码 One-Hot
  • 上下文 Co-Occurrence Counts
  • 词向量 Word Embedding——Word2Vec
    将词汇投射到低维向量空间

1.3 语言模型

  • 传统语言模型 计算概率分布
    基本假设:一个未来的词,只会受到前面的词的影响
    根据前面出现N - 1个词,计算第N个词的概率是多少
  • 神经网络模型 词向量处理
    循环神经网络RNN、 门控循环单元GRU、长短期神经网络LTSM、双向RNN、卷积神经网络CNN
    Transformer: Attention注意力机制、 Encoder-Decoder结构、更优秀的长文本处理能力
  • 大模型(预训练语言模型PLM)
    BERT、GPT、T5

1.4 NLP的应用

搜索引擎、知识图谱、机器阅读、人类助手、机器翻译、情感分类和意见挖掘、计算社会科学

二、大模型相关知识

大模型范式 = 预训练(无标注、自监督) + 微调

2.1 预训练大模型

  • Encoder-Only BERT派
    分析故事的专家
    两大基本任务:

    • 完形填空(maskerd language modeling)
    • 句子关系预测(sentence relationship prediction)
  • Decoder-Only GPT派
    讲故事的专家
    自回归训练、搜索空间小
    发展:GPT2->Gopher/Chinchilla->LLaMA

    • Gopher:验证扩大模型规模处理复杂任务
    • Chinchilla:增加数据比增加模型参数更有效
    • LLaMA:更小参数量实现GPT级性能
  • Encoder-Decoder T5派

2.1.1 常见大模型的参数大小

OpenAI GPT2 12B参数
OpenAI GPT3 175B参数
ChatGLM-6B 62B参数 130G模型大小
Chinese-Llama-2-7b-ggml-q4 3.8G模型大小

2.1.2 Huggingface-Transformers 库

环境配置

pip3 install torch torchvision torchaudio
pip3 install transformers

本地实践参考链接

本地使用huggingface transformers的预训练大模型-知乎

ChatGLM-6B模型加载-知乎

构建能够使用 CPU 运行的 MetaAI LLaMA2 中文大模型-知乎

2.2 微调

2.2.1 Prompt Engineering 提示词工程

  • 明确、具体是关键
  • 思维链技术:Chain-of-Thought
  • 自一致性技术:Self-Consistency
  • 从易至难技术:Least-to-Most

2.2.2 Delta Tuning 参数高效微调

  • 增量式 重新增加一组参数
  • 指定式 指定微调哪一部分参数
  • 重参数化 指定对哪一部分的参数进行重新设计

2.3 大模型高效计算OpenBMB

2.3.1 训练

数据并行、模型并行、流水线并行、混合精度训练等

2.3.2 推理、压缩

知识蒸馏、模型剪支、模型量化

2.4 大模型应用

信息检索、机器问答、文本生成
生物医学、法律、脑科学


http://www.ppmy.cn/server/150703.html

相关文章

昇思25天学习打卡营第33天|共赴算力时代

文章目录 一、平台简介二、深度学习模型2.1 处理数据集2.2 模型训练2.3 加载模型 三、共赴算力时代 一、平台简介 昇思大模型平台,就像是AI学习者和开发者的超级基地,这里不仅提供丰富的项目、模型和大模型体验,还有一大堆经典数据集任你挑。…

简单的Java小项目

学生选课系统 在控制台输入输出信息&#xff1a; 在eclipse上面的超级简单文件结构&#xff1a; Main.java package experiment_4;import java.util.*; import java.io.*;public class Main {public static List<Course> courseList new ArrayList<>();publi…

Unreal的Audio::IAudioCaptureStream在Android中录制数据异常

修改OpenAudioCaptureStream启动参数为PCM_32&#xff0c;在PC上正常&#xff0c;在Android系统&#xff0c;读取的的数据计算出的音量值在0.4-0.6之间跳动&#xff0c;数据异常。 Audio::FAudioCaptureDeviceParams Params;/** 设置声卡不支持的采样数和通道数开始音频流不会成…

iOS 18.2 今天正式推送更新,带来了备受瞩目的 ChatGPT 集成以及更多 Apple Intelligence 工具

每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗&#xff1f;订阅我们的简报&#xff0c;深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同&#xff0c;从行业内部的深度分析和实用指南中受益。不要错过这个机会&#xff0c;成为AI领…

【C++】sophus : rotation_matrix.hpp 处理旋转矩阵的辅助函数 (二)

这段代码属于Sophus 命名空间&#xff0c;提供了一些处理旋转矩阵的辅助函数&#xff0c;具体功能如下&#xff1a; isOrthogonal函数&#xff1a; 用途&#xff1a;检查一个方阵是否为正交矩阵。实现方法&#xff1a;通过计算矩阵与其转置矩阵相乘后与单位矩阵的差值的范数是否…

家校通小程序实战教程09搭建部门管理APIs

目录 1 创建APIs2 完整代码3 代码解释3.1 获取原始数据3.2 平铺数据3.3 构建树形结构3.4 组装树形结构3.5 数据返回 4 执行测试总结 我们现在已经调用了antd实现了前端的界面&#xff0c;光有界面还是不够的&#xff0c;还需要和数据源进行交互&#xff0c;本节介绍后端API的搭…

Flutter踩坑记录(一)debug运行生成的项目,不能手动点击运行

问题 IOS14设备&#xff0c;切后台划掉&#xff0c;二次启动崩溃。 原因 IOS14以上 flutter 不支持debugger模式下的二次启动 。 要二次启动需要以release方式编译工程安装至手机。 操作步骤 清理项目&#xff1a;在命令行中运行flutter clean来清理之前的构建文件。重新构…

css 权重

发现宝藏 前些天发现了一个巨牛的人工智能学习网站&#xff0c;通俗易懂&#xff0c;风趣幽默&#xff0c;忍不住分享一下给大家。【宝藏入口】。 CSS 权重&#xff08;或称为 CSS 优先级&#xff09;决定了当多个 CSS 规则作用于同一元素时&#xff0c;哪一条规则会被应用。…