NLP高频面试题(七)——GPT和Bert的mask有什么区别?

news/2025/3/25 17:13:01/

GPT 和 BERT 的 Mask 机制对比:核心区别与优化策略

在NLP领域,GPT 和 BERT 是最具代表性的预训练语言模型之一。它们都在训练过程中使用了 Mask 机制来引导模型学习语言表示,但具体实现方式和目标却有所不同。本文将深入探讨 GPT 和 BERT 的 Mask 方法的核心区别,并分析其优化策略。

1. BERT 的 Mask 机制:基于 MLM(Masked Language Model)

BERT(Bidirectional Encoder Representations from Transformers)采用 (Masked Language Model) 进行训练,即在输入文本中随机 Mask 掉部分 token,让模型在上下文中预测这些被 Mask 掉的 token。

BERT 的 Mask 方式具有以下特点:

  • Token 级别的 Mask:BERT 会随机选择一定比例的 token 并用 [MASK] 进行替换,例如:

    “I love [MASK] dogs.”
    这里的 my 可能会被 Mask 掉,模型需要结合上下文来预测原始词。

  • 基于子词(Subword)级别的 Mask:BERT 采用 BPE(Byte-Pair Encoding) 或 WordPiece 进行分词,一个单词可能被拆分成多个子词(subword)。
    例如:

    “running” → [“run”, “##ning”]
    如果只 Mask 掉 “##ning”,模型很容易猜测出原单词是 “running”。

  • Mask 预测的优化

    • Span Mask(片段 Mask):后续研究发现,单独 Mask 子词会让任务变得过于简单,因此提出了 Span Mask,即将整个单词或一段短语整体 Mask 掉,从而增加任务的难度。
    • 命名实体 Mask(适用于中文):中文的分词方式不同于英文,百度等团队在优化 BERT 训练时提出 Named Entity Masking(命名实体 Mask),专门对人名、地名等实体进行 Mask,使模型更好地学习实体识别能力。

2. GPT 的 Mask 机制:基于 CLM(Causal Language Model)

与 BERT 不同,GPT(Generative Pre-trained Transformer)采用的是 自回归语言模型(Causal Language Model, CLM),其训练目标是通过前面的词预测下一个词,而不是填补 Mask 掉的部分。因此,GPT 并不使用 [MASK],而是通过 自回归(Autoregressive) 方式进行训练,即:

“I love my” → 预测 “dog”

GPT 训练时,模型只能看到当前词及其之前的词,而不能看到未来的词,因此它的 Mask 机制表现为单向(从左到右)遮蔽

  • 自回归 Mask(Causal Mask):在 Transformer 计算注意力时,GPT 采用一个 上三角 Mask,即屏蔽掉当前 token 之后的所有 token,只能依赖前面的词信息进行预测。
  • 无显式 Mask Token:GPT 没有 [MASK],而是通过连续生成下一个词的方式进行学习,并应用于文本生成任务,如 OpenAI 的 ChatGPT。

这种 Mask 方式的主要优点是适用于 文本生成任务,如对话生成、自动写作等,但缺点是缺乏双向信息,可能导致对上下文的理解不如 BERT 深入。

3. GPT vs. BERT 的 Mask 机制对比

BERT(MLM)GPT(CLM)
Mask 方式随机 Mask 句子中的 token通过左到右的自回归预测下一个词
训练目标预测被 Mask 掉的 token预测下一个 token
注意力机制双向注意力(可以看到左右两侧的上下文)单向注意力(只能看到前面的 token)
适用任务适用于 NLP 理解任务,如文本分类、命名实体识别、阅读理解等适用于文本生成任务,如对话系统、自动写作等

http://www.ppmy.cn/news/1582478.html

相关文章

#13【CVPR2024】“不确定性不是敌人”:深入剖析多模态融合中的不确定性

📜 Embracing Unimodal Aleatoric Uncertainty for Robust Multimodal Fusion 本文没有源码,适合基础好的读者 🍞 1:研究背景与问题定义 🍫 1.1 多模态融合的黄金承诺与现实落差 在人工智能的迅猛发展浪潮中,多模态学习(Multimodal Learning)扮演着越来越重要的角…

【蓝桥杯每日一题】3.17

🏝️专栏: 【蓝桥杯备篇】 🌅主页: f狐o狸x 他们说内存泄漏是bug,我说这是系统在逼我进化成SSR级程序员 OK来吧,不多废话,今天来点有难度的:二进制枚举 二进制枚举,就是…

Touch Diver:Weart为XR和机器人遥操作专属设计的触觉反馈动捕手套

在虚拟现实(VR)和扩展现实(XR)领域,触觉反馈技术正逐渐成为提升沉浸感和交互体验的重要因素。Weart作为这一领域的创新者,凭借其TouchDIVER Pro和TouchDIVER G1触觉手套,为用户带来了高度逼真的…

MyBatis XML配置从零开始:高效处理数据库映射与查询!!!

目录 一、前言二、MyBatis XML 方式实现增删改查2.1 配置连接字符串和MyBatis2.2 持久层代码2.3 单元测试2.4 增(insert)2.5 删(delete)2.6改(update)2.7 查(select)2.8 总结 一、前言 在上一篇博客中,我们详细探讨了 …

Flink 通过 Chunjun Oracle LogMiner 实时读取 Oracle 变更日志并写入 Doris 的方案

文章目录 一、 技术背景二、 关键技术1、 Oracle LogMiner2、 Chunjun 的 LogMiner 关键流程3、修复 Chunjun Oracle LogMiner 问题 一、 技术背景 在大数据实时同步场景中,需要将 Oracle 数据库的变更数据(CDC) 采集并写入 Apache Doris&am…

基于Azure Delta Lake和Databricks的安全数据共享(Delta Sharing)

设计Azure云架构方案实现Azure Delta Lake和Azure Databricks的安全数据共享(Delta Sharing),实现安全分发数据,生成只读共享链接(Bearer Token),第三方可直接查询 Azure 数据(无需复…

Agent Team 多智能体系统解析

引言 在人工智能技术高速发展的今天,"多智能体协作系统"(Agent Team)正成为突破效率瓶颈的关键技术。与传统的单体AI不同,这种由多个专业化智能体组成的协同网络,通过分工协作和动态调整,展现出…

AI代理到底怎么玩?

摘要 当前AI Agent和RAG(检索增强生成)最流行的架构包括基础RAG、代理式RAG路由、查询规划代理式RAG等,研究表明这些架构在提升AI性能方面效果显著。代理式RAG架构允许AI根据查询动态选择工具或数据源,证据倾向于其在复杂任务中表…