【文本】词嵌入经典模型:从one-hot到BERT

devtools/2025/2/26 0:27:08/

【文本】词嵌入经典模型:从one-hot到BERT

one-hot编码(独热编码):

  • 根据词表的所有词构建一个向量特征。每一个文段中每个单词有一个词向量(二进制且只有一位为1) — 稀疏、缺乏语义(father&mother;like&love)

word2vec编码:

  • 原则:“一个词被周围的词所代表”
    • 有两种模型:CBOW(Continuous Bag of Words) 上下文单词预测目标单词(完形填空)Skip-Gram 目标单词预测上下文单词(造句),中心词可替换,上下文不变,那就是相似的词
  • 步骤:
    • 随机初始化向量表示,经历无数次训练(如下)
    • 正样本:-(正向传播)将中心词和上下文两个词向量输入神经网络,模型中输出的是“是否为上下文的概率”-(反向传播)概率不符合实际(损失函数大),则更新神经网络模型的参数(根据梯度调整权重),以及两个词的向量表达,使得下次预测更接近于1(学到了中心词的语义)
    • 负样本:使其概率更接近0
  • — 确乏全文信息;无法解决一词多义

Bert模型

  • Bert模型基于transformer架构,加入句向量(解决全文信息),可以处理一词多义
  • 苹果(中心词)的语义信息,由句子内所有上下文的单词有关,整个句子信息都要混入当前单词中(self-attention,用文本中的更多上下词,增加目标此语义,中心词语义=∑所有词*权重,权重由模型训练)
  • — 考虑完形填空(MLM任务),在训练时随机替换句子中一些词为mask。一个单词被mask掉后,根据句子中其他词的语义中混合的信息,反向猜出被mask的词,输出的mask词预测是一个概率分布,表示每个单词被成功预测的概率,目标是向1训练(减少损失函数);没有负样本训练。
  • — 考虑续写(NSP任务),即句子间训练(模型接收一对句子,判断第二个句子是否是第一个句子的下一句),帮助理解句子间逻辑
    • — CLS特殊符号,排入开头位值,但是没有自己语义(所以能够表示整个句子信息—存在争议)

http://www.ppmy.cn/devtools/162679.html

相关文章

垂类大模型微调(二):使用LLaMA-Factory

上一篇博文和大家一起安装了LLaMA-Factory工具,并下载了大模型在上面进行了简单的加载和推理,今天尝试通过LoRa技术对大模型进行微调; 一、训练集准备 1.1 介绍训练集结构 这里演示对Qwen2.5-0.5B-Instruct-GPTQ-Int4模型进行LoRA微调, 大家可以根据垂类大模型微调(一)…

直播美颜工具架构设计与性能优化实战:美颜SDK集成与实时处理

当下,直播美颜工具的架构设计与性能优化显得尤为重要,尤其是在集成美颜SDK与实时图像处理的过程中。本文将围绕直播美颜工具的架构设计与性能优化展开探讨,分享美颜SDK集成与实时处理的技术实战。 一、直播美颜工具架构设计的核心要素 在直播…

css文本两端对齐

实现样式 实现代码 text-align: justify; text-align-last: justify;

基于Django的手办交易平台~源码

博主介绍:✌程序猿徐师兄、8年大厂程序员经历。全网粉丝15w、csdn博客专家、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战✌ 🍅文末获取源码联系🍅 👇🏻 精彩专栏推荐订阅👇…

Python爬虫selenium验证-中文识别点选+图片验证码案例

1.获取图片 import re import time import ddddocr import requests from selenium import webdriver from selenium.webdriver.common.by import By from selenium.webdriver.chrome.service import Service from selenium.webdriver.support.wait import WebDriverWait from …

华为动态路由-OSPF-完全末梢区域

华为动态路由-OSPF-完全末梢区域 一、OSPF简介 1、OSPF概述 OSPF是一种开放式的、基于链路状态的内部网关协议(IGP),用于在自治系统内部进行路由选择和通信。 OSPF是互联网工程任务组(IETF)定义的标准之一&#xff…

前端面试题之HTML篇

1.src和href的区别 src用于替换当前元素,href用于在当前文档和引用资源之间确立联系。 src可用于img、input、style、script、iframe---同步加载执行 href可用于link、a---异步 1.用途不同 src 用于引入外部资源,通常是图像、视频、JavaScript 文件等&am…

Docker内存芭蕾:优雅调整容器内存的极限艺术

title: “💾 Docker内存芭蕾:优雅调整容器内存的极限艺术” author: “Cjs” date: “2025-2-23” emoji: “🩰💥📊” 当你的容器变成内存吸血鬼时… 🚀 完美内存编排示范 📜 智能内存管家脚本…