【生成模型系列(初级)】嵌入(Embedding)方程——自然语言处理的数学灵魂【通俗理解】

news/2024/9/16 22:39:53/ 标签: embedding, 自然语言处理, easyui

【通俗理解】嵌入(Embedding)方程——自然语言处理的数学灵魂

关键词提炼

#嵌入方程 #自然语言处理 #词向量 #机器学习 #神经网络 #向量空间模型 #Siri #Google翻译 #AlexNet

第一节:嵌入方程的类比与核心概念【尽可能通俗】

嵌入方程可以被看作是自然语言处理中的“翻译机”,它将文本中的单词或短语转换成计算机能够理解的数学形式,即向量。
正如翻译机将一种语言转换成另一种语言,嵌入方程将自然语言转换成向量语言,使得机器能够进行后续的处理和分析。

第二节:嵌入方程的核心概念与应用

2.1 核心概念

核心概念定义比喻或解释
词向量(V)代表单词在向量空间中的表示,每个单词对应一个唯一的向量。就像每个人都有自己的身份证,每个单词也有一个独特的向量标识。
嵌入矩阵(E)一个包含所有词向量的矩阵,每一行代表一个单词的向量。就像一本词典,每一页都记录了一个单词的信息。
上下文窗口(C)在训练词向量时,考虑的单词周围的其他单词的范围。就像看一个字,不仅要看这个字本身,还要看它前后的字来理解它的意思。

2.2 优势与劣势【重点在劣势】

方面描述
优势能够将自然语言转换成机器可理解的数学形式,为后续的机器学习算法提供输入。能够捕捉单词之间的语义关系,使得机器能够进行更复杂的语言处理任务。
劣势嵌入方程的选择和训练过程较为复杂,需要大量的数据和计算资源。对于稀有词或新词,可能无法得到准确的向量表示。

2.3 与自然语言处理的类比

嵌入方程在自然语言处理中扮演着“桥梁”的角色,它连接了自然语言和机器学习算法,使得机器能够理解和处理人类的语言。就像桥梁连接了两岸,使得人们能够方便地通行。

在这里插入图片描述

第三节:公式探索与推演运算【重点在推导】

3.1 嵌入方程的基本形式

嵌入方程的基本形式可以表示为:

V = E ⋅ W V = E \cdot W V=EW

其中, V V V 是词向量的矩阵, E E E 是嵌入矩阵, W W W 是单词的one-hot编码矩阵。

3.2 具体实例与推演【尽可能详细全面】

假设我们有一个包含三个单词的词典:{“apple”, “banana”, “cherry”},每个单词用一个3维的向量表示。那么,我们的嵌入矩阵 E E E 可以表示为:

E = [ e a p p l e 1 e a p p l e 2 e a p p l e 3 e b a n a n a 1 e b a n a n a 2 e b a n a n a 3 e c h e r r y 1 e c h e r r y 2 e c h e r r y 3 ] E = \begin{bmatrix} e_{apple1} & e_{apple2} & e_{apple3} \\ e_{banana1} & e_{banana2} & e_{banana3} \\ e_{cherry1} & e_{cherry2} & e_{cherry3} \end{bmatrix} E= eapple1ebanana1echerry1eapple2ebanana2echerry2eapple3ebanana3echerry3

对于单词 “apple”,其one-hot编码 W a p p l e W_{apple} Wapple 为:

W a p p l e = [ 1 0 0 ] W_{apple} = \begin{bmatrix} 1 \\ 0 \\ 0 \end{bmatrix} Wapple= 100

那么,单词 “apple” 的词向量 V a p p l e V_{apple} Vapple 可以通过嵌入方程计算得到:

V a p p l e = E ⋅ W a p p l e = [ e a p p l e 1 e a p p l e 2 e a p p l e 3 ] V_{apple} = E \cdot W_{apple} = \begin{bmatrix} e_{apple1} \\ e_{apple2} \\ e_{apple3} \end{bmatrix} Vapple=EWapple= eapple1eapple2eapple3

同理,我们可以得到其他单词的词向量。

在这里插入图片描述

第四节:相似公式比对【重点在差异】

公式/模型共同点不同点
嵌入方程都涉及将文本转换成向量表示。嵌入方程专注于单词或短语的向量表示,用于自然语言处理
词袋模型(Bag-of-Words)词袋模型也是将文本转换成向量,但它是基于单词出现的频率,而嵌入方程考虑的是单词的语义关系。
TF-IDFTF-IDF也是文本向量化的一种方法,但它更侧重于单词在文档中的重要性,而嵌入方程更侧重于单词之间的语义关系。

第五节:核心代码与可视化

这段代码使用Python和TensorFlow库训练了一个简单的词嵌入模型,并绘制了词向量的散点图。通过可视化,我们可以直观地看到单词在向量空间中的分布。

import tensorflow as tf
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.manifold import TSNE# Define the vocabulary and some sample sentences
vocabulary = ['apple', 'banana', 'cherry', 'dog', 'cat']
sentences = ["The apple is red","The banana is yellow","The cherry is red","The dog is brown","The cat is black"
]# Convert sentences to indices
tokenized_sentences = [[vocabulary.index(word) for word in sentence.split()] for sentence in sentences]# Define the embedding model using TensorFlow
embedding_dim = 3  # 3-dimensional embeddings
model = tf.keras.Sequential([tf.keras.layers.Embedding(input_dim=len(vocabulary), output_dim=embedding_dim, input_length=5)
])# Compile the model (not necessary for embedding generation, but useful for training)
model.compile(optimizer='adam', loss='sparse_categorical_crossentropy')# Get the embedding weights (this is the embedding matrix)
embedding_matrix = model.layers[0].get_weights()[0]# Print the embedding matrix
print("Embedding Matrix:\n", embedding_matrix)# Use TSNE to reduce the dimensionality of the embedding vectors for visualization
tsne = TSNE(n_components=2, random_state=0)
embedding_vectors_2d = tsne.fit_transform(embedding_matrix)# Create a DataFrame for visualization
import pandas as pd
df = pd.DataFrame(embedding_vectors_2d, columns=['x', 'y'])
df['word'] = vocabulary# Visualize the results and beautify with Seaborn
sns.set_theme(style="whitegrid")
plt.figure(figsize=(10, 6))
sns.scatterplot(x='x', y='y', hue='word', data=df, palette='viridis', s=100)
plt.title('Word Embeddings Visualization')
plt.xlabel('x')
plt.ylabel('y')
plt.legend(title='Word')
plt.show()# Printing more detailed output information
print("\nWord Embeddings Visualization has been generated and displayed.\nEach point in the scatter plot represents a word,\nand its position is determined by its embedding vector.")# Output the embedding vectors for each word
for word, vector in zip(vocabulary, embedding_matrix):print(f"Embedding vector for '{word}': {vector}")
输出内容描述
嵌入矩阵打印了嵌入矩阵的数值。
词向量散点图显示了单词在向量空间中的2D分布。
图表标题、x轴标签、y轴标签和图例提供了图表的基本信息和说明。
详细的输出信息(打印到控制台)提供了关于词向量散点图的详细解释和每个单词的嵌入向量。

http://www.ppmy.cn/news/1522526.html

相关文章

C#/.NET/.NET Core推荐学习路线文档文章

前言 专门为C#/.NET/.NET Core推荐学习路线&文档&文章提供的一个Issues,各位小伙伴可以把自己觉得不错的学习路线、文档、文章相关地址分享出来🤞。 https://github.com/YSGStudyHards/DotNetGuide/issues/10 🏷️C#/.NET/.NET Cor…

【C++】栈和队列、优先级队列、适配器原理

目录 一.栈和队列相关接口 二.适配器介绍 三.栈和队列模拟实现 四.deque介绍 五.优先级队列 六.优先级队列的模拟实现 1.基本结构 2.插入删除操作 一.栈和队列相关接口 1.栈(Stack)的接口 由于栈接口只能支持栈顶插入(入栈&#xff0…

机器学习-神经网络:循环神经网络(RNN)详解

引言 在当今人工智能(AI)和深度学习(DL)领域,循环神经网络(RNN)作为一种专门处理序列数据的模型,具有不可忽视的重要性。RNN 的设计目标是模拟和处理序列中的时间依赖关系,使其成为许多应用场景的理想选择,如自然语言处理(NLP)、时间序列预测和语音识别等。它不仅…

2024年高教社杯数学建模国赛C题超详细解题思路分析

本次国赛预测题目难度,选题人数如下所示 难度评估 A:B:C 1.8:1.3:1 D:E1.5:1 选题人数 A:B:C 1:1.5:2.8 D:E0.5:1.2 C题一直以来都是竞赛难度最低、选题人数最多的一道本科生选题,近三年C题的选题人数一直都是总参赛队伍的一半左右,2023年…

ComfyUI 基础教程—— 应用 Controlnet 精准控制图像生成

一、前言 你是否有见过下面类似这样的图片: 看起来平平无奇,当你站远点看,或者把眼睛眯成一条缝了看,你会发现,这个图中藏有一些特别的元素。这就是利用了 Ai 绘画中的 ControlNet,实现对图片的相对更精…

高分辨率音频和传统音频区别

是不是很好奇高分辨率音频和传统音频区别在那里?什么场景更需要高分辨率音频?下面我们一起来理解一下。 高分辨率音频和传统音频主要区别在于其音质和数据的详细程度: 分辨率:高分辨率音频的采样率和比特深度高于传统音频。例如…

通过组合Self-XSS + CSRF得到存储型XSS

在一次漏洞赏金挖掘中,我在更改用户名的功能点出发现了一个XSS,在修改用户名的地方添加了一个简单的XSS payload并且刷新页面: 用户设置面板 XSS证明 但是问题是这个功能配置并不是公共的,造成XSS漏洞的唯一方法是告诉受害者将其…

【B题第二套完整论文已出】2024数模国赛B题第二套完整论文+可运行代码参考(无偿分享)

2024数模国赛B题完整论文 摘要: 随着电子产品制造业的快速发展,质量控制与成本优化问题成为生产过程中亟待解决的核心挑战。为应对生产环节中的质量不确定性及成本控制需求,本文结合抽样检测理论和成本效益分析,通过构建数学模型…

【最新】高效可用的Docker仓库源

1.背景 在安装k8s过程中,遇到了docker拉取镜像失败的问题,换了很多仓库源,要么是慢,要么是失效了。在不断踩坑过程中,居然发现了一个比较好用的仓库源:毫秒镜像,赶紧分享出来。如果哪天失效了&…

两种在wordpress网站首页调用woocommerce产品的方法

要在WordPress网站首页调用WooCommerce产品,您可以使用以下方法: 方法1:使用WooCommerce Shortcode WooCommerce提供了一个内置的shortcode,可以直接在WordPress页面或帖子中插入产品。要在首页显示指定数量的产品,请…

ELK笔记

要搞成这样就需要钱来买服务器 开发人员一般不会给服务器权限,不能到服务器上直接看日志,所以通过ELK看日志。不让开发登录服务器。即使你查出来是开发的问题,费时间,而且影响了业务了,就是运维的问题 开发也不能登录…

uni-app流式接受消息/文件

uni-app流式接受消息/文件 问题描述 今天利用fastgpt搭建了一个局域网进行访问Ai助理,在前端通过api接口进行请求,用于接收后端的发送的流式消息,那么前端可以进行流式的获取到这个消息,也可以进行直接进行在请求发送完成以后&a…

src/pyaudio/device_api.c:9:10: fatal error: portaudio.h: 没有那个文件或目录

(venv) shgbitaishgbitai-C9X299-PGF:~/pythonworkspace/ai-accompany$ pip install pyaudio sounddevice Collecting pyaudioDownloading PyAudio-0.2.14.tar.gz (47 kB)━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 47.1/47.1 kB 644.…

Linux中的Vim文本编辑器

Linux中的Vim是一个非常强大的文本编辑器,它提供了丰富的命令来支持各种文本编辑操作。以下是一个Vim常用命令的详细总结,涵盖了基本操作、编辑命令、移动光标、查找替换、保存退出等多个方面。 一、基本操作 启动Vim vim:直接启动Vim编辑器…

Rust模块std::thread

【图书介绍】《Rust编程与项目实战》-CSDN博客 《Rust编程与项目实战》(朱文伟,李建英)【摘要 书评 试读】- 京东图书 (jd.com) Rust到底值不值得学,之一 -CSDN博客 Rust到底值不值得学,之二-CSDN博客 Rust多线程编程概述-CSDN博客 12.…

4 路由模式

路由模式 逻辑图 如果我们将生产环境的日志进行处理,而日志是分等级的,我们就按照 error waring info三个等级来讲解 一个消费者是处理【所有】(info,error,warning)的日志,用于做数据仓库&am…

简说目前市面上最流行的“AI Agentic”

背景 当吴恩达在布道完著名的Agent设计模式后 他于不久后又引领了AI界的开发们开始关注另一种高级开发模式,即"Agentic",吴恩达多次反复强调:“Agentic是比Agent更具未来”。 那么什么是Agentic呢? 什么是AI Agentic…

新换了电脑,电脑里常用的6款软件,下载回来继续用

新换了电脑,准备把之前电脑里常用的几款软件都下载回来继续用,独乐乐不如众乐乐,分享一下~ 1、Listen 1 一款开源、免费的音乐播放器,它能够整合多个主流音乐平台的资源,包括网易云音乐、QQ音乐、酷狗音乐、酷我音乐、…

[SWPUCTF 2021 新生赛]web方向(一到六题) 解题思路,实操解析,解题软件使用,解题方法教程

题目来源 NSSCTF | 在线CTF平台因为热爱,所以长远!NSSCTF平台秉承着开放、自由、共享的精神,欢迎每一个CTFer使用。https://www.nssctf.cn/problem [SWPUCTF 2021 新生赛]gift_F12 这个题目简单打开后是一个网页 我们一般按F12或者是右键查…

WorkPlus安全即时通讯:端到端加密开启信息保密新时代

在数字化时代,信息的保密性和安全性变得越发重要。企业和个人需要确保他们的敏感信息和机密通讯不会落入黑客或第三方的手中。为了满足这一需求,WorkPlus安全即时通讯平台应运而生。作为一款拥有端到端加密功能的通讯平台,WorkPlus着重于保护…