NLP基础——语言模型(动手学深度学习)

news/2024/11/15 0:27:28/

语言模型

联合概率

给定文本序列 x 1 , ⋯ , x t x_1,\cdots,x_t x1,,xt语言模型的目标是估计联合概率 P ( x 1 , ⋯ , x t ) P(x_1,\cdots,x_t) P(x1,,xt). 这里的 x t x_t xt 可以认为是文本序列在时间步 t t t 处的观测或标签,而所谓联合概率指的是一个句子的整体概率,即句子中所有单词相继出现的概率。

语言模型的用处:可以在语音识别上解决同音句歧义问题和断句问题。

语言建模

根据上一节中的序列模型的分析,有基础概率规则: P ( x 1 , x 2 , ⋯ , x T ) = ∏ t = 1 T P ( x t ∣ x 1 , ⋯ , x t − 1 ) P(x_1,x_2,\cdots,x_T)=\prod_{t=1}^TP(x_t|x_1,\cdots,x_{t-1}) P(x1,x2,,xT)=t=1TP(xtx1,,xt1)例如一个四个单词的文本序列的概率表示为: P ( d e e p , l e a r n i n g , i s , f u n ) = P ( d e e p ) P ( l e a r n i n g ∣ d e e p ) P ( i s ∣ d e e p , l e a r n i n g ) P ( f u n ∣ d e e p , l e a r n i n g , i s ) P(deep,learning,is,fun)=P(deep)P(learning|deep)P(is|deep,learning)P(fun|deep,learning,is) P(deep,learning,is,fun)=P(deep)P(learningdeep)P(isdeep,learning)P(fundeep,learning,is)

为了训练语言模型,我们需要计算单词的概率, 以及给定前面几个单词后出现某个单词的条件概率。 这些概率本质上就是语言模型的参数。

计数建模

最容易想到的方法是统计单词(词元)在数据集中出现的次数,然后除以整个语料库的单词总数。例如: P ( l e a r n i n g ∣ d e e p ) = n ( d e e p , l e a r n i n g ) n ( d e e p ) P(learning|deep)=\frac{n(deep,learning)}{n(deep)} P(learningdeep)=n(deep)n(deep,learning) 其中 n ( x ) , n ( x , x ‘ ) n(x),n(x,x`) n(x),n(x,x) 分别表示单个单词和连续单词出现次数。

这种方法在一些高频词上表现的不错,但是在一些低频词和长句多单词组合的情况表现不佳,因为可能语料库中这样的数据很少,即使提出了一些解决办法如拉普拉斯平滑(通过计数中添加小常量),但仍不能解决该问题。

马尔可夫模型与n元语法

当单纯使用计数法时可能存在长单词序列样本极少导致 n ( x 1 , ⋯ , x t ) ≤ 1 n(x_1,\cdots,x_t)\leq1 n(x1,,xt)1 的情况。回忆上一章序列模型中提到的马尔可夫模型,将其用于语言建模。

我们可以不用考虑整个序列模型,而是只用考虑长度为 τ \tau τ 的时间跨度,还是以长度为 4 4 4 的句子的联合概率举例。

一元语法 τ = 0 \tau = 0 τ=0:不用考虑单词之间的联系,只考虑互相独立概率,这样前后文之间无关联的语法并不适用时序的模型。 P ( x 1 , x 2 , x 3 , x 4 ) = P ( x 1 ) P ( x 2 ) P ( x 3 ) P ( x 4 ) = n ( x 1 ) n ( x 2 ) n ( x 3 ) n ( x 4 ) n 4 P(x_1,x_2,x_3,x_4)=P(x_1)P(x_2)P(x_3)P(x_4)=\frac{n(x_1)n(x_2)n(x_3)n(x_4)}{n^4} P(x1,x2x3,x4)=P(x1)P(x2)P(x3)P(x4)=n4n(x1)n(x2)n(x3)n(x4)

二元语法:只与前一个词元有关。 P ( x 1 , x 2 , x 3 , x 4 ) = P ( x 1 ) P ( x 2 ∣ x 1 ) P ( x 3 ∣ x 2 ) P ( x 4 ∣ x 3 ) P(x_1,x_2,x_3,x_4)=P(x_1)P(x_2|x_1)P(x_3|x_2)P(x_4|x_3) P(x1,x2x3,x4)=P(x1)P(x2x1)P(x3x2)P(x4x3)
通常,涉及一个、两个和三个变量的概率公式分别被称为一元语法(unigram)、二元语法(bigram)和三元语法。 n n n 元语法模型最大好处在于:在处理比较长的序列时可以将所有长为 n n n 的子序列概率存下来,假设存下来所有情况的数量为 k k k,那么之后查询时复杂度固定为 O ( k ) O(k) O(k) 而不用遍历整个文本 O ( n ) O(n) O(n).


http://www.ppmy.cn/news/1466931.html

相关文章

正数、负数是一对反义词

大于0的数叫做正数(positive number),正数前加上符号“-” (负)的数叫做负数(negative number) 有时,为了明确表达意义,在正数前面也加上“&…

解决uniapp里的onNavigationBarSearchInputClicked不生效

如何在uniapp里使用onNavigationBarSearchInputClicked。 1、在page.json里配置 "pages": [{"path": "pages/index/index","style": {"navigationBarTitleText": "首页","navigationStyle": "cu…

eNSP学习——OSPF的DR与BDR

目录 相关命令 原理概述 实验内容 实验目的 实验拓扑 实验编址 实验步骤 1、基本配置 2、搭建基本的OSPF网络 3、查看默认情况下的DR/BDR状态 4、根据现网需求影响DR/BDR选举 需要eNSP各种配置命令的点击链接自取:华为eNSP各种设备配置命令大…

【YOLOv9改进[Conv]】使用YOLOv10的空间通道解耦下采样SCDown模块替换部分CONv的实践 + 含全部代码和详细修改内容

本文将使用YOLOv10的空间通道解耦下采样SCDown模块替换部分CONv的实践 ,文中含全部代码和详细修改内容。 目录 一 YOLOv10 1 空间通道解耦下采样 2 可视化

leetcode 802.找到最终的安全状态

思路:拓补排序 其实这道题只要把顺序倒过来就行了,我们首先看到没有出度的反而是终端点,我们不如让它反过来成为没有入度的点是终端店,这样的话我们用度的个数来找到终端点就很容易了。 那么这样的话,题目中说若点满…

Docker的数据管理(数据卷+数据卷容器)

文章目录 一、Docker的数据管理1、概述2、主要的技术(三种数据挂载方式)2.1、数据卷(Volumes)2.2、绑定挂载(Bind mounts)2.3、tmpfs挂载(Tmpfs mounts)2.4、之间的关系(…

SpringBoot:基于SpringBoot实现多数据源动态切换

一、前言 Spring Boot 多数据源,也称为动态数据源,是指在Spring Boot项目中配置多个数据源,以支持不同的数据库访问需求。这种配置方式在项目开发逐渐扩大、单个数据源无法满足项目支撑需求时变得尤为重要。 二、目的 配置多数据源的主要目…

第一个SpringBoot项目

目录 💭1、新建New Project IDEA2023版本创建Sping项目只能勾选17和21,却无法使用Java8?🌟 2、下载JDK 17🌟 💭2、项目创建成功界面 1、目录 🌟 2、pom文件🌟 💭3、…