跟李沐学AI:语言模型

server/2024/12/23 1:12:40/

语言模型定义

假设在给定长度为T的文本序列中的词元依次为x_1,x_2,\dots ,x_tx_t可被人做文本序列在时间步t处的观测或标签。在给定这样的文本序列是,语言模型的目标是估计序列的联合概率P(x_1,x_2,\dots ,x_t)

一个理想的与语言模型能够在一次抽取一个词元x_t\sim P(x_t \mid x_{t-1},\dots ,x_1)的情况下基于模型本身生成自然文本。

学习语言模型

基于语言模型的基本规则,一个包含了四个单词的文本序列的概率是:

为了训练语言模型,我们需要计算单词的概率, 以及给定前面几个单词后出现某个单词的条件概率。 这些概率本质上就是语言模型的参数。

马尔可夫模型与n元语法

当文本序列很长、文本量不够时,使用计数方法进行建模可能效果不佳。因此,可以在语言模型中引入马尔可夫模型以缓解这个问题。

涉及一个、两个和三个变量的概率公式分别被称为 一元语法(unigram)、二元语法(bigram)和三元语法(trigram)模型。 

n元语法对应马尔可夫模型中的tau=n。一元语法认为每个token都是独立的。二、三元语法认为每个token与当前token的前两个token相关。


http://www.ppmy.cn/server/114027.html

相关文章

系统架构师-ERP+集成

ERP 集成平台end:就懒得画新的页

卡西莫多的诗文集2022-2024.9月6-校庆国庆专版定版

通过网盘分享的文件:卡西莫多的诗文集2022-2024.9月6-A5-校庆国庆专版-定版.pdf 链接: https://pan.baidu.com/s/1cpFK5k1baGXbSGxY30GL_A?pwdjgnt 提取码: jgnt 卡西莫多的诗文集2022-2024.9月6-校庆国庆专版,又稍作修改并勘误了一些错字,…

2024国赛数学建模C题论文:基于优化模型的农作物的种植策略

大家可以查看一下35页,包含结构完整,数据完整的C题论文,完整论文见文末名片 添加图片注释,不超过 140 字(可选) 添加图片注释,不超过 140 字(可选) 添加图片注释&#xf…

进程+线程+协程

进程线程协程 1 进程1.1 无进程1.2 多进程1.3 p1.join()1.4 权重1.5 全局变量list 1 进程 1.1 无进程 不使用进程,task_01和task_02先后执行 import os import time from multiprocessing import Processdef task_01():print("*"*8 task_01 "*&qu…

Qt/C++编写的Onvif调试助手调试神器工具/支持云台控制/预置位设置等/有手机版本

一、功能特点 广播搜索设备,支持IPC和NVR,依次返回。可选择不同的网卡IP进行对应网段设备的搜索。依次获取Onvif地址、Media地址、Profile文件、Rtsp地址。可对指定的Profile获取视频流Rtsp地址,比如主码流地址、子码流地址。可对每个设备设…

消息可靠投递

消息可靠投递 生产者消息投递到 Broker 时,万一网络断了,生产者以为自己投递成功了,消息队列以为没有生产者投递RabbitMQ 提供了两种方式控制可靠投递,confirm 确认模式,return 退回模式RabbitMQ 提供事务机制&#x…

如何在 PyTorch 中定义一个简单的卷积神经网络?

《博主简介》 小伙伴们好,我是阿旭。专注于人工智能、AIGC、python、计算机视觉相关分享研究。 👍感谢小伙伴们点赞、关注! 《------往期经典推荐------》 一、AI应用软件开发实战专栏【链接】 项目名称项目名称1.【人脸识别与管理系统开发…

以太网--TCP/IP协议(一)

概述 以太网是局域网的一种,其他的比如还有令牌环、FDDI。和局域网对应的就是广域网,如Internet,城域网等。 从网络层次看,局域网协议主要偏重于低层(业内一般把物理层、数据链路层归为低层)。以太网协议…