证明最小化负对数似然函数的学习策略等价于最小化 KL 散度的学习策略

news/2024/11/17 12:45:00/

首先,让我们定义一些符号:

p data ( x ) p_{\text{data}}(x) pdata(x):真实数据的概率分布
p model ( x ; θ ) p_{\text{model}}(x; \theta) pmodel(x;θ):由参数 θ \theta θ 确定的模型的概率分布
D \mathcal{D} D:从真实数据分布中抽取的数据集
我们的目标是找到一组参数 θ \theta θ,使得 p model ( x ; θ ) p_{\text{model}}(x; \theta) pmodel(x;θ) 尽可能地接近 p data ( x ) p_{\text{data}}(x) pdata(x)。使用负对数似然函数和 KL 散度作为度量,我们可以分别定义这两个目标。

最小化负对数似然函数:
θ ∗ = argmin ⁡ θ ; L ( θ ) = argmin ⁡ θ ; − ∑ x ∈ D log ⁡ p model ( x ; θ ) \theta^* = \underset{\theta}{\operatorname{argmin}}; L(\theta) = \underset{\theta}{\operatorname{argmin}}; - \sum_{x \in \mathcal{D}} \log p_{\text{model}}(x; \theta) θ=θargmin;L(θ)=θargmin;xDlogpmodel(x;θ)

最小化 KL 散度:
θ ∗ = argmin ⁡ θ ; D KL ( p data ∣ p model ) = argmin ⁡ θ ; ∑ x p data ( x ) log ⁡ p data ( x ) p model ( x ; θ ) \theta^* = \underset{\theta}{\operatorname{argmin}}; D_{\text{KL}}(p_{\text{data}}|p_{\text{model}}) = \underset{\theta}{\operatorname{argmin}}; \sum_{x} p_{\text{data}}(x) \log \frac{p_{\text{data}}(x)}{p_{\text{model}}(x; \theta)} θ=θargmin;DKL(pdatapmodel)=θargmin;xpdata(x)logpmodel(x;θ)pdata(x)

现在,让我们证明最小化负对数似然函数的学习策略等价于最小化 KL 散度的学习策略。首先我们将 KL 散度的表达式进行分解:

D KL ( p data ∣ p model ) = ∑ x p data ( x ) log ⁡ p data ( x ) − ∑ x p data ( x ) log ⁡ p model ( x ; θ ) D_{\text{KL}}(p_{\text{data}}|p_{\text{model}}) = \sum_{x} p_{\text{data}}(x) \log p_{\text{data}}(x) - \sum_{x} p_{\text{data}}(x) \log p_{\text{model}}(x; \theta) DKL(pdatapmodel)=xpdata(x)logpdata(x)xpdata(x)logpmodel(x;θ)

我们注意到第一项是关于 θ \theta θ 的常数项,因为它仅与真实数据分布有关。因此,在最小化 KL 散度时,我们只关心第二项:

argmin ⁡ θ ; D KL ( p data ∣ p model ) = argmin ⁡ θ ; − ∑ x p data ( x ) log ⁡ p model ( x ; θ ) \underset{\theta}{\operatorname{argmin}}; D_{\text{KL}}(p_{\text{data}}|p_{\text{model}}) = \underset{\theta}{\operatorname{argmin}}; - \sum_{x} p_{\text{data}}(x) \log p_{\text{model}}(x; \theta) θargmin;DKL(pdatapmodel)=θargmin;xpdata(x)logpmodel(x;θ)

我们知道无法直接获取真实数据的概率分布 p data ( x ) p_{\text{data}}(x) pdata(x),但可以通过数据集 D \mathcal{D} D 进行估计。假设数据集中有 N N N 个独立同分布的样本,我们可以将上式改写为:

argmin ⁡ θ ; − 1 N ∑ x ∈ D log ⁡ p model ( x ; θ ) \underset{\theta}{\operatorname{argmin}}; - \frac{1}{N} \sum_{x \in \mathcal{D}} \log p_{\text{model}}(x; \theta) θargmin;N1xDlogpmodel(x;θ)

并且,在大样本极限下( lim ⁡ N → ∞ \lim_{N \to \infty} limN),这个表达式就变成了负对数似然函数:

argmin ⁡ θ ; − ∑ x ∈ D log ⁡ p model ( x ; θ ) \underset{\theta}{\operatorname{argmin}}; - \sum_{x \in \mathcal{D}} \log p_{\text{model}}(x; \theta) θargmin;xDlogpmodel(x;θ)

因此,我们证明了在大样本极限下,最小化负对数似然函数的学习策略等价于最小化 KL 散度的学习策略。


http://www.ppmy.cn/news/687157.html

相关文章

正版七日杀服务器存档,如何在网吧保存steam七日杀存档 | 手游网游页游攻略大全...

发布时间:2015-10-24 七日杀a13.6存档在哪 a13.6存档位置详解.a13.6是近期很热门的游戏,很多玩家不知道存档在哪?a13.6新版本存档位置改变了,有些玩家可能找不到游戏的存档目录,这里给大家介绍一下,希望对大 ... 标签: 七日杀 游戏攻略 游戏秘籍 发布时间:2015-12-14 七日杀…

【日语】动物名称日语单词集合

动物 dngw どうぶつ【动物】 doubutsu animals サッド 人 rn にんげん【人间】 ningen human being/person コン 马 m?? うま【马】 uma horse マー 斑马 b??nm?? しまうま【缟马】 shimauma zebra ラー 驴 l ろば【驴马】 roba ass/donkey 骡 lu らば【骡马】 raba mu…

《当程序员的那些狗日日子》六

《当程序员的那些狗日日子》(五十一)太不给力的年终奖 2009年12月中旬,敖总请研发部各人去台湾六天游,这是敖总每年一次的对研发部同仁的特别恩惠。此外此次台湾游敖总还请了负责技术支持的另外三位同事一同前往。由于办证及其他…

添加字符(牛牛手里有一个字符串A,羊羊的手里有一个字符串B,B的长度大于等于A,所以牛牛想把A串变得和B串一样长,这样羊羊就愿意和牛牛一起玩了。)

添加字符 题目描述 牛牛手里有一个字符串A,羊羊的手里有一个字符串B,B的长度大于等于A,所以牛牛想把A串变得和B串一样长,这样羊羊就愿意和牛牛一起玩了。 而且A的长度增加到和B串一样长的时候,对应的每一位相等的越多…

火爆全网的“羊了个羊”,疯狂圈钱2400多万,背后隐藏着什么?

“羊了个羊”背后有那些技术实现点? 说实在,看到这款游戏爆火,让人真的难以理解,但是就是这种几乎小到没有特别游戏,却成为了市场上最赚钱也最赚流量的游戏,这到底是怎么回事?在《羊了个羊》背后…

一周净赚一套房,“羊了个羊”爆火的产品逻辑可复制吗?

“羊了个羊”到底有多火 根据“羊了个羊”微信官方小程序数据显示,9 月 13 日有 550 余万用户参与了“今日挑战”、9 月 14 日有 2600 万只羊参与了挑战。 价格不菲的微博热搜榜,羊了个羊免费杀了个七进七出。 据不知名渠道的消息: 一则关…

羊孒个羊过关思路,让你在好友榜单排名第一

目录 前言准备工作步骤 1 配置fiddler和WX环境WX配置打开微信,搜索(这时候fiddler是打开的状态,不要关)重点 如何过关1. 点击加入羊群,并且开始第一局游戏2. 下面我开始分析思路,嫌啰嗦的朋友可以直接跳过这…

分析:「羊了个羊」为什么能在超级App出圈

霸屏朋友圈长达数月、相关话题阅读量超过20亿,「羊了个羊」在微信社交链的助推下,再度复刻了前几年《跳一跳》《合成大西瓜》等小程序游戏的成功路径,在全网上演了一波现象级的传播。 「羊了个羊」「跳一跳」同属小程序游戏,尽管游…