Java开发者的神经网络进阶指南:深入探讨交叉熵损失函数

news/2024/12/16 15:46:54/

前言

今天来讲一下损失函数——交叉熵函数,什么是损失函数呢?大体就是真实与预测之间的差异,这个交叉熵(Cross Entropy)是Shannon信息论中一个重要概念,主要用于度量两个概率分布间的差异性信息。在信息论中,交叉熵是表示两个概率分布 p,q 的差异,其中 p 表示真实分布,q 表示预测分布,那么 H ( p , q ) H(p,q) H(p,q)就称为交叉熵:

H ( p , q ) = − ∑ i = 0 n p ( i ) l n q ( i ) H(p,q) = -\sum_{i=0}^n p(i)ln^{q(i)} H(p,q)=i=0np(i)lnq(i)

交叉熵是一种常用的损失函数,特别适用于神经网络训练中。在这种函数中,我们用 p 来表示真实标记的分布,用 q 来表示经过训练后模型预测的标记分布。通过交叉熵损失函数,我们可以有效地衡量模型预测分布 q 与真实分布 p 之间的相似性。

交叉熵函数是逻辑回归(即分类问题)中常用的一种损失函数。

前置知识

有些同学和我一样,长时间没有接触数学,已经完全忘记了。除了基本的加减乘除之外,对于交叉熵函数中的一些基本概念,他们可能只记得和符号。今天我会和大家一起回顾一下,然后再详细解释交叉熵函数。首先,我们来简单了解一下指数和对数的基本概念。

指数

x 3 x^3 x3 是一个典型的立方函数,大家对平方和立方可能都有所了解。指数级增长的函数具有特定的增长规律,让我们更深入地记忆和理解它们的分布特性。

image

这个概念非常简单,无需举例子来说明。重要的是要记住一个关键点:指数函数的一个特殊性质是它们都经过点(0,1),这意味着任何数的0次幂都等于1。

对数

好的,铺垫已经完成了。现在让我们继续探讨对数函数的概念。前面讲解了指数函数,对数函数则是指数函数的逆运算。如果有一个指数函数表达式为 y = a x y = a^x y=ax,那么它的对数表达式就是 x = log ⁡ a y x = \log_a y x=logay。为了方便表示,我们通常将左侧的结果记为 y y y,右侧的未知函数记为 x x x,因此对数函数最终表示为 y = log ⁡ a x y = \log_a x y=logax。为了更加深刻地记忆这一点,让我们看一下它的分布图例。

image

当讨论指数函数时,我们了解到其图像在( (0,1) ) 处穿过横轴。然而,当我们转而讨论对数函数时,其表示形式导致了这一点被调换至( (1,0) ),因此对于对数函数而言,它的恒过点即为( (1,0) )。

剩下关于对数的变换我就不再详细讲解了。现在让我们深入探讨一下熵的概念。

交叉熵函数

在探讨交叉熵之前,我们先来了解一下熵的概念。熵是根据已知的实际概率计算信息量的度量,那么信息量又是什么呢?

信息论中,信息量的表示方式: I ( x j ) = − l n ( p x j ) I(x_j) = -ln^{(px_j)} I(xj)=ln(pxj)

x j x_j xj:表示一个事件。

p x j px_j pxj:表示一个事件发生的概率。

− l n ( p x j ) -ln^{(px_j)} ln(pxj):表示某一个事件发生后会有多大的信息量,概率越低,所发生的信息量也就越大。

这里为了更好地说明,我来举个例子。比如说有些人非常喜欢追星。那么,按照一般的逻辑来说,我们可以谈谈明星结婚这件事的概率分布:

事件编号事件概率p信息量 I
x 1 x_1 x1两口子都在为事业奋斗照顾家庭0.7 I ( x 1 ) = − l n 0.7 = 0.36 I(x_1) = -ln^{0.7}= 0.36 I(x1)=ln0.7=0.36
x 2 x_2 x2两口子吵架0.2 I ( x 2 ) = − l n 0.2 = 1.61 I(x_2) = -ln^{0.2}= 1.61 I(x2)=ln0.2=1.61
x 3 x_3 x3离婚了0.1 I ( x 3 ) = − l n 0.1 = 2.30 I(x_3) = -ln^{0.1}= 2.30 I(x3)=ln0.1=2.30

从上面的例子可以看出,如果一个事件的概率很低,那么它所带来的信息量就会很大。比如,某某明星又离婚了!这个消息的信息量就非常大。相比之下,“奋斗”事件的信息量就显得小多了。

按照熵的公式进行计算,那么这个故事的熵即为:

熵: H ( p ) = − ∑ j n ( p x j ) l n ( p x j ) H(p) = -\sum_j^n(px_j)ln^{(px_j)} H(p)=jn(pxj)ln(pxj)

计算得出: H ( p ) = − [ ( p x 1 ) l n ( p x 1 ) + ( p x 2 ) l n ( p x 2 ) + ( p x 3 ) l n ( p x 3 ) ] = − [ 0.7 ∗ 0.36 + 0.2 ∗ 1.61 + 0.1 ∗ 2.3 ] = 0.804 H(p) = -[(px_1)ln^{(px_1)}+(px_2)ln^{(px_2)}+(px_3)ln^{(px_3)}] = -[0.7*0.36+0.2*1.61+0.1*2.3] = 0.804 H(p)=[(px1)ln(px1)+(px2)ln(px2)+(px3)ln(px3)]=[0.70.36+0.21.61+0.12.3]=0.804

相对熵(KL散度)

上面我们讨论了熵的概念及其应用,熵仅考虑了真实概率分布。然而,我们的损失函数需要考虑真实概率分布与预测概率分布之间的差异。因此,我们需要进一步研究相对熵(KL散度),其计算公式为:

H ( p ) = ∑ j n ( p x j ) l n ( p x j ) ( q x j ) H(p) = \sum_j^n(px_j)ln^{(px_j) \over (qx_j)} H(p)=jn(pxj)ln(qxj)(pxj)

哎,这其实就是在原先的公式中加了一个 q ( x j ) q(x_j) q(xj)而已。对了,这里的 q ( x j ) q(x_j) q(xj)指的是加上了预测概率分布 q q q。我们知道对数函数的对称点是(1,0)。因此,很容易推断出,当真实分布 p p p和预测分布 q q q越接近时,KL散度 D D D的值就越小。当它们完全相等时,KL散度恒为0,即在点(1,0)。这样一来,我们就能够准确地衡量真实值与预测值之间的差异分布了。但是没有任何一个损失函数是能为0 的。

当谈到相对熵已经足够时,为何需要进一步讨论交叉熵呢?让我们继续深入探讨这个问题。

交叉熵

重头戏来了,我们继续看下相对熵函数的表达式: H ( p ) = ∑ j n ( p x j ) l n ( p x j ) ( q x j ) H(p) = \sum_j^n(px_j)ln^{(px_j) \over (qx_j)} H(p)=jn(pxj)ln(qxj)(pxj)

这里注意下, l o g p q log^{p \over q} logqp是可以变换的,也就是说 l o g p q log^{p \over q} logqp = l o g p − l o g q log^p -log^ q logplogq,这么说,相对熵转换后的公式就是:$H§ = \sum_jn(px_j)ln{(px_j)} - \sum_jn(px_j)ln{(qx_j)} = -H§ + H(p,q) $

当我们考虑到 H ( p ) H(p) H(p)在处理不同分布时并没有太大作用时,这是因为 p p p的熵始终保持不变,它是由真实的概率分布计算得出的。因此,损失函数只需专注于后半部分 H ( p , q ) H(p,q) H(p,q)即可。

所以最终的交叉熵函数为: − ∑ j n ( p x j ) l n ( q x j ) -\sum_j^n(px_j)ln^{(qx_j)} jn(pxj)ln(qxj)

这里需要注意的是,上面显示的是一个样本计算出的多个概率的熵值。通常情况下,我们考虑的是多个样本,而不仅仅是单一样本。因此,我们需要在前面添加样本的数量,最终表示为: − ∑ i m ∑ j n ( p x j ) l n ( q x j ) -\sum_i^m\sum_j^n(px_j)ln^{(qx_j)} imjn(pxj)ln(qxj)

代码实现

这里主要使用Python代码来实现,因为其他语言实现起来没有必要。好的,让我们来看一下代码示例:

import numpy as npdef cross_entropy(y_true, y_pred):# 用了一个最小值epsilon = 1e-15y_pred = np.clip(y_pred, epsilon, 1 - epsilon)# Computing cross entropyce = - np.sum(y_true * np.log(y_pred))return ce# Example usage:
y_true = np.array([1, 0, 1])
y_pred = np.array([0.9, 0.1, 0.8])ce = cross_entropy(y_true, y_pred)
print(f'Cross Entropy: {ce}')

这里需要解释一下为什么要使用一个最小值。因为对数函数的特性是,其参数 ( x ) 可以无限接近于0,但不能等于0。因此,如果参数等于0,就会导致对数函数计算时出现错误或无穷大的情况。为了避免这种情况,我们选择使用一个足够小的最小值作为阈值,以确保计算的稳定性和正确性。

总结

在本文中,我们深入探讨了交叉熵函数作为一种重要的损失函数,特别适用于神经网络训练中。交叉熵通过衡量真实标签分布与模型预测分布之间的差异,帮助优化模型的性能。我们从信息论的角度解释了交叉熵的概念,它是基于Shannon信息论中的熵而来,用于度量两个概率分布之间的差异。

在讨论中,我们还回顾了指数和对数函数的基本概念,这些函数在交叉熵的定义和理解中起着重要作用。指数函数展示了指数级增长的特性,而对数函数则是其逆运算,用于计算相对熵和交叉熵函数中的对数项。

进一步探讨了熵的概念及其在信息论中的应用,以及相对熵(KL散度)作为衡量两个概率分布差异的指标。最后,我们详细介绍了交叉熵函数的定义和实际应用,以及在Python中的简单实现方式。

通过本文,希望读者能够对交叉熵函数有一个更加深入的理解,并在实际应用中运用此知识来优化和改进机器学习模型的训练效果。


http://www.ppmy.cn/news/1555617.html

相关文章

从零开始:PHP基础教程系列-第1篇:PHP简介与环境搭建

从零开始:PHP基础教程系列 第1篇:PHP简介与环境搭建 一、PHP简介 PHP(全称:PHP: Hypertext Preprocessor)是一种广泛使用的开源脚本语言,尤其适合用于Web开发。它可以嵌入HTML中,允许开发者轻…

51单片机-内部扩展RAM的应用

RAM是在程序运行中存放随机变量的数据空间,51单片机球认的内部RAM只有128B,c 清于编程者来说,一个芯片的RAM空间越大,RAM不够用怎么办,连过多的变量都不敢定义。写起程序来就越容易得心应手,不会总考忠压前…

数据挖掘之聚类分析

聚类分析(Clustering Analysis) 是数据挖掘中的一项重要技术,旨在根据对象间的相似性或差异性,将对象分为若干组(簇)。同一簇内的对象相似性较高,而不同簇间的对象差异性较大。聚类分析广泛应用…

SpringCloud微服务实战系列:03spring-cloud-gateway业务网关灰度发布

目录 spring-cloud-gateway 和zuul spring webflux 和 spring mvc spring-cloud-gateway 的两种模式 spring-cloud-gateway server 模式下配置说明 grayLb://system-server 灰度发布代码实现 spring-cloud-gateway 和zuul zuul 是spring全家桶的第一代网关组件&#x…

dolphinscheduler服务RPC框架源码解析(六)RPC消费者服务设计实现

RPC消费者服务设计实现 1.概述2.RPC消费者服务设计3.RPC消费者服务UML4.RPC消费者服务基本实现4.1.工程结构4.2. NettyRemotingClientFactory类4.3. NettyClientConfig类4.4. NettyRemotingClient类4.5.RPC消费者Handler处理器实现 5.异步请求转同步获取响应消息的设计6.异步请…

java_多态的应用

多态数组 应用实例:现有一个继承结构如下:要求创建 1 个 Person 对象、2 个 Student 对象和 2 个 Teacher 对象, 统一放在数组中,并调用每个对象 代码 Person类 package com.hspedu.poly_.polyarr_;import javax.swing.*;/*** author:寰愬悏瓒&#xf…

回归任务与分类任务应用及评价指标

能源系统中的回归任务与分类任务应用及评价指标 一、回归任务应用1.1 能源系统中的回归任务应用1.1.1 能源消耗预测1.1.2 负荷预测1.1.3 电池健康状态估计(SOH预测)1.1.4 太阳能发电量预测1.1.5 风能发电量预测 1.2 回归任务中的评价指标1.2.1 RMSE&…

余弦相似度Cosine Sim

what 余弦相似度是一种用于度量向量相似性的metric。 c o s θ A . B ∣ A ∣ . ∣ B ∣ cos\theta \frac{A.B}{|A|.|B|} cosθ∣A∣.∣B∣A.B​ A.B:向量的内积|A|:向量的模长 c o s θ cos\theta cosθ:的范围$ [ -1 , 1 ] $ why 余弦…