Theory behind GAN

news/2024/12/30 19:26:43/

假如要生成一些人脸图,实际上就是想要找到一个分布,从这个分布内sample出来的图片像是人脸,分布之外生成的就不像人脸。而GAN要做的就是找到这个distribution。

在GAN之前用的是Maximum Likelihood Estimation。

Maximum Likelihood Estimation(最大似然估计)

最大似然估计的思想是,假设数据的分布是 Pdata(x) ,定义一个分布为PG(x;θ) ,求得一组参数θ,使得PG(x;θ)Pdata(x) 越接近越好。具体步骤如下:

  1. Pdata(x) 中sample出一些样本;
  2. 对于sample出来的样本,可以计算出它们的likelihood;
  3. 计算总分likelihood L,并找到一组参数θ*  使得L最大。

MLE=Minimize KL Divergence

最大似然估计就相当于最小化的KL散度。

如果使用最大似然估计,采用高斯混合模型定义PG  ,生成的图片会非常模糊,现在使用generator产生PG 。优化的目标就是使PGPdata 越接近越好,即使得G* 越小越好,但是不知道PGPdata 的公式。

虽然不知道PGPdata 的公式,但是可以从这两个分布中做sample。可以用Discriminator来衡量PGPdata 的Divergence。训练出来的maxV(G,D) 就相当于JS divergence。

证明过程

要求V(G,D)的最大值,就是求 的最大值。

因为PGPdata 都是固定的,所以设为常数,然后通过求导求出最大值。

将求出的D* 回带入V(G,D),然后化简。

Generator 的训练目标就是,找到一个G* 去最小化PGPdata 之间的差异,即 ,由于不知道PGPdata 的具体公式,所以无法直接计算divergence。于是通过一个discriminator来计算两个分布之间的差异, 。所以最终优化目标为

假设已经把Generator固定住了,红点表示固定住G后的 ,也就是PGPdata  的差异。现在的目标是最小化这个差异,所以下图的三个网络中,G3 是最优秀的。

具体的做法就是:

  1. 首先固定G,找到一个能够使V最大的D;
  2. 然后固定D,找到能够使这个最大D情况下V最小的G。不停的迭代。

虽然L(G)中有求最大值,但是它依然可以做微分,即分段求微分。

具体算法如下:

  1. 给定一个G0
  2. 求解出使得V(D,G) 最大的D0*
  3. 利用梯度下降求解出G1 ;
  4. 利用G1 求解出使得V(D,G) 最大的D1* ,不断迭代。

其实在训练过程中不是真正的minimize JS散度,因为G在训练时变化时,V(D,G) 也会发生改变;此时由于D固定,所以JS散度会变得不再是此刻G下的JS散度了。所以要保证V(D,G0) 和V(D,G1)  很像,即G的参数变化很小。

Algorithm for GAN(Review

首先训练D,多训练几次直至收敛;之后训练G:其中第一项是与生成器无关的,由于G不能训练太多,否则会导致D无法evaluate JS,所以update一次就好。

  • In practice

理论上V是要取期望值,但是实际上是不可能的,只能用样本的均值进行估计。

论文原文在实作的时候把log⁡(1-D(x)) 换成-log⁡(D(x)) ,蓝色曲线刚开始的值很大,适合做梯度下降。其实后来实验证明两种结果都差不多。


http://www.ppmy.cn/news/1229653.html

相关文章

广州一母婴店因设置0元购导致关店

我是卢松松,点点上面的头像,欢迎关注我哦! 广州的一家母婴用品网店Minitutu因双十一优惠券设置错误,导致所有商品变成0元购买,引发消费者疯狂抢购,15万多单订单中有800多万元的损失。店家无奈之下只能暂停营…

c++ 获取时间 微秒

参考:https://juejin.cn/s/c%2B%2B%20%E8%8E%B7%E5%8F%96%E6%97%B6%E9%97%B4%20%E5%BE%AE%E7%A7%92 在 C 中获取当前时间的微秒数可以使用 头文件中的 std::chrono::high_resolution_clock 类。该类提供了高精度的计时功能,可以精确到纳秒级别。 以下是一个示例代…

Revive开发商加入VR开源标准OpenXR

作为一款能让HTC Vive用户玩到Oculus平台游戏的软件,它的开发商CrossVR今日宣布即将加盟为VR和AR应用程序开源组织,即OpenXR。 由Khronos Group引领的OpenXR旨在创建一个标准化且免版税的应用程序编程接口(API),该API…

单/三相dq解耦控制与特定次谐波抑制

1. 单相整流器dq坐标系下建模 单相整流器的拓扑如图所示,可知 u a b u s − L d i s d t − R i s {u_{ab}} {u_{s}} - L\frac{{d{i_s}}}{{dt}} - R{i_s} uab​us​−Ldtdis​​−Ris​。   将电压和电流写成dq的形式。 { u s U s m sin ⁡ ( ω t ) i s I …

2023亚太杯数学建模思路 - 案例:FPTree-频繁模式树算法

文章目录 算法介绍FP树表示法构建FP树实现代码 建模资料 ## 赛题思路 (赛题出来以后第一时间在CSDN分享) https://blog.csdn.net/dc_sinor?typeblog 算法介绍 FP-Tree算法全称是FrequentPattern Tree算法,就是频繁模式树算法&#xff0c…

Linux下快速确定目标服务器支持哪些协议和密码套件

实现原理是利用TLS协议的特点和握手过程来进行测试和解析响应来确定目标服务器支持哪些TLS协议和密码套件。 在TLS握手过程中,客户端和服务器会协商并使用相同的TLS协议版本和密码套件来进行通信。通过发送特定的握手请求并分析响应,可以确定目标服务器…

指令系统、流水线

指令系统 分类 寻址方式 设计 能够改变控制流的指令:分支、跳转、过程调用、过程返回 操作码设计 MIPS 流水线 MIPS流水线 改进后 取指(IF) 译码(ID) 执行(EX) 存储器访问 寄存器-寄存器 A…

【51单片机系列】C51基础

本文内容是关于C51语言的基础内容的,包括C51的数据类型、变量、运算符、函数以及reg52.h文件中的内容,有些与C中相同的内容没有记录在此,比如常量、某些变量、表达式、程序结构、数组等没有涉及。 文章目录 C51的数据类型1. C51中的基本数据类…