ACGAN

news/2024/11/30 7:48:21/

CGAN通过在生成器和判别器中均使用标签信息进行训练,不仅能产生特定标签的数据,还能够提高生成数据的质量;SGAN(Semi-Supervised GAN)通过使判别器/分类器重建标签信息来提高生成数据的质量。既然这两种思路都可以提高生成数据的质量,于是ACGAN综合了以上两种思路,既使用标签信息进行训练,同时也重建标签信息,结合CGAN和SGAN的优点,从而进一步提升生成样本的质量,并且还能根据指定的标签相应的样本。

1. ACGAN的网络结构为:

ACGAN的网络结构框图

        生成器输入包含C_vector和Noise_data两个部分,其中C_vector为训练数据标签信息的One-hot编码张量,其形状为:(batch_size, num_class) ;Noise_data的形状为:(batch_size, latent_dim)。然后将两者进行拼接,拼接完成后,得到的输入张量为:(batch_size, num_class + latent_dim)。生成器的的输出张量为:(batch_size, channel, Height, Width)。

        判别器输入为:(batch_size, channel, Height, Width); 判别的器的输出为两部分,一部分是源数据真假的判断,形状为:(batch_size, 1),一部分是输入数据的分类结果,形状为:(batch_size, class_num)。因此判别器的最后一层有两个并列的全连接层,分别得到这两部分的输出结果,即判别器的输出有两个张量(真假判断张量和分类结果张量)。

2. ACGAN的损失函数:

        对于判别器而言,既希望分类正确,又希望能正确分辨数据的真假;对于生成器而言,也希望能够分类正确,当时希望判别器不能正确分辨假数据。

D_real, C_real = Discriminator( real_imgs)         # real_img 为输入的真实训练图片

D_real_loss = torch.nn.BCELoss(D_real, Y_real)          #  Y_real为真实数据的标签,真数据都为-1,假数据都为+1

C_real_loss = torch.nn.CrossEntropyLoss(C_real, Y_vec)        # Y_vec为训练数据One-hot编码的标签张量

gen_imgs = Generator(noise, Y_vec)

D_fake, C_fake = Discriminator(gen_imgs)

D_fake_loss = torch.nn.BCELoss(D_fake, Y_fake)

C_fake_loss = torch.nn.CrossEntropyLoss(C_fake, Y_vec)

D_loss = D_real_loss + C_real_loss + D_fake_loss + C_fake_loss

生成器的损失函数:  

gen_imgs = Generator(noise, Y_vec)

D_fake, C_fake = Discriminator(gen_imgs)

D_fake_loss = torch.nn.BCELoss(D_fake, Y_real)

C_fake_loss = torch.nn.CrossEntropyLoss(C_fake, Y_vec)

G_loss = D_fake_loss + C_fake_loss

class Discriminator(nn.Module):  # 定义判别器def __init__(self, img_size=(64, 64), num_classes=2):  # 初始化方法super(Discriminator, self).__init__()  # 继承初始化方法self.img_size = img_size  # 图片尺寸,默认为(64.64)三通道图片self.num_classes = num_classes  # 类别数self.conv1 = nn.Conv2d(3, 128, 4, 2, 1)  # conv操作self.conv2 = nn.Conv2d(128, 256, 4, 2, 1)  # conv操作self.bn2 = nn.BatchNorm2d(256)  # bn操作self.conv3 = nn.Conv2d(256, 512, 4, 2, 1)  # conv操作self.bn3 = nn.BatchNorm2d(512)  # bn操作self.conv4 = nn.Conv2d(512, 1024, 4, 2, 1)  # conv操作self.bn4 = nn.BatchNorm2d(1024)  # bn操作self.leakyrelu = nn.LeakyReLU(0.2)  # leakyrelu激活函数self.linear1 = nn.Linear(int(1024 * (self.img_size[0] / 2 ** 4) * (self.img_size[1] / 2 ** 4)), 1)  # linear映射self.linear2 = nn.Linear(int(1024 * (self.img_size[0] / 2 ** 4) * (self.img_size[1] / 2 ** 4)),self.num_classes)  # linear映射self.sigmoid = nn.Sigmoid()  # sigmoid激活函数self.softmax = nn.Softmax(dim=1)  # softmax激活函数self._init_weitghts()  # 模型权重初始化def _init_weitghts(self):  # 定义模型权重初始化方法for m in self.modules():  # 遍历模型结构if isinstance(m, nn.Conv2d):  # 如果当前结构是convnn.init.normal_(m.weight, 0, 0.02)  # w采用正态分布初始化nn.init.constant_(m.bias, 0)  # b设为0elif isinstance(m, nn.BatchNorm2d):  # 如果当前结构是bnnn.init.constant_(m.weight, 1)  # w设为1nn.init.constant_(m.bias, 0)  # b设为0elif isinstance(m, nn.Linear):  # 如果当前结构是linearnn.init.normal_(m.weight, 0, 0.02)  # w采用正态分布初始化nn.init.constant_(m.bias, 0)  # b设为0def forward(self, x):  # 前传函数x = self.conv1(x)  # conv,(n,3,64,64)-->(n,128,32,32)x = self.leakyrelu(x)  # leakyrelu激活函数x = self.conv2(x)  # conv,(n,128,32,32)-->(n,256,16,16)x = self.bn2(x)  # bn操作x = self.leakyrelu(x)  # leakyrelu激活函数x = self.conv3(x)  # conv,(n,256,16,16)-->(n,512,8,8)x = self.bn3(x)  # bn操作x = self.leakyrelu(x)  # leakyrelu激活函数x = self.conv4(x)  # conv,(n,512,8,8)-->(n,1024,4,4)x = self.bn4(x)  # bn操作x = self.leakyrelu(x)  # leakyrelu激活函数x = torch.flatten(x, 1)  # 三维特征压缩至一位特征向量,(n,1024,4,4)-->(n,1024*4*4)# 根据特征向量x,计算图片真假的得分validity = self.linear1(x)  # linear映射,(n,1024*4*4)-->(n,1)validity = self.sigmoid(validity)  # sigmoid激活函数,将输出压缩至(0,1)# 根据特征向量x,计算图片分类的标签label = self.linear2(x)  # linear映射,(n,1024*4*4)-->(n,2)label = self.softmax(label)  # softmax激活函数,将输出压缩至(0,1)return (validity, label)  # 返回(图像真假的得分,图片分类的标签)class Generator(nn.Module):  # 定义生成器def __init__(self, img_size=(64, 64), num_classes=2, latent_dim=100):  # 初始化方法super(Generator, self).__init__()  # 继承初始化方法self.img_size = img_size  # 图片尺寸,默认为(64.64)三通道图片self.num_classes = num_classes  # 类别数self.latent_dim = latent_dim  # 输入噪声长度,默认为100self.linear = nn.Linear(self.latent_dim, 4 * 4 * 1024)  # linear映射self.bn0 = nn.BatchNorm2d(1024)  # bn操作self.deconv1 = nn.ConvTranspose2d(1024, 512, 4, 2, 1)  # transconv操作self.bn1 = nn.BatchNorm2d(512)  # bn操作self.deconv2 = nn.ConvTranspose2d(512, 256, 4, 2, 1)  # transconv操作self.bn2 = nn.BatchNorm2d(256)  # bn操作self.deconv3 = nn.ConvTranspose2d(256, 128, 4, 2, 1)  # transconv操作self.bn3 = nn.BatchNorm2d(128)  # bn操作self.deconv4 = nn.ConvTranspose2d(128, 3, 4, 2, 1)  # transconv操作self.relu = nn.ReLU(inplace=True)  # relu激活函数self.tanh = nn.Tanh()  # tanh激活函数self.embedding = nn.Embedding(self.num_classes, self.latent_dim)  # embedding操作self._init_weitghts()  # 模型权重初始化def _init_weitghts(self):  # 定义模型权重初始化方法for m in self.modules():  # 遍历模型结构if isinstance(m, nn.ConvTranspose2d):  # 如果当前结构是transconvnn.init.normal_(m.weight, 0, 0.02)  # w采用正态分布初始化nn.init.constant_(m.bias, 0)  # b设为0elif isinstance(m, nn.BatchNorm2d):  # 如果当前结构是bnnn.init.constant_(m.weight, 1)  # w设为1nn.init.constant_(m.bias, 0)  # b设为0elif isinstance(m, nn.Linear):  # 如果当前结构是linearnn.init.normal_(m.weight, 0, 0.02)  # w采用正态分布初始化nn.init.constant_(m.bias, 0)  # b设为0def forward(self, input: tuple):  # 前传函数noise, label = input  # 从输入的元组中获取噪声向量和标签信息label = self.embedding(label)  # 标签信息经过embedding操作,变成与噪声向量尺寸相同的稠密向量z = torch.multiply(noise, label)  # 噪声向量与标签稠密向量相乘,得到带有标签信息的噪声向量z = self.linear(z)  # linear映射,(n,100)-->(n,1024*4*4)z = z.view((-1, 1024, int(self.img_size[0] / 2 ** 4),int(self.img_size[1] / 2 ** 4)))  # 一维特征向量扩展至三维特征,(n,1024*4*4)-->(n,1024,4,4)z = self.bn0(z)  # bn操作z = self.relu(z)  # relu激活函数z = self.deconv1(z)  # trainsconv操作,(n,1024,4,4)-->(n,512,8,8)z = self.bn1(z)  # bn操作z = self.relu(z)  # relu激活函数z = self.deconv2(z)  # trainsconv操作,(n,512,8,8)-->(n,256,16,16)z = self.bn2(z)  # bn操作z = self.relu(z)  # relu激活函数z = self.deconv3(z)  # trainsconv操作,(n,256,16,16)-->(n,128,32,32)z = self.bn3(z)  # bn操作z = self.relu(z)  # relu激活函数z = self.deconv4(z)  # trainsconv操作,(n,128,32,32)-->(n,3,64,64)z = self.tanh(z)  # tanh激活函数,将输出压缩至(-1,1)return z  # 返回生成图像

 


http://www.ppmy.cn/news/1132368.html

相关文章

node版本问题:Error: error:0308010C:digital envelope routines::unsupported

前言 出现这个错误是因为 node.js V17及以后版本中最近发布的OpenSSL3.0, 而OpenSSL3.0对允许算法和密钥大小增加了严格的限制,可能会对生态系统造成一些影响. 在node.js V17以前一些可以正常运行的的应用程序,但是在 V17 及以后版本可能会抛出以下异常: 我重装系…

蓝桥等考Python组别九级004

第一部分:选择题 1、Python L9 (15分) 运行下面程序,可以输出几行“*”?( ) for i in range(3): for j in range(4): print(*, end = ) print() 2345正确答案:B 2、Python L9

HTTP的前世今生

史前时期 20 世纪 60 年代,美国国防部高等研究计划署(ARPA)建立了 ARPA 网,它有四个分布在各地的节点,被认为是如今互联网的“始祖”。 然后在 70 年代,基于对 ARPA 网的实践和思考,研究人员发…

【新版】系统架构设计师 - 未来信息综合技术

个人总结,仅供参考,欢迎加好友一起讨论 文章目录 架构 - 未来信息综合技术考点摘要信息物理系统CPS的体系架构CPS 的技术体系CPS应用场景 人工智能分类关键技术机器学习 机器人发展分类机器人4.0 边缘计算概念与特点边云协同安全应用场景 数字孪生关键技…

【centos7】centos7安装gitlab

前言 主要内容 GitLab社区版部署 GitLab配置禁用创建组权限 GitLab配置邮件(SMTP) GitLab常用命令说明 GitLab 介绍 GitLab 一个开源的 git 仓库管理平台,方便团队协作开发、管理。在 GitLab 上可以实现完整的 CI(持续集成)、CD&#xff…

基于SpringBoot的校园点餐系统

基于SpringBoot的校园点餐系统的设计与实现,前后端分离 开发语言:Java数据库:MySQL技术:SpringBootMyBatisVue工具:IDEA/Ecilpse、Navicat、Maven 【主要功能】 角色:用户、管理员 用户前台:…

Airtool for Mac——高效便捷的系统菜单栏网络工具!

在我们的数字化生活中,对于网络连接的稳定性和速度有着越来越高的需求。为了满足您对网络质量的实时监测和分析的需求,我们向大家介绍一款强大的Mac系统菜单栏网络工具——Airtool! Airtool是一款专为Mac设计的网络工具,它能够提…

自动驾驶中的感知模型:实现安全与智能驾驶的关键

自动驾驶中的感知模型:实现安全与智能驾驶的关键 文章目录 引言感知模型的作用感知模型的技术安全与挑战结论 2023星火培训【专项营】Apollo开发者社区布道师倾力打造,包含PnC、新感知等的全新专项课程上线了。理论与实践相结合,全新的PnC培训…