2024三掌柜赠书活动第三十四期：破解深度学习

前言

深度学习作为人工智能领域的一个重要分支，近年来取得了令人瞩目的进展。从图像识别到自然语言处理，深度学习的应用已经渗透到我们生活的方方面面。2024年诺贝尔物理学奖和化学奖都给了人工智能，全民学AI时代已来！AI带来了工业革命的4.0时代，大模型的涌现已经在很大程度上重塑了生产力，而深度学习无疑是这场革命下普通人最好的入门机会，因为这轮大发展基本都是建立在它的基础之上。未来各行各业，显然都必须要和人工智能结合。“不学是等死，乱学是找死”。与其持续困惑，不如马上行动。那么本文就来为读者提供一个深度学习的入门指南，从基础理论到实际应用，帮助读者“破解”深度学习的神秘面纱。

深度学习的基本概念

先来复习一下深度学习的概念，其实深度学习是机器学习的一个子领域，它基于人工神经网络的学习算法，而“深度”一词指的是神经网络的层数，这些层可以捕捉数据中的复杂模式。

人工神经网络：人工神经网络（ANN）模仿人脑的处理方式，通过神经元之间的连接和权重来学习和识别模式。每个神经元接收输入，进行加权求和，然后通过一个激活函数传递信号。
激活函数：激活函数是神经网络中的关键组件，它们决定了神经元是否应该被激活。常见的激活函数包括Sigmoid、Tanh、ReLU等。
损失函数和优化：在训练神经网络时，损失函数衡量模型的预测与真实值之间的差异。优化算法（如梯度下降）用于调整权重，以最小化损失函数。

深度学习的关键技术

再来分享一下深度学习的关键技术，有以下几个点。

卷积神经网络：CNN特别适合处理图像数据，它们通过卷积层、池化层和全连接层来提取特征和进行分类。
循环神经网络：RNN能够处理序列数据，如时间序列或自然语言，它们通过循环结构来保持信息并捕捉时间依赖性。
长短期记忆网络：LSTM是RNN的一种变体，它通过门控机制解决了传统RNN的长期依赖问题。
生成对抗网络：GAN由生成器和判别器组成，它们相互竞争以生成越来越真实的数据。

深度学习的实践应用

关于深度学习实践应用，可以分为以下几个部分。
图像识别：深度学习在图像识别领域取得了巨大成功，如通过CNN实现的自动驾驶车辆和面部识别技术。
自然语言处理：深度学习在自然语言处理（NLP）中的应用包括语言翻译、情感分析和聊天机器人。
推荐系统：深度学习可以分析用户行为和偏好，为电商和流媒体服务提供个性化推荐。

关于《破解深度学习》

接下来给大家推荐一本关于深度学习的书籍，这是一本关于如何破解深度学习的干货图书，一经上市就登上了当当“计算机与互联网”图书排行榜前列。本书从深度学习原理剖析讲起到实战技巧，助开发学习者在日常工作中轻松学会深度学习！另外，关注本文博主，点赞+收藏本文，且在本文评论区评论“破解深度学习”，将选取三名幸运读者送出纸质版《破解深度学习》一本，截止时间：2024.11.03。入手《破解深度学习》传送门：《破解深度学习：模型算法与实现（核心篇）》(瞿炜)【简介_书评_在线阅读】 - 当当图书或者https://item.jd.com/14826638.html#crumb-wrap，个人觉得这本书非常的不错，是一本不可多得的好书，值得拥有去学习。

编辑推荐

适读人群：本书理论与实战并重，即可以帮助读者全面夯实算法理论基础，又可以通过符合业界需求的案例项目帮读者快速提升实战技能。因此，本书特别适合人工智能领域的从业人员和准备进入该领域的新手阅读。此外，本书还可以帮助即将走出校园的计算机或者人工智能等相关专业学生快速完成从校园到职场的角色转变，匹配工作岗位要求。

1.B站知名人工智能垂直类博主梗直哥创作，基于全网累计播放百万次的人工智能系列视频和课程编写。

2.配套视频（原付费内容）助力学习，提升学习效率，讲解深度学习背后的基础知识。

3.涵盖当前深度学习的热点领域，从理论到实战全方位展开，全面解除前沿技术。

4.知乎、B站、公众号、知识星球等设有交流互动渠道，针对不同读者群体提供不的教学内容和方法。

内容简介

本书旨在采用一种符合读者认知角度且能提升其学习效率的方式来讲解深度学习背后的核心知识、原理和内在逻辑。

经过基础篇的学习，想必你已经对深度学习的总体框架有了初步的了解和认识，掌握了深度神经网络从核心概念、常见问题到典型网络的基本知识。本书为核心篇，将带领读者实现从入门到进阶、从理论到实战的跨越。全书共7章，前三章包括复杂CNN、RNN和注意力机制网络，深入详解各类主流模型及其变体；第4章介绍这三类基础模型的组合体，即概率生成模型；第5章和第6章着重介绍这些复杂模型在计算机视觉和自然语言处理两大最常见领域的应用；第7章讲解生成式大语言模型的内在原理并对其发展趋势予以展望。

本书系统全面，深入浅出，且辅以生活中的案例进行类比，以此降低学习难度，能够帮助读者迅速掌握深度学习的基础知识。本书适合有志于投身人工智能领域的人员阅读，也适合作为高等院校人工智能相关专业的教学用书。

作者简介

瞿炜，美国伊利诺伊大学人工智能博士，哈佛大学、京都大学客座教授；前中国科学院大学教授、模式识别国家重点实验室客座研究员；国家部委特聘专家、重点实验室学术委员会委员；知名国际期刊编委，多个顶级学术期刊审稿人及国际学术会议委员。
李力，人工智能专家，长期致力于计算机视觉和强化学习领域的研究与实践。曾在多家顶尖科技企业担任资深算法工程师，拥有十余年行业经验，具备丰富的技术能力和深厚的理论知识。
杨洁，人工智能和自然语言处理领域资深应用专家，在自然语言理解、基于知识的智能服务、跨模态语言智能、智能问答系统等技术领域具有深厚的实战背景。

图书目录

第 1章复杂卷积神经网络：捕获精细特征 1

1.1　AlexNet 2

1.1.1　AlexNet简介 2

1.1.2　代码实现 3

1.1.3　模型训练 6

1.1.4　小结 10

1.2　VGGNet 10

1.2.1　VGGNet简介 10

1.2.2　代码实现 13

1.2.3　模型训练 15

1.2.4　小结 16

1.3　批归一化方法 16

1.3.1　批归一化简介 16

1.3.2　代码实现 17

1.3.3　模型训练 19

1.3.4　小结 20

1.4　GoogLeNet 20

1.4.1　GoogLeNet简介 20

1.4.2　Inception结构 20

1.4.3　GoogLeNet的模型结构 21

1.4.4　代码实现 22

1.4.5　模型训练 25

1.4.6　小结 26

1.5　ResNet 26

1.5.1　ResNet简介 26

1.5.2　残差结构 27

1.5.3　ResNet模型结构 28

1.5.4　代码实现 30

1.5.5　模型训练 35

1.5.6　小结 36

1.6　DenseNet 36

1.6.1　DenseNet简介 36

1.6.2　代码实现 39

1.6.3　模型训练 44

1.6.4　小结 44

第 2章复杂循环神经网络：为记忆插上翅膀 46

2.1　双向RNN和深度RNN 47

2.1.1　双向RNN 47

2.1.2　深度RNN 48

2.1.3　小结 51

2.2　RNN长期依赖问题 51

2.2.1　什么是长期依赖 52

2.2.2　长期记忆失效原因 52

2.2.3　截断时间步 53

2.2.4　小结 54

2.3　长短期记忆网络及其变体 54

2.3.1　核心思想 54

2.3.2　网络结构 55

2.3.3　遗忘门 56

2.3.4　输入门 56

2.3.5　输出门 57

2.3.6　门控循环单元 57

2.3.7　小结 60

2.4　四种RNN代码实现 60

2.4.1　模型定义 60

2.4.2　模型实验 63

2.4.3　效果对比 66

2.4.4　小结 67

第3章复杂注意力神经网络：大模型的力量 68

3.1　BERT模型 68

3.1.1　3种模型结构 69

3.1.2　词嵌入 70

3.1.3　预训练：掩码语言模型 70

3.1.4　预训练：下一句预测 71

3.1.5　微调 72

3.1.6　优缺点 73

3.1.7　小结 74

3.2　GPT系列模型 74

3.2.1　GPT-1模型思想和结构 75

3.2.2　GPT-1无监督预训练和监督微调 76

3.2.3　GPT-1数据集和性能特点 77

3.2.4　GPT-2模型思想和结构 78

3.2.5　GPT-2 数据集和性能特点 79

3.2.6　GPT-3 模型思想和结构 80

3.2.7　基于情景学习的对话模式 80

3.2.8　GPT-3 数据集和性能特点 83

3.2.9　小结 84

3.3　T5模型 84

3.3.1　基本思想 84

3.3.2　词表示发展史 85

3.3.3　模型结构 86

3.3.4　预训练流程 87

3.3.5　预训练数据集 88

3.3.6　模型版本 89

3.3.7　小结 89

3.4　ViT模型 90

3.4.1　Transformer的好处 90

3.4.2　模型结构 90

3.4.3　数据预处理 91

3.4.4　图片块和位置嵌入 91

3.4.5　Transformer编码器 92

3.4.6　MLP头 93

3.4.7　性能对比 93

3.4.8　小结 94

3.5　Swin Transformer模型 94

3.5.1　要解决的问题 95

3.5.2　模型结构 95

3.5.3　输入预处理 97

3.5.4　四个阶段 97

3.5.5　Swin Transformer块 98

3.5.6　窗口注意力 98

3.5.7　计算复杂度分析 98

3.5.8　移动窗口多头自注意力机制 99

3.5.9　特征图循环移位计算 99

3.5.10　masked MSA操作 100

3.5.11　小结 101

第4章深度生成模型：不确定性的妙用 102

4.1　蒙特卡洛方法 103

4.1.1　采样 104

4.1.2　重要性采样 105

4.1.3　马尔可夫链蒙特卡洛方法 105

4.1.4　小结 106

4.2　变分推断方法 106

4.2.1　参数估计 107

4.2.2　问题定义 108

4.2.3　算法思路 108

4.2.4　KL散度 109

4.2.5　公式推导 109

4.2.6　高斯混合模型实例 110

4.2.7　与MCMC方法对比 111

4.2.8　小结 111

4.3　变分自编码器 112

4.3.1　降维思想 112

4.3.2　自编码器 112

4.3.3　VAE基本思想 114

4.3.4　隐空间可视化 117

4.3.5　神经网络实现 117

4.3.6　重新参数化技巧 118

4.3.7　小结 119

4.4　生成对抗网络 119

4.4.1　什么是对抗生成思想 119

4.4.2　模型结构 120

4.4.3　判别器 121

4.4.4　生成器 121

4.4.5　训练流程 121

4.4.6　损失函数 123

4.4.7　小结 123

4.5　扩散模型 123

4.5.1　模型对比 124

4.5.2　基本思想 124

4.5.3　前向过程 125

4.5.4　逆向过程 126

4.5.5　损失函数 128

4.5.6　损失函数的参数化 129

4.5.7　训练流程 130

4.5.8　小结 130

4.6　深度生成模型项目实战 131

4.6.1　代码实现 131

4.6.2　VAE模型 132

4.6.3　GAN模型 136

4.6.4　小结 140

第5章计算机视觉：让智慧可见 141

5.1　自定义数据加载 141

5.1.1　数据加载 141

5.1.2　数据准备 142

5.1.3　ImageFolder方法 142

5.1.4　自定义数据集示例1 145

5.1.5　自定义数据集示例2 147

5.1.6　小结 150

5.2　图像数据增强 150

5.2.1　数据增强简介 150

5.2.2　代码准备 150

5.2.3　常见图像数据增强方法 153

5.2.4　小结 159

5.3　迁移学习 160

5.3.1　迁移学习简介 160

5.3.2　ResNet预训练模型 160

5.3.3　ViT预训练模型 163

5.3.4　小结 165

5.4　经典计算机视觉数据集 165

5.4.1　数据集简介 165

5.4.2　小结 169

5.5　项目实战：猫狗大战 170

5.5.1　项目简介 170

5.5.2　数据准备 170

5.5.3　模型训练 175

5.5.4　模型预测 178

5.5.5　小结 180

第6章自然语言处理：人机交互懂你所说 181

6.1　词嵌入和Word2Vec 181

6.1.1　独热编码 181

6.1.2　Word2Vec 182

6.1.3　Gensim代码实现 185

6.1.4　小结 186

6.2　词义搜索和句义表示 186

6.2.1　文本搜索方法 186

6.2.2　正则搜索 187

6.2.3　词义搜索 188

6.2.4　距离计算方法 189

6.2.5　句子向量 189

6.2.6　代码实现 190

6.2.7　常见应用 192

6.2.8　小结 192

6.3　预训练模型 193

6.3.1　预训练和迁移学习 193

6.3.2　迁移学习族谱 194

6.3.3　大语言模型 194

6.3.4　LLM进化方向 196

6.3.5　BERT系列进化 197

6.3.6　GPT系列进化 197

6.3.7　多模态模型 199

6.3.8　存在的问题 200

6.3.9　小结 200

6.4　Hugging Face库介绍 200

6.4.1　核心库 200

6.4.2　官网介绍 201

6.4.3　代码调用 204

6.4.4　小结 207

6.5　NLP数据集 207

6.5.1　预训练数据集 208

6.5.2　下游任务数据集 209

6.5.3　数据集使用 211

6.5.4　小结 213

6.6　项目实战：电影评论情感分析 213

6.6.1　Pipeline 213

6.6.2　模型实战 214

6.6.3　直接微调 219

6.6.4　小结 221

第7章　多模态生成式人工智能：引领智能新时代 222

7.1　CLIP模型 222

7.1.1　计算机视觉研究新范式 223

7.1.2　对比学习预训练 223

7.1.3　图像编码器 224

7.1.4　文本编码器 224

7.1.5　数据收集 224

7.1.6　图像分类 225

7.1.7　模型训练和优缺点分析 226

7.1.8　小结 227

7.2　DALL·E系列模型 227

7.2.1　初代模型结构 227

7.2.2　dVAE模块 228

7.2.3　Transformer模块 229

7.2.4　图像生成过程 230

7.2.5　DALL·E 2 模型结构 230

7.2.6　CLIP模块 231

7.2.7　prior模块 232

7.2.8　decoder模块 232

7.2.9　DALL·E 2 推理过程 233

7.2.10　模型效果 233

7.2.11　局限分析 233

7.2.12　小结 234

7.3　InstructGPT模型 235

7.3.1　GPT系列回顾 235

7.3.2　指示学习和提示学习 235

7.3.3　人工反馈强化学习 236

7.3.4　训练流程 237

7.3.5　数据集采集 238

7.3.6　监督微调 239

7.3.7　奖励模型 239

7.3.8　强化学习 239

7.3.9　优缺点分析 240

7.3.10　小结 240

7.4　深度学习最新发展趋势分析 240

7.4.1　趋势1：多模态融合 241

7.4.2　趋势2：AIGC大爆发 242

7.4.3　趋势3：大小模型分化 243

7.4.4　趋势4：概率分布模型的大发展 244

7.4.5　趋势5：深度强化学习的春天 244

7.4.6　更多展望 245

7.5　下一步学习的建议 245

7.5.1　动手实践 245

7.5.2　PyTorch官方文档和课程 246

7.5.3　推荐网站 246

7.5.4　多读论文 247

7.5.5　关于强化学习 247

7.5.6　继续加油 248