AIGC技术的学习系列二

文章目录

前言
一、AIGC是什么？
- 1.1. 基本概念
- 1.2机器学习分类
二、语言模型
- 2.1. 基于统计的语言模型。
- 2.2. 基于神经网络的语言模型。
- 2.3. 基于预训练机制的的语言模型/大语言模型
三、读入数据
- 3.1. 不得不说的Transformer
- 3.2. 影响力
- 3.3. 根据人类反馈的强化学习
- 3.4. 生成式AI
- 3.5. AIGC
四. 各个领域最新的技术进展及应用
- 4.1. 网站
- 4.2. Text-to-Text
- 4.3. GPT-4
- 4.4. 其他LLM
- 4.5. Text-to-Image
- 4.6. Image-to-Text
- 4.7. Speech-to-Text
- 4.8. Text-to-Audio/Text-to-Speech
- 4.9. Text-to-Video
- 4.10. Text-to-3D
- 4.11. Text-to-Code
- 4.12. CV
- 4.13. Agents
- 4.14. Others
五、思考
总结

前言

从2022年11月30日OpenAI发布ChatGPT以来，人工智能的相关话题就一直占据新闻的头条，这个领域的相关技术更是日新月异，有人开玩笑说是“天天文艺复兴，日日工业革命”。虽然，这个说法略显夸张，但是还是说明这个话题目前的进展快速，而且收到了广泛的关注。

ChatGPT的爆火让大家感受到了大模型的能力，各大公司都在投入资源和人力去开发大模型。“对于大模型,当然会全力以赴,坚决拥抱”，这是雷总4月14号发微博表达的小米对于大模型技术的态度，我们也成立了大模型组去开发自己的大模型。我们是小米互联网业务部，对于大模型我们也应该全面拥抱，但是作为业务部门，我们拥抱大模型的方式应该是去想怎么用使用大模型，怎么去培养AI思维方式和理念，去助力业务发展。

大模型这个术语，是为了区分不同参数规模下的语言模型，研究团体创造的术语，大语言模型代指大型的预训练模型(如包含数百亿或数千亿个参数)。从技术概念上讲，目前大家说的大模型都属于生成式AI(GAI，Generative Artificial Intelligence）。事实上，ChatGPT和其他生成式人工智能(GAI)技术可以统一到人工智能生成内容(AIGC)的范畴，这涉及到通过AI模型创建数字内容，如图像、音乐和自然语言等等。AIGC的目标是使内容创建过程更高效、更易于使用，从而以更快的速度生产高质量的内容。AIGC是通过从人类提供的指令中提取和理解意图信息，并根据其知识和意图信息生成内容来实现的。

那么，目前AIGC领域相关的技术都有哪些？技术是怎么演进的？目前SOTA(state-of-the-art)的技术都能做什么？本篇报告就是回答这些问题。希望大家看了本篇报告之后，能够对生成式AI技术的有一个简单的了解，然后能够把一些技术跟自己负责业务的一些功能点联系起来，能够有机会有能力助力业务发展。

AIGC_19">一、AIGC是什么？

1.1. 基本概念

人工智能（AI）：人工智能是指让计算机模拟人类智能的一种技术，它旨在使计算机能够执行复杂的任务，如学习、推理、感知、理解等。
机器学习（ML）：机器学习是一种实现人工智能的方法，它允许计算机通过数据自动学习和改进性能，而无需事先进行编程。
深度学习（DL）：深度学习是机器学习的一个子领域，它利用神经网络模型来学习数据的表示和特征。深度学习在图像识别、语音识别和自然语言处理等领域取得了显著的成果。

神经网络（NN）：神经网络是一种模拟人脑神经元连接的计算模型，通常由多个神经元层组成。神经网络通过调整连接权重来学习和识别输入数据中的模式。
5. ANI（窄域人工智能，Artificial Narrow Intelligence），也称为弱人工智能。窄域人工智能专注于执行特定任务，如语音识别、图像识别或推荐系统等。这些系统虽然在特定领域的表现优秀，但缺乏在多种任务和领域中进行泛化和适应的能力。
6. AGI（通用人工智能，Artificial General Intelligence）是一种具有广泛应用和理解能力的人工智能系统。通用人工智能的目标是让机器能够像人类一样处理各种任务，理解并学习新的概念，解决问题，以及在各种环境中进行适应和自主决策。关于通用人工智能没有特别明确的统一的定义，一种定义是它是一种非常普遍的智力能力，其中包括推理、计划、解决问题、抽象、思考、理解复杂概念、快速学习和从经验中学习的能力。

请添加图片描述

1.2机器学习分类

请添加图片描述

判别式学习（Discriminative Learning）
学习P(Y|X),其目标是学习输入数据（特征）与输出数据（标签）之间的映射关系。判别式学习关注于直接建立一个决策边界或函数，以便将不同类别的数据分开。它不能反映训练数据本身的特性，但它寻找不同类别之间的最优分裂面，反映的是异类数据之间的差异，直接面对预测往往学习准确度更高。具体来说有以下特点：

对条件概率建模，学习不同类别之间的最优边界。
捕捉不同类别特征的差异信息，不学习本身分布信息，无法反应数据本身特性。
学习成本较低，需要的计算资源较少。
需要的样本数可以较少，少样本也能很好学习。
预测时拥有较好性能。
无法转换成生成式。

生成式学习（Generative Learning）
学习P(Y,X)，其目标是学习输入数据和输出数据的联合概率分布。生成式学习关注于为每个类别建立一个生成模型，从而能够生成与训练数据相似的新样本。它可以从统计的角度表示分布的情况，能够反映同类数据本身的相似度，它不关心到底划分不同类的边界在哪里。当存在隐变量时，依旧可以用生成式模型，此时判别式方法就不行了。具体来说，有以下特点：
对联合概率建模，学习所有分类数据的分布。
学习到的数据本身信息更多，能反应数据本身特性。
学习成本较高，需要更多的计算资源。
需要的样本数更多，样本较少时学习效果较差。
推断时性能较差。
一定条件下能转换成判别式。

二、语言模型

语言模型简单来说就是建模一个字符序列是一个句子的概率，是人工智能领域的一个重要研究领域，其发展历程可以分为以下几个阶段：

2.1. 基于统计的语言模型。

这一阶段的语言模型通过统计方法分析大量语料，并对语言中各个单词出现的概率进行建模。
N-gram模型就是这一阶段最常用的模型。
请添加图片描述

2.2. 基于神经网络的语言模型。

随着深度学习技术的发展，语言模型开始采用神经网络模型进行建模，从而更好地模拟人类语言理解的过程。
2003年Bengio提出神经网络语言模型NNLM。

请添加图片描述
从今天再看，网络结构非常简单。它的意义是把深度学习和语言模型结合起来，为之后的工作搭好了基础。

2.3. 基于预训练机制的的语言模型/大语言模型

Autoregressive language modeling (Decoder-only)
Masked language modeling (Encoder-only)

请添加图片描述

三、读入数据

3.1. 不得不说的Transformer

介绍
Transformer是大多数大模型的核心架构，例如GPT-3、DALL-E-2、Codex和stable diffusion等等等等。毫不夸张的说，就是因为Transformer架构的提出，大模型才能这么好效果，包括NLP和CV，才有多模态领域的突破发展。
它首次被提出是为了解决传统模型（如RNN）在处理可变长度序列和上下文感知方面的局限性。Transformer架构主要基于自注意力机制，使模型能够关注输入序列中的不同部分。
Transformer由编码器和解码器组成。编码器接收输入序列并生成隐藏表示，而解码器接收隐藏表示并生成输出序列。编码器和解码器的每一层都由多头注意力和前馈神经网络组成。多头注意力是Transformer的核心组件，它学会根据词元的相关性为它们分配不同的权重。这种信息路由方法使模型在处理长期依赖关系方面表现更好，从而提高了在广泛NLP任务中的性能。
Transformer的另一个优点是其架构使其具有高度可并行性，并允许数据优于归纳偏差。这种属性使Transformer非常适合大规模的预训练，使基于Transformer的模型能够适应不同的下游任务。
它设计上的一些优点有：

自注意力机制（Self-Attention Mechanism）：Transformer通过自注意力机制在输入序列中捕捉长距离依赖关系，克服了循环神经网络（RNN）和长短时记忆网络（LSTM）在处理长序列时梯度消失和梯度爆炸的问题。
并行计算能力：与RNN和LSTM串行处理序列数据不同，Transformer可以同时处理整个序列，从而显著提高计算效率和模型训练速度。
可扩展性：Transformer架构易于扩展，可以通过堆叠多个编码器和解码器层来增加模型的深度和容量，从而提高模型性能。
位置编码（Positional Encoding）：Transformer通过位置编码为模型提供序列中每个元素的位置信息，弥补了自注意力机制中无法获取位置信息的缺陷。
多头自注意力（Multi-Head Attention）：多头自注意力可以让模型在不同的表示子空间中同时学习多个注意力分布，从而提高模型的表达能力和捕获不同级别依赖关系的能力。
层次归一化（Layer Normalization）：Transformer中使用的层次归一化有助于加速训练过程并提高模型的泛化能力。
残差连接（Residual Connections）：Transformer中的残差连接可以减轻梯度消失问题，帮助深度模型更有效地训练。