文章目录
- 1 AI与深度学习的简史
- 2 基于transformer的语言模型(2017年至今)
- 2.1 BERT(2018)
- 2.2 T5(2019)
- 2.3 OpenAI的GPT系列
- 2.4 大型语言模型(LLMs)
- 2.4.1 Anthropic的Claude(2022)
- 2.4.2 Meta's LLaMA(2023)
- 2.4.3 Mistral.AI的Mistral(2023)`在这里插入代码片`
- 2.4.4 阿里巴巴的Qwen(2023)
- 2.4.5 微软的Phi(2023)
- 2.4.6 Google的Gemma系列(2024)
- 2.5 多模态模型(2023年至今)
- 2.5.1 GPT-4V(2023)
- 2.5.2 GPT-4-o(2024)
- 2.5.3 Google的Gemini(2023年至今)
- 2.5.4 Anthropic的Claude(2023年至今)
- 2.5.5 LLaVA(2023)
- 2.5.6 OpenAI索拉(2024)
- 3 扩散模型(2015年至今)
- 3.1 扩散模型的进展(2020年至今)
- 3.2 应用场景
- 4 参考附录
1 AI与深度学习的简史
本文概述了使用深度学习的AI历史上的关键里程碑,从早期的神经网络模型到现代的大型语言模型和多模态AI系统。
1.1 人工智能的诞生(1956)
1.2 早期人工神经网络(1940-1960年代)
(2-1)McCulloch-Pitts神经元模型(1943)
(2-2)Rosenblatt的感知器模型(1957)
(2-3)ADALINE自适应线性神经元,神经网络第一个黄金时代(1959)
(2-4)异或问题,神经网络的第一个黑暗时代(1969)
1.3 多层感知器MLP(1960年代)
1.4 反向传播(1970-1980年代)
(4-1)Seppo Linnainmaa(1970):引入了自动微分的概念,这是反