【课程总结】day19(上):大模型简介

ops/2024/10/18 19:21:57/

前言

终于,我们的课程将要进入到当前最为火热的大模型部分。本章内容,我们将开始了解大模型,其中的内容包含大模型的发展历史、大模型的特点、大模型底层架构Transformer的简单了解以及最后对于人工智能的思考。

人工发展历史

早期探索阶段(1940s-1950s)

人工智能的概念开始形成,早期的计算机科学家和数学家探索机器是否能够模拟人类智能。
重要事件
1956年,达特茅斯会议上首次提出“人工智能(Artificial Intelligence,简称AI)”这一概念,标志着人工智能学科的诞生。随后,人工智能领域取得了一系列令人瞩目的研究成果,如字符识别程序、学习功能的跳棋程序等,掀起了人工智能发展的第一个高潮

符号主义(1950s-1970s)

这一阶段的AI主要依靠符号处理和规则引擎,强调逻辑推理。
关键技术

  • 逻辑推理、专家系统(如DENDRAL和MYCIN)。
  • 语言处理(如ELIZA,最早的聊天机器人)。

知识工程和专家系统(1970s-1980s)

随着计算能力的提升,专家系统开始流行,旨在模拟人类专家的决策过程。
关键事件
人工智能从理论研究走向实际应用,专家系统开始广泛应用于医疗、化学、地质等领域,实现了人工智能从一般推理策略探讨转向运用专门知识的重大突破,推动了人工智能应用发展的新高潮。

AI寒冬(1980s-1990s)

由于期望过高和技术限制,资金和研究兴趣减少,导致AI研究陷入低谷。
重要事件
随着人工智能应用规模的扩大,专家系统存在的问题逐渐暴露,如应用领域狭窄、缺乏常识性知识、知识获取困难等,导致人工智能的发展再次陷入低迷。‌

机器学习和数据驱动的AI(1990s-2010s)

随着计算能力和数据量的增加,机器学习(尤其是统计学习)开始兴起。
关键技术

  • 支持向量机、决策树、聚类方法等。
  • 互联网的普及使得大规模数据集的获取成为可能。

深度学习的崛起(2010s-至今)

深度学习技术的突破使得AI在多个领域取得显著进展。
关键技术

  • 卷积神经网络(CNN)、递归神经网络(RNN)等。
  • 大规模数据集和强大的计算资源(如GPU)的结合。

关键事件:
2012年,AlexNet模型的提出,标志着深度学习在计算机视觉领域的突破。
2018年,BERT模型的提出,开启了自然语言处理领域的大模型时代。

大模型/通用人工智能(AGI)的探索(2020s-至今)

随着Transformer架构的横空出世,大模型技术取得迅猛的发展。
关键事件:
2022年11月30日,ChatGPT3.5发布。
关键技术

  • 自然语言处理大模型
  • 计算机视觉CV大模型
  • 多模态大模型

大模型简介

大模型通常指的是具有大量参数(具有数亿到数千亿参数的深度学习模型)的深度学习模型,这些模型在处理复杂任务时展现出显著的性能提升。

"大"模型层数

大模型的encoder或decoder的层数通常在几十层到几千层不等。

“大”参数数量

大模型通常具有数亿到数千亿个参数。例如:
阿里巴巴推出的最新大模型 Qwen2-72B,其参数量为72B,即 72 billion(720亿)个参数。

"大"算力需求

大模型对算力和显存的要求也非常高,一般情况下:

  • 推理:所需显存为参数量的2~3倍
  • 训练:所需显存为参数量的5倍

例如,对于 LLaMA-2 70B 模型,推理需要 140 GB,训练需要 840 GB。

"大"数据规模

大型语言模型通常使用数十亿到数万亿个 token 进行训练。例如,GPT-3 使用了约 570 亿个 token 的数据集。

与红楼梦的比较:
红楼梦 约 80万字,如果我们将其视为 800,000 tokens
570 , 000 , 000 , 000 800 , 000 ≈ 712 , 500 \frac{570,000,000,000}{800,000} \approx 712,500 800,000570,000,000,000712,500
这意味着,使用 570亿个 token 的大模型相当于约 712,500 本红楼梦。

"大"电力需求

大模型的训练,特别是涉及大量参数的模型,需要巨大的算力支持,这直接导致了大量的电力需求。

例如,训练Open AI的GPT-3模型耗电量约为1.287吉瓦时,这相当于120个美国家庭一年的用电量。

AIGC生成式人工智能应用

大模型一般是通俗的叫法,其学术术语一般叫生成式人工智能(AIGC),其目前的应用场景有:

  • 文生文
  • 文生图
  • 文生视频

人工智能类型

人工智能的类型中,判别式模型和生成式模型是两种不同的建模思想。
判别式

  • 建模思想: P ( y ∣ x ) P(y|x) P(yx),即在给定输入 x x x(上文) 的情况下,输出 y y y (哪一类)的概率。

生成式

  • 建模思想: P ( x , y ) P(x,y) P(x,y),即同时考虑输入 x x x(上文) 和输出 y y y(追加内容)的概率。

判别式模型专注于类别之间的边界,适合分类任务;而生成式模型则关注数据的生成过程,是一种发明创造的过程。

思考

人类自从工业革命至今,历经三次革命:

  • 工业革命:它使得人类的生产活动效率大大提高,在时间维度帮助人类实现了效率的飞跃。
  • 电力革命:伴随着电力的发展以及电报、电话等通信工具的出现,在空间维度帮助人们实现了效率的飞跃。
  • 信息革命:伴随着互联网技术的应用以及普及,催生了电子商务、社交媒体等新经济模式,改变了商业运作方式。这是在时间空间维度同时进行了效率的提升。

那么,此时被誉为第四次工业革命的 人工智能 ,它会怎样改变我们的生产和生活呢?

参考资料

一图看懂人工智能发展史

大模型训练驱动电力需求翻倍 行业求解“AI能耗之困”


http://www.ppmy.cn/ops/89463.html

相关文章

全面解锁:通过JSP和Ajax实现钉钉签到数据展示及部门筛选功能

要在JSP页面中调用钉钉的签到接口,并将签到数据展示在页面上,同时提供部门筛选功能,你可以按照以下步骤操作: 准备钉钉API: 你需要首先获取钉钉开放平台的API凭证(如access_token)。请参考钉钉开…

whisper+whisperx ASR加对齐

忘了怎么安装了,这里记录一下整理出来的类,不过这个识别容易出现幻觉,对齐也不是很准,比如说使用 large-v3 倒是能有一定的分句作用,但是每句最后一个字给的时间太短,这也表明了对齐不准。 from chj.comm.…

Git(4) 解决Git相关问题的实用技巧

本文将介绍一些Git实用的技巧,实际操作中解决常见的Git问题。 问题1:将本地项目推送到远程仓库 如何将本地项目推送到远程仓库,包括处理常见错误的方法,并最终将代码推送到 main 分支。 步骤 1. 初始化本地仓库 确保已经在本地…

分享一个基于人脸识别的小区物业管理系统Spring Boot(源码、调试、LW、开题、PPT)

💕💕作者:计算机源码社 💕💕个人简介:本人 八年开发经验,擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等,大家有这一块的问题可以一起交流&…

安卓基本布局(下)

TableLayout 常用属性描述collapseColumns设置需要被隐藏的列的列号。shrinkColumns设置允许被伸缩的列的列号。stretchColumns设置允许被拉伸的列的列号。 <TableLayout xmlns:android"http://schemas.android.com/apk/res/android"android:id"id/TableL…

【学习笔记】Day 3

一、进度概述 1、作业1 2、组会会议纪要——没太听懂&#xff0c;得再看 二、详情 1、作业1 &#xff08;1&#xff09;在python中&#xff0c;想要使output为图片&#xff0c;需要用的matplotlib库&#xff0c;这里做简单的整理&#xff0c;以便更好的理解代码。 …

TDC-GP21使用总结

通信方面&#xff1a; 1.NSS与一般CS(片选)的用法不同&#xff0c;具体要看手册。 2. 读写操作之间&#xff0c;要有延时&#xff0c;具体看手册。 3.通信波特率有要求&#xff0c;并且SPI验证通信是否正常&#xff0c;要多个测试用例&#xff0c;尤其是MSB和LSB要测试完全&…

BGP对等体组、聚合、路由反射器、联盟、团体属性

一.实验拓扑 二.实验需求 1.AS1中存在两个环回&#xff0c;一个地址为192.168.1.0/24&#xff0c;该地址不能在任何协议中宣告 As3中存在两个环回&#xff0c;一个地址为192.168.2.0/24,、该地址不能在任何协议中宣告&#xff0c;最终要求这两个环回可以ping通; 2.整个AS2的I…