AI/ML 基础知识与常用术语全解析

一.引言

二.AI/ML 基础知识

1.人工智能（Artificial Intelligence，AI）

(1).定义

(2).发展历程

(3).应用领域

2.机器学习（Machine Learning，ML）

(1).定义

(2).学习方式

①.监督学习

②.无监督学习

③.强化学习

(3).应用领域

3.深度学习（Deep Learning）

(1).定义

(2).人工神经网络

(3).应用领域

三.AI/ML 常用术语

1.数据（Data）

(1).定义

(2).数据类型

(3).数据预处理

2.模型（Model）

(1).定义

(2).模型评估

(3).模型选择

3.算法（Algorithm）

(1).定义

(2)常用算法

4.特征（Feature）

(1).定义

(2).特征提取

(3).特征选择

5.损失函数（Loss Function）

(1).定义

(2).常用损失函数

6.优化算法（Optimization Algorithm）

(1).定义

(2).常用优化算法

7.过拟合（Overfitting）

(1).定义

(2).解决方法

8.欠拟合（Underfitting）

(1).定义

(2).解决方法

9.准确率（Accuracy）

(1).定义

(2).计算公式

10.召回率（Recall）

(1).定义

(2).计算公式

11.F1 值（F1 Score）

(1).定义

(2).计算公式

12.ROC 曲线（Receiver Operating Characteristic Curve）

(1).定义

(2).曲线特点

13.AUC 值（Area Under the Curve）

(1).定义

(2).取值范围

四.总结

这是本系列的第一篇博客，欢迎观看啦~

一.引言

在当今科技飞速发展的时代，人工智能（AI）和机器学习（ML）已经成为了热门话题。从智能手机中的语音助手到自动驾驶汽车，AI 和 ML 技术正在改变着我们的生活方式。然而，对于许多人来说，AI 和 ML 仍然是神秘而复杂的领域。本文将详细介绍 AI/ML 的基础知识和常用术语，帮助读者更好地理解这一领域。

二.AI/ML 基础知识

1.人工智能（Artificial Intelligence，AI）

(1).定义

人工智能是指让计算机模拟人类智能的技术。它包括学习、推理、解决问题、理解自然语言、感知和识别图像等能力。

(2).发展历程

人工智能的发展可以追溯到 20 世纪 50 年代，经过几十年的发展，如今已经取得了巨大的进步。近年来，随着大数据和计算能力的提升，AI 技术得到了更广泛的应用。

(3).应用领域

AI 技术在医疗、金融、交通、教育、娱乐等领域都有广泛的应用。例如，在医疗领域，AI 可以辅助医生进行疾病诊断。IBM 的 Watson for Oncology 系统能够快速分析患者的病历、检查结果等大量数据，提供诊断建议和治疗方案，帮助医生更全面地了解病情，提高诊断效率和准确性。在金融领域，AI 用于风险评估，通过分析市场数据、交易记录等信息，预测股票价格走势、评估信贷风险，如一些智能投资顾问平台根据用户的风险偏好和财务状况，利用 AI 算法推荐合适的投资组合。

2.机器学习（Machine Learning，ML）

(1).定义

机器学习是人工智能的一个分支，它是让计算机通过数据自动学习和改进的技术。机器学习算法可以从数据中学习模式和规律，然后利用这些模式和规律来进行预测和决策。

(2).学习方式

机器学习主要有三种学习方式，分别是监督学习、无监督学习和强化学习。

①.监督学习

在监督学习中，计算机通过学习带有标签的数据来进行预测。例如，通过学习大量的图片和对应的标签（如猫、狗等），计算机可以学会识别不同的动物。

例如，通过学习大量的图片和对应的标签（如猫、狗等），计算机可以学会识别不同的动物。比如在图像识别软件中，我们提供成千上万张已经标记好是猫或者狗的图片给算法进行训练，算法就会学习到猫和狗在图像特征上的差异，如猫的眼睛形状、耳朵形状等特征与狗有所不同，之后当输入一张新的未标记的图片时，算法就能依据学习到的特征判断这张图片是猫还是狗。

②.无监督学习

在无监督学习中，计算机通过学习没有标签的数据来发现数据中的模式和规律。

例如，通过学习大量的文本数据，计算机可以发现不同的主题和话题。像一些新闻聚合应用，会收集大量的新闻文章，利用无监督学习算法将这些文章按照不同的主题进行分类，如政治、经济、体育等，而无需事先对这些文章进行主题标记。

③.强化学习

在强化学习中，计算机通过与环境进行交互来学习最优的行为策略。

例如，通过玩游戏，计算机可以学习如何做出最优的决策来获得最高的得分。以 AlphaGo 为例，它在与围棋对手对弈的过程中，根据每一步的棋局状态（环境），尝试不同的落子策略（行为），并根据最终的胜负结果（奖励）来不断调整自己的策略，经过大量的对弈训练后，学会了在不同棋局下的最优落子策略，最终击败了人类顶尖棋手。

(3).应用领域

机器学习在图像识别、语音识别、自然语言处理、推荐系统等领域都有广泛的应用。例如，图像识别中的人脸识别，许多手机的解锁功能利用人脸识别技术，通过对用户面部特征的学习，能够准确识别是否是机主从而解锁手机；语音识别中的语音助手，如苹果的 Siri，用户说出语音指令，它能将语音转换为文字并理解指令意图，然后提供相应的服务，如查询天气、设置提醒等；自然语言处理中的机器翻译，谷歌翻译能够将一种语言的文本自动翻译为另一种语言，它通过对大量不同语言的文本数据进行学习，理解语言的语法结构、语义等信息，从而实现较为准确的翻译；推荐系统中的商品推荐，电商平台如亚马逊，根据用户的浏览历史、购买记录等数据，利用机器学习算法分析用户的兴趣偏好，为用户推荐可能感兴趣的商品，提高用户购买转化率。

3.深度学习（Deep Learning）

(1).定义

深度学习是机器学习的一个分支，它是一种基于人工神经网络的机器学习方法。深度学习算法可以自动学习数据中的特征，从而实现高效的分类、预测和决策。

(2).人工神经网络

人工神经网络是一种模仿人类大脑神经元结构的计算模型。它由多个神经元组成，每个神经元接收输入信号，经过处理后输出信号。通过调整神经元之间的连接权重，人工神经网络可以学习数据中的模式和规律。

例如，在图像识别中，一个深度神经网络可能有多个隐藏层。对于一张输入的图片，第一层神经元可能会学习到图片中的边缘、线条等简单特征，第二层神经元则进一步学习由这些简单特征组合而成的更复杂特征，如物体的轮廓，以此类推，最后一层神经元根据前面学习到的特征进行图像分类，判断图片中物体的类别。

(3).应用领域

深度学习在图像识别、语音识别、自然语言处理等领域都取得了巨大的成功。例如，在图像识别中，深度学习算法可以实现高精度的人脸识别、物体识别等。像 Facebook 的人脸识别系统，能够在海量的用户照片中准确识别出人物身份，即使照片中的人物角度、光线等条件有所变化也能精准识别；在语音识别中，深度学习算法可以实现高准确率的语音识别，科大讯飞的语音识别技术在多种场景下都能准确地将语音转换为文字，无论是在嘈杂的环境中还是不同口音的语音输入都有较好的表现；在自然语言处理中，深度学习算法可以实现机器翻译、文本分类、情感分析等。例如，百度翻译利用深度学习技术不断优化翻译效果，在处理一些复杂句式和专业术语时比传统翻译方法更加准确，在文本分类方面，能够将新闻文章、博客、论文等不同类型的文本准确分类，在情感分析中，可以判断一段文本所表达的情感倾向，如积极、消极或中性，对于社交媒体监测、产品反馈分析等有很大的帮助。

三.AI/ML 常用术语

1.数据（Data）

(1).定义

数据是指用于训练和测试机器学习算法的信息。数据可以是结构化的（如表格数据）、半结构化的（如 JSON 数据）或非结构化的（如文本、图像、音频等）。

(2).数据类型

数据可以分为训练数据和测试数据。训练数据用于训练机器学习算法，测试数据用于评估机器学习算法的性能。

例如，在一个预测房价的机器学习模型中，我们收集大量房屋的面积、房间数量、地理位置、周边配套设施等信息作为训练数据，让模型学习这些因素与房价之间的关系，然后用另外一部分未参与训练的房屋数据作为测试数据，来检验模型预测房价的准确性。

(3).数据预处理

在使用数据进行机器学习之前，通常需要进行数据预处理。数据预处理包括数据清洗、数据归一化、数据降维等操作。

比如在数据清洗中，如果数据集中存在缺失值，对于数值型数据可能会采用均值填充的方法，对于类别型数据可能会采用众数填充；数据归一化可以将不同取值范围的特征值统一到一个特定的区间，如将年龄特征的值映射到 0 到 1 之间，这样有助于提高模型的训练效率和准确性；数据降维在处理高维数据时非常有用，例如在图像数据中，可能会通过主成分分析（PCA）等方法将众多像素特征降维为几个主要的特征向量，在保留主要信息的同时减少数据量和计算复杂度。

2.模型（Model）

(1).定义

模型是指机器学习算法在训练数据上学习得到的数学表达式或计算模型。模型可以用于对新的数据进行预测和决策。

例如，线性回归模型是一种简单的模型，它通过学习训练数据中自变量和因变量之间的线性关系，得到一个形如 $y=\beta _{0}+\beta _{1}x _{1}+\beta _{2}x _{2}+\beta _{3}x _{3} +...+\beta _{n}x _{n}$ 的线性方程，其中 $y$ 是预测值， $x_{i}$ 是自变量， $\beta _{i}$ 是模型参数。这个模型就可以根据新的自变量值来预测对应的 $y$ 值。

(2).模型评估

在训练完模型之后，需要对模型进行评估。模型评估的指标包括准确率、召回率、F1 值、ROC 曲线、AUC 值等。

例如，在一个垃圾邮件分类模型中，如果总共有 100 封邮件，其中 80 封是正常邮件，20 封是垃圾邮件。模型预测正确了 70 封正常邮件和 15 封垃圾邮件，那么准确率就是 $(70+50)/100=0.85$ ；召回率对于垃圾邮件来说就是 $15/20=0.75$ 。通过这些指标可以全面了解模型在不同方面的性能表现，以便对模型进行改进。

(3).模型选择

在实际应用中，通常需要选择合适的模型。模型选择的方法包括交叉验证、网格搜索、随机搜索等。

比如在一个图像分类任务中，我们可以使用交叉验证的方法，将数据集分成若干份，轮流用其中的一部分作为测试集，其他部分作为训练集，对不同的模型（如决策树、神经网络等）进行训练和评估，然后选择在平均性能上表现最好的模型作为最终的模型。

3.算法（Algorithm）

(1).定义

算法是指用于实现机器学习任务的具体计算方法。算法可以分为监督学习算法、无监督学习算法和强化学习算法等。

(2)常用算法

常用的机器学习算法包括线性回归、逻辑回归、决策树、随机森林、支持向量机、K 近邻算法、朴素贝叶斯算法、神经网络等。

例如，逻辑回归算法常用于二分类问题，如预测用户是否会购买某商品，它根据用户的一些特征（如年龄、性别、浏览历史等）计算出一个概率值，判断用户购买该商品的可能性；决策树算法通过构建一棵类似树状的结构来进行决策，比如在判断一个水果是苹果还是橙子时，可能会根据水果的颜色、形状、大小等特征构建决策树，从根节点开始，根据不同的特征值分支，最终确定水果的类别；随机森林是由多个决策树组成的集成算法，它综合多个决策树的预测结果，在很多数据挖掘和分类任务中表现出色，如预测森林中树木的种类，通过多个决策树对树木的特征（如树叶形状、树干纹理等）进行分析，综合得出更准确的分类结果。

4.特征（Feature）

(1).定义

特征是指用于描述数据的属性或变量。特征可以是数值型的（如年龄、身高、体重等）、类别型的（如性别、民族、职业等）或文本型的（如单词、短语、句子等）。

例如，在一个预测学生成绩的模型中，学生的学习时间、平时作业成绩、考试次数等可以作为数值型特征，学生的专业、所在班级等可以作为类别型特征，学生的自我评价或老师的评语等可以作为文本型特征。

(2).特征提取

在使用数据进行机器学习之前，通常需要进行特征提取。特征提取的方法包括手动提取特征、自动提取特征等。

比如在图像识别中，手动提取特征可能会提取图像的颜色直方图、边缘特征等，而深度学习中的卷积神经网络则可以自动提取图像的特征，它通过卷积层自动学习到图像中不同层次的特征，如纹理、形状等，相比手动提取特征更加高效和准确。

(3).特征选择

在提取了大量的特征之后，通常需要进行特征选择。特征选择的方法包括过滤式特征选择、包裹式特征选择、嵌入式特征选择等。

例如，在一个预测疾病的模型中，如果有大量的基因数据作为特征，过滤式特征选择可能会根据特征与疾病的相关性进行筛选，去除一些相关性较低的基因特征；包裹式特征选择则会将特征选择与模型训练结合起来，通过评估不同特征子集下模型的性能来选择最优的特征子集；嵌入式特征选择则是在模型训练过程中自动进行特征选择，如 Lasso 回归在训练时会对特征的系数进行约束，使一些不重要的特征系数变为 0，从而实现特征选择。

5.损失函数（Loss Function）

(1).定义

损失函数是指用于衡量模型预测值与真实值之间差异的函数。损失函数的值越小，说明模型的预测值与真实值之间的差异越小，模型的性能越好。

(2).常用损失函数

常用的损失函数包括均方误差损失函数、交叉熵损失函数、Hinge 损失函数等。

例如，在回归问题中，如预测房价，均方误差损失函数 $L=\frac{1}{n}\sum_{i=1}^{n}(y_{i}-y\widehat{}_{i})^2$ 被广泛使用，其中 $y_{i}$ 是真实房价， $y\widehat{}_{i}$ 是模型预测的房价，通过计算预测值与真实值的误差平方和来衡量模型的损失。

6.优化算法（Optimization Algorithm）

(1).定义

优化算法是指用于最小化损失函数的算法。优化算法的目的是找到使损失函数最小的模型参数。

(2).常用优化算法

常用的优化算法包括梯度下降算法、随机梯度下降算法、Adagrad 算法、Adadelta 算法、RMSprop 算法、Adam 算法等。

例如，梯度下降算法在每次迭代时，根据损失函数对模型参数的梯度方向更新参数，朝着使损失函数减小的方向前进。假设我们有一个简单的线性回归模型 $y=\beta x+\varepsilon$ ，损失函数为均方误差，梯度下降算法会计算损失函数关于 $\beta$ 的梯度，然后按照一定的学习率更新 $\beta$ 的值，不断重复这个过程直到损失函数收敛或达到设定的迭代次数。随机梯度下降算法则是每次随机选取一个样本计算梯度并更新参数，相比梯度下降算法在处理大规模数据时计算速度更快，但可能会有更多的波动。

7.过拟合（Overfitting）

(1).定义

过拟合是指模型在训练数据上表现很好，但在测试数据上表现很差的现象。过拟合的原因是模型过于复杂，学习到了训练数据中的噪声和细节，而忽略了数据的本质特征。

例如，在一个多项式回归模型中，如果我们使用过高次数的多项式去拟合数据，模型可能会完美地穿过训练数据中的每一个点，但这样的模型在新的数据上可能会产生很大的误差。比如用一个十次多项式去拟合一组简单的线性关系数据，虽然在训练数据上误差几乎为 0，但对于新的测试数据，由于它过度拟合了训练数据中的随机波动，预测结果可能会偏离真实值很远。

(2).解决方法

解决过拟合的方法包括增加数据量、减少模型复杂度、正则化、早停法等。

例如，在图像分类任务中，如果模型出现过拟合，可以通过收集更多的图像数据来扩充训练集，让模型学习到更广泛的数据特征；减少模型复杂度可以通过降低神经网络的层数或者减少决策树的深度等；正则化方法如 L1 和 L2 正则化，在损失函数中加入正则项，惩罚模型参数的大小，防止模型过于复杂，L1 正则化会使一些参数变为 0，起到特征选择的作用，L2 正则化则会使参数的值趋向于较小的值；早停法是在模型训练过程中，监控模型在验证集上的性能，当性能不再提升时停止训练，防止模型过度训练而导致过拟合。

8.欠拟合（Underfitting）

(1).定义

欠拟合是指模型在训练数据和测试数据上表现都很差的现象。欠拟合的原因是模型过于简单，无法学习到数据中的复杂模式和规律。

例如，在一个预测股票价格的模型中，如果只用股票的开盘价这一个特征构建一个简单的线性模型，由于股票价格受到众多因素（如成交量、宏观经济数据、公司业绩等）的影响，这个简单模型很难捕捉到股票价格的变化规律，无论是在训练数据还是测试数据上都难以得到准确的预测结果。

(2).解决方法

解决欠拟合的方法包括增加模型复杂度、增加特征数量、使用更复杂的算法等。

比如在上述股票价格预测模型中，可以增加更多的特征，如成交量、移动平均线等，或者使用更复杂的算法如神经网络，通过构建多层的神经网络结构，让模型能够学习到股票价格数据中的复杂关系，提高预测的准确性。

9.准确率（Accuracy）

(1).定义

准确率是指模型在测试数据上正确预测的样本数与总样本数之比。准确率是衡量模型性能的一个重要指标，但在不平衡数据集上，准确率可能会产生误导。

(2).计算公式

准确率 = 正确预测的样本数 / 总样本数。

例如，在一个癌症检测模型中，如果有 100 个样本，其中 95 个是健康样本，5 个是癌症样本，模型将 90 个健康样本和 3 个癌症样本预测正确，那么准确率就是 $(90+3)/100=0.93$ ，但从这个准确率来看，似乎模型性能不错，但实际上对于癌症样本这个少数类，它的识别效果并不理想，所以在这种不平衡数据集的，所以在这种不平衡数据集的情况下，仅用准确率来评估模型是不够全面的，还需要结合其他指标如召回率、F1 值等综合考量。

10.召回率（Recall）

(1).定义

召回率是指模型在测试数据上正确预测的正样本数与实际正样本数之比。召回率是衡量模型对正样本的识别能力的一个重要指标。

(2).计算公式

召回率 = 正确预测的正样本数 / 实际正样本数。

继续以上述癌症检测模型为例，实际癌症样本有 5 个，模型正确预测出 3 个，那么召回率就是 3 / 5 = 0.6。这表明模型在识别癌症样本（正样本）时，仅能正确找出 60% 的癌症病例，反映出模型可能会遗漏部分癌症患者的情况，凸显了召回率在评估模型对于少数重要类别检测能力方面的关键作用。

11.F1 值（F1 Score）

(1).定义

F1 值是准确率和召回率的调和平均数。F1 值是衡量模型性能的一个综合指标，它可以平衡准确率和召回率之间的关系。

(2).计算公式

F1 值 = 2 * 准确率 * 召回率 / (准确率 + 召回率)。

在癌症检测模型中，已知准确率为 0.93，召回率为 0.6，那么 F1 值 = 2 * 0.93 * 0.6 / (0.93 + 0.6) ≈ 0.73。F1 值综合考虑了模型在正确分类总体样本以及识别正样本这两方面的表现，当准确率和召回率其中一个较低时，F1 值也会相应受到较大影响，从而促使我们更全面地评估模型性能并进行优化。

12.ROC 曲线（Receiver Operating Characteristic Curve）

(1).定义

ROC 曲线是一种用于评估二分类模型性能的工具。ROC 曲线以假正率（False Positive Rate，FPR）为横坐标，以真正率（True Positive Rate，TPR）为纵坐标。真正率是指模型正确预测的正样本数与实际正样本数之比，假正率是指模型错误预测的正样本数与实际负样本数之比。

例如，在一个信用卡欺诈检测模型中，将正常交易作为负样本，欺诈交易作为正样本。随着模型阈值的变化，真正率和假正率会相应改变，从而绘制出 ROC 曲线。如果模型能够很好地区分欺诈和正常交易，那么 ROC 曲线会更靠近左上角；反之，如果模型性能较差，ROC 曲线会更接近对角线。

(2).曲线特点

ROC 曲线越靠近左上角，说明模型的性能越好。当 ROC 曲线与对角线重合时，说明模型的性能与随机猜测相同。

比如在一个垃圾邮件分类模型中，如果 ROC 曲线非常接近对角线，这意味着模型在区分垃圾邮件和正常邮件时几乎没有效果，就如同随机判断一封邮件是否为垃圾邮件一样，而如果曲线靠近左上角，则表明模型能够较为准确地识别出垃圾邮件，同时误判正常邮件为垃圾邮件的概率较低。

13.AUC 值（Area Under the Curve）

(1).定义

AUC 值是 ROC 曲线下的面积。AUC 值是衡量二分类模型性能的一个综合指标，它的值越大，说明模型的性能越好。

(2).取值范围

AUC 值的取值范围在 0.5 到 1 之间。当 AUC 值为 0.5 时，说明模型的性能与随机猜测相同；当 AUC 值为 1 时，说明模型的性能完美。

在医学诊断模型中，例如检测某种疾病，AUC 值越高，说明模型在区分患病和未患病患者方面越准确。如果 AUC 值为 0.7，表明模型有一定的诊断能力，但仍有提升空间；若达到 0.9 以上，则说明模型在该疾病的诊断上表现较为出色，能够较为可靠地辅助医生进行判断。

四.总结

AI/ML 是一个充满挑战和机遇的领域。通过了解 AI/ML 的基础知识和常用术语，我们可以更好地理解这一领域，并为进一步学习和应用 AI/ML 技术打下坚实的基础。在未来，随着技术的不断进步，AI/ML 将会在更多的领域发挥重要作用，为我们的生活带来更多的便利和创新。

如果不够细的话，就再推荐一位博主的博客：机器学习入门基础（万字总结）（建议收藏！！！）-CSDN博客

这只是一篇引入啦，后续会有详细介绍的哟~