机器学习和深度学习是人工智能的主流方法技术,两者有区别又有联系。
(1)机器学习
机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。它是人工智能核心,是使计算机具有智能的根本途径。
百度百科-科普中国“科学百科词条编写与应用工作项目”审核
有3个基本点,第一:机器学习是一门多领域交叉学科;第二:专门研究计算机怎样模拟或实现人类的学习行为;第三:是人工智能的核心,是使计算机具有智能的根本途径。
按方法分类,机器学习可分为以下几类。
-
有监督学习:需要大量有标注数据。
-
无监督学习:无需标注,但是计算难度很大。
-
半监督学习:需要少量的有标注数据。
-
迁移学习:不必从头开始训练模型,而是基于现有的模型算法稍加调整即可应用于一个新的领域或功能。
-
强化学习:利用学习得到的模型来指导行动选择一个初始策略,在学习过程中,决策 主题通过行动和环境交互,不断获得反馈(回报或惩罚),并据此调整优化策略等。各种学习方法的区别和联系见下表。
特征/类别 | 有监督学习 | 无监督学习 | 半监督学习 | 迁移学习 | 强化学习 |
定义 | 使用带有标签的数据集进行训练,目的是让模型学会从输入映射到输出。 | 在没有标签的数据集中寻找隐藏的结构或模式。 | 利用少量已标记数据和大量未标记数据进行训练,旨在提高模型性能。 | 将一个领域(源域)学到的知识应用到另一个相关领域(目标域)。 | 智能体通过与环境互动来学习如何做出最优决策,目标是最大化累积奖励。 |
数据需求 | 需要大量的带标签数据,通常由专家标注。 | 不需要标签,处理的是原始数据。 | 结合了少量的标注数据和大量的未标注数据。 | 需要在源域有足够的数据,并且目标域可能只有少量或没有标签的数据。 | 不依赖于静态的数据集,而是依赖于智能体与环境之间的动态交互。 |
应用场景 | 图像识别、语音识别、文本分类、回归分析等。 | 聚类分析、降维、异常检测、市场篮子分析等。 | 文本分类、图像识别等领域,当获取大量标注数据成本过高时特别有用。 | 多语言翻译、跨领域的知识迁移、小样本学习等。 | 游戏AI、机器人控制、自动驾驶、推荐系统等。 |
主要算法 | 决策树、支持向量机(SVM)、逻辑回归、神经网络等。 | K-means聚类、主成分分析(PCA)、自编码器、生成对抗网络(GAN)等。 | 自训练、共训练、图半监督学习等。 | 预训练+微调、特征迁移、模型迁移等。 | Q-learning、深度Q网络(DQN)、策略梯度方法等。 |
优点 | 可以通过大量已有标记数据训练模型,使得模型的预测结果更加准确。 可以对数据进行分类和预测。 | 无需标记大量数据,降低了数据标记的成本。 可以自动发现数据的结构和模式。 | 可以减少标记数据的数量,降低数据标记的成本。 可以利用未标记数据来提高模型的预测能力。 | 能够有效利用源域的大规模数据。 减少了为目标域收集大量数据的需求。 | 可以处理与环境交互的问题。 可以学习最佳策略,使得智能体在特定环境下做出最优决策。 |
缺点 | 需要大量的已标记数据,而且需要人工进行标记。 模型只能预测已知类别。 | 无法利用标记数据进行训练,因此预测结果可能不够准确。 很难对生成的结果进行验证和解释。 | 需要大量未标记数据,模型可能会过度拟合未标记数据。 无法处理未知类别的数据。 | 如果源域和目标域之间存在较大差异,则迁移效果不佳。 需要仔细选择哪些部分可以迁移。 | 训练时间较长,需要进行大量的试验和训练。 需要精心设计奖励函数,使得智能体能够学习到最佳策略。 |
学习方式 | 通过给定的输入-输出对调整模型参数,以最小化误差。 | 通过探索数据内在结构,如相似性或分布特性。 | 通过结合少量标注数据和大量未标注数据来改进模型泛化能力。 | 通过调整预训练模型的部分参数,使其适应新的任务或领域。 | 通过试错机制,根据环境反馈调整行为策略。 |
反馈机制 | 直接从训练数据中获得明确的反馈(标签)。 | 通过算法内部评估数据间的关联性。 | 通过少量标注数据提供指导,同时利用未标注数据增强模型。 | 通过源域的成功经验指导目标域的学习过程。 | 通过环境提供的即时或延迟奖励信号来调整行为。 |
按任务分类,机器学习可分为以下几类。
-
回归(有监督):预测的数据对象是连续值,输入的数据经过模型运算,输出结果通常也是连续值,例如价格预测、流量预测等。
-
分类(有监督):预测的数据对象是离散值,输入的数据经过模型运算,输出结果的类别,例如图像分类、垃圾邮件分类、医疗诊断结果等。
-
聚类(无监督):在数据中寻找隐藏的模式或分组,输入的数据经过距离指标计算相似度,最终具有较高相似度的数据聚为一类,例如细分客户、新闻聚类、文章推荐等。
机器学习的经典算法包括:线性回归、逻辑斯蒂分类、K-近邻分类、K-均值聚类、贝叶斯分类、决策树等。各种任务的区别和联系见下表。
特征/类别 | 回归(有监督) | 分类(有监督) | 聚类(无监督) |
定义 | 预测一个或多个连续值输出的任务,基于输入特征预测目标变量的具体数值。 | 将输入数据分配到预定义的一组离散类别中的任务,目标是确定每个样本属于哪个类别。 | 在没有预先定义类别的情况下,根据数据点之间的相似性将它们分组成簇。 |
标签需求 | 需要带有连续数值标签的数据集用于训练模型。 | 需要带有离散类别标签的数据集用于训练模型。 | 不需要标签,仅依赖于输入数据本身来发现潜在结构。 |
算法示例 | 线性回归、多项式回归、岭回归、LASSO、支持向量回归(SVR)、随机森林回归等。 | 逻辑回归、K近邻(KNN)、决策树、支持向量机(SVM)、朴素贝叶斯、随机森林分类等。 | K均值聚类、层次聚类、DBSCAN、高斯混合模型(GMM)、谱聚类等。 |
应用场景 | 房价预测、股票价格走势预测、天气预报、销售量预测等。 | 垃圾邮件检测、情感分析、手写数字识别、疾病诊断等。 | 客户细分、异常检测、基因表达分析、文档分类前的预处理等。 |
评估指标 | 平均绝对误差(MAE)、均方误差(MSE)、R²得分等。 | 准确率(Accuracy)、精确率(Precision)、召回率(Recall)、F1-Score、AUC-ROC等。 | 内部度量(如Davies-Bouldin指数、Silhouette系数)和外部度量(如Jaccard系数)。 |
(2)深度学习
深度学习(Deep Learning)特指基于深层神经网络模型和方法的机器学习。它是在统计机器学习、人工神经网络等算法模型基础上,结合当代大数据和大算力的发展而发展出来的。深度学习最重要的技术特点是具有自动提取特征的能力,所提取的特征也称为深度特征或深度特征表示,相比于人工设计的特征,深度特征的表示能力更强、更稳健。因此,深度学习的本质是特征表征学习。深层神经网络是深度学习能够自动提取特征的模型基础,深层神经网络本质上是一系列非线性变换的嵌套。目前看来,深度学习是解决强人工智能这一重大科技问题的最具潜力的技术途径,也是当前计算机、大数据科学和人工智能领域的研究热点。
百度百科-国防科技大学电子科学学院参与编辑并审核,经科普中国·科学百科认证 。
有5个基本点,第一:基于深层神经网络模型和方法的机器学习;第二:具有自动提取特征的能力;第三:深层神经网络是是自动提前特征的模型基础;第四:深层神经网络是一系列非线性变换的嵌套;第五:深度学习需要大数据、大算力支撑。
近几年,深度学习领域发展迅猛,一些特有的学习手段(如残差网络)相继被提出,因此越来越多的人将深度学习单独看作一种新的人工智能技术。2018年,有“深度学习三巨头”之称的约书亚 ·本希奥(Yoshua Bengio)、Geo- ffrey Hinton、杨立昆(Yann LeCun)共同获得了图灵奖,更是掀起了一阵深度学习研究的热潮。
绝大多数的深度学习模型以人工神经网络为基础。20世纪80年代,人工神经网络是一种帮助计算机识别模式和模拟人类智能的工具,但因其训练速度慢、容易过拟合、经常出现梯度消失以及在网络层次比较少的情况下效果并不比其他算法更优等。直到21世纪初,只有Yann LeCun等少数学者仍然坚持耕耘在这一领域。尽管他们的努力也曾遭到怀疑,但随着计算性能的提升和互联网时代数据量的爆炸式增长,他们的想法最终点燃了人工智能社区对神经网络的兴趣,带来了一些新的重大技术进步。
最初的深度学习是利用深度神经网络来解决特征表达的一种学习过程。深度神经网络本身并不是一个全新的概念,其可大致被理解为包含多个隐含层的神经网络结构。早年,科学家们也曾有过加深神经网络的想法,但由于当时训练数据量不足、计算能力落后,以及训练方法失效,最终的效果不尽如人意。
深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征,以发现数据的分布式特征表示,应对深度神经网络训练的难度。为了提高深度神经网络的训练效果,科学家们对神经元的连接方法和激活函数等方面也做出相应的调整。深度学习出人意料般地实现了各种任务,使得似乎所有的机器辅助功能都变为可能。无人驾驶汽车、预防性医疗保健、精准的推荐系统都近在眼前或即将实现。
(3)人工智能、机器学习、深度学习三者的关系
机器学习是一种实现人工智能的方法,深度学习是一种实现机器学习的技术,这便是三者之间的关系。
目前,业界有一种较为普遍的错误认识,即“深度学习最终可能会淘汰掉其他所有机器学习算法”。这种认识的产生主要是因为当下深度学习在计算机视觉、自然语言处理领域的性能远超过传统的机器学习方法,并且媒体对深度学习进行了大肆报道,夸大了深度学习的能力。然而,深度学习尽管是目前最热的机器学习方法,但并不意味着它是机器学习的终点, 目前主要体现为以下几点。
① 深度学习模型需要大量的训练数据,才能展现出神奇的效果,但现实生活中往往会遇到小样本问题,此类问题使用深度学习方法无法解决,而使用传统机器学习方法则可以处理这一问题。
② 有些问题的复杂度低,采用传统机器学习方法就可以很好地解决,没必要非得用复杂的深度学习方法。
③ 深度学习的思想受到人脑的启发,但绝不是人脑的模拟。例如,给一个三四岁的小孩看一辆自行车之后,当他/她再次见到哪怕外观完全不同的自行车,他/她大概率也能识别出那是一辆自行车。也就是说,人类的学习过程往往不需要训练大规模数据,而现在的深度学习方法难以具备这一能力。