第一章:机器学习基础
1.1.2 机器学习主要流派
1.符号主义
2.贝叶斯分类——基础是贝叶斯定理
3.联结主义——源于神经学,主要算法是神经网络。——BP算法:作为一种监督学习算法,训练神经网络时通过不断反馈当前网络计算结果与训练数据之间的误差来修正网络权重,使误差足够小。
4.进化计算——通过迭代优化,找到最佳结果。——具有自组织、自适应、自学习的特性,能够有效处理传统优化算法难以解决的复杂问题(例如NP困难优化问题)。
5.行为主义——强化学习
1.2. 机器学习、人工只能和数据挖掘
1.2.2 什么是数据挖掘
1.异常检测:对不符合预期模式的样本、事件进行识别。
2.关联规则学习:在数据库中发现变量之间的关系
3.聚类:聚类是一种探索性分析,在未知数据结构的情况下,根据相似性把样本分为不同的簇或子集,不同簇的样本具有很大的差异性,从而发现数据的类别与结构。
4.分类:根据已知样本的某些特征,判断一个新样本属于哪种类别。
5.回归:回归是一种统计分析法,用于了解两个或多个变量之间的相关关系。回归的目标是找出误差最小的拟合函数作为模型,用特定的自变量来预测因变量的值。
1.3 机器学习应用的典型领域
1.图像处理
2.金融
3.医疗
4.自然语言处理
5.网络安全
6.工业
7.娱乐业
1.4 机器学习算法
(1)有监督学习——从有标记的训练种学习一个模型,然后根据这个模型对未知样本进行预测。
有监督学习包括分类和数字预测两大类别,前者包括逻辑回归、决策树、KNN、随机森林、支持向量机、朴素贝叶斯等。后者包括线性回归、KNN、梯度提升和自适应提升等
(2)无监督学习——输入样本不需要标记,而是自动从样本中学习特征实现预测。常见的无监督学习算法有聚类和关联分析等,在人工神经网络中,自组织映像和适应谐振理论是最常用的无监督学习。
(3)强化学习——通过观察来学习做什么样的动作。
1.分类算法——是应用分类规则对记录进行目标映射,将其划分到不同的分类中,构建具有泛能力的算法模型,即构建映射规则来预测未知样本的类别。
分类算法包括预测和描述两种,经过训练集学习的预测模型在遇到未知记录,应用规则对其进行类别划分,而描述型的分类主要对现有数据集中特征进行解释并进行区分。
主要的分类算法包括决策树、支持向量机、KNN、贝叶斯网络和神经网络等。
- 决策树:决策树是一颗用于决策的树,目标类别作为叶结点,特征属性的验证作为非叶节点,而每个分支是特征属性的输出结果。 决策树的构建过程是按照属性的优先级或重要性来逐渐确定树的层次结构,使叶节点尽可能属于同一类别,一般采用局部最优的贪心策略来构建决策树。
- SVM:其主要思想是将低维特征空间中的线性不可分进行非线性映射,转化为高位空间的线性可分。
- KNN:对样本应用向量空间模型表示,将相似高的样本分为一类,对新样本计算与之距离最近(最相似)的样本的类别。
- 贝叶斯网络:基于贝叶斯定理绘制的具有概率分布的有向弧段图形化网络,其理论基础是贝叶斯公式,网络中的每个点表示变量,有向弧段表示两者间的概率关系。
- 神经网络:包括输入层、隐藏层、输出层,每一个节点代表一个神经元,节点之间的连线对应权重,输入变量经过神经元时会运行激活函数,对输入值赋予权重并加上偏置,将输出结果传递到下一层中的神经元,而权重和偏置在神经网络训练过程中不断修正。
2.聚类算法
聚类是基于无监督学习的分析模型。
聚类方法可分为基于层次的模型、基于划分的聚类、基于密度的聚类、基于约束的聚类、基于网络的聚类等。