第三章. Types of Learning
3.1 Learning with Different Output Space Y
1.机器学习解决问题的类型
1).分类问题—输出值为离散值
①.二元分类问题:
·二元分类是机器学习领域的基本核心问题,二元分类有线性模型和非线性模型,根据具体情况,选择合适的模型种类。i
·应用场景:例如信用卡的发放,垃圾邮件的判别,患者疾病诊断等等
②.多元分类问题:
·多元分类的输出对于两个,y={1, 2, … , k}, k>2
·应用场景:数字识别,图像内容识别
2).回归问题—输出值为连续值
①.这类问题的输出y=R,即范围在整个实数空间,是连续的.
②.应用场景:股票收益,房屋价格预测等
3).自然语言处理领域—结构化学习(Structured Learning)
①.结构化学习的输出空间包含了某种结构在里面,它的一些解法通常是从多分类问题延伸而来的。
3.2 Learning with Different Data Label yn
1.机器学习方式:
1).监督学习:
·定义:
在训练集中既有输入特征x,也有输出标签yn
·应用:
二元分类,多元分类,回归.
2).非监督学习:
·定义:
在训练集中只有输入特征x,非监督的问题很多都可以使用监督式学习的一些算法思想来实现。
·应用:
聚类问题:网页上新闻的自动分类,交通路况分析;异常检测:用户网络流量监控.
3).半监督学习:
·定义:是监督学习和非监督学习相结合的一种学习方式,一部分数据有输出标签yn,一部分数据没有输出标签yn.
4).增强学习:
·定义:
给模型一些输入特征,但是给不了我们希望的真实输出yn,根据模型的输出反馈,若反馈结果好,接近真实输出,就给正向激励,若反馈结果不好,偏离真实输出,就给反向激励,不断通过“反馈修正”这种形式,一步一步让模型学习的更好,这就是增强学习的核心.
·举例:
比如我们要训练狗狗坐下,但是狗狗无法直接听懂我们的指令“sit down”。在训练过程中,我们给狗狗示意,如果它表现得好,就给它奖励,如果它做跟sit down无关的动作,我们就给它小小的惩罚,通过不断修正狗狗的动作,最终能让它按照我们的指令来行动.
3.3 Learning with Different Protocol f(xn,yn)
1.按照不同协议,机器学习可分为3类:
1).Batch Learning(填鸭式)
·定义:
batch learning是一种在实际应用中最广泛的类型,一次性获取一批次的训练集,进行学习建模,得到我们最终的机器学习模型。
2).Online(老师教学)
·定义:
online是一种在线学习模型,数据是实时更新的 ,根据数据的更新同步更新算法,
·举例:
这是一个动态的过程:比如在线邮件过滤系统,根据每封邮件的内容,根据当前算法判断是否为垃圾邮件,再根据用户反馈,及时更新当前算法,例如上一章节中的PLA和增项学习都可以使用online模型。
3).Active Learning(主动问问题)
·定义:
让机器具备主动问问题的能力,例如手动数据识别,机器自动生成一个数字或者对他不确定的手写字主动提问。
·优势:
在获取样本label比较困难的时候,可以节约时间和成本,只对一些重要的label提出需求。
3.4 Learning with Different Input Space X
1.按照输入类型,机器学习可分为3类
1).concrete features
·举例:
硬币分类问题中硬币的大小和重量;疾病诊断中病人的信息的具体特征。
2).raw features
·定义:
raw features一般比较抽象,需要人或者机器来转换为对应的concrete features,这个转换过程叫做Feature Transform。
·举例:
手写数字识别中每个数字在图形中n维像素值;语音信号的频谱等
3).abstract features
·定义:
abstract features的特征是完全抽象的,没有实际的物理意义。对机器学习来说是比较困难的,需要对特征进行更多的提取和转换。
·举例:
某购物网站做购买预测;提供给参赛者抽象加密后的资料编号。
3.5 总结
本节主要介绍了机器学习按照不同的标准可以分成不同的类型。