11.1 简述监督学习的定义及其六个步骤
有监督学习:是用一组已标注的训练数据对机器学习算法进行训练,得到其中最优的一个假设。然后用该假设对未知数据进行处理,实现相应功能。
1确定训练数据类型。即先确定使用何种类型的数据作为训练数据。是文字,还是词语还是一句话
2构建训练数据集。每个训练数据都需要进行标注,标注工作常常是由该领域的专业人员来完成,对每个输入数据标注其输出值,形成数据对,从而构建出训练数据集。
3确定特征提取方法
4设计算法。即设计用于解决既定任务的算法
5训练该算法。即用训练数据集对所设计的算法进行训练。在训练之前需要为算法设定一些特定的参数,随后逐个用训练数据进行调整和优化这些参数值,直到使其性能达到最优,从而得到其中的一个假设。
6 精确性评估:在训练结束后,需要用验证数据集对该假设的精确性进行评估。验证数据集不同于训练数据集。
11.2 本章将半监督学习、弱监督学习、一次性学习、自监督学习、以及零次性学习作为监督学习的关联范式,这样做是否合理?为什么?
半监督学习:除了已标注训练数据外,还利用未标注数据进行训练。半监督学习可以降低人工标注成本,同时利用大量的无标签数据。
弱监督学习:仅采用有限数量的训练数据来训练。弱监督学习可以克服标注难度高或噪声大的问题,提高模型泛化能力。
一次性学习:仅采用一个或少数几个训练数据进行训练。
自监督学习:训练数据没有外部给定的标签,但是模型可以通过一些辅助任务(pretext)来自动生成一些内部的标签,然后用这些内部标签来训练模型,从而学习到数据的内在表示(representation),再用这些表示来做下游任务(do