西瓜书学习笔记一 引言 基本术语 机器学习周志华

server/2025/1/15 21:53:55/

第1章 绪论

1.1引言

日常生活中有很多基于经验做出的预判,如判断天气、判断西瓜是否成熟。我们能做出有效的预判,是因为我们已经积累了许多经验,而通过对经验的利用,就能对新 情况做出有效的决策。

机器学习它致力于研究如何通过计算的手段,利用经验来改善系统自身的性能。在计算机系统中,"经验"通常以"数据"形式存 在,因此,机器学习所研究的主要内容,是关于在计算机上从数据中产生"模型" (model) 的算法,即"学习算法" (learning algorithm)。([Mitchell, 1997J 给出了 一个更形式化的定义假设用来评估计算机程序在某任务类上的性能, 若一个程序通过利用经验E在T中任务上获得了性能改善,则我们就说关于T和P,该程序对E进行了学习。)

本书用"模型"泛指从数据中学得的结果。有文献用"模型"指全局性结果(例如一棵决策树),而用"模式"指局部性结果(例如一条规则).

1.2基本术语

要进行机器学习,先要有数据。假定我们收集了一批关于西瓜的数据,例如(色泽=青绿;根蒂=蜷缩;敲声=浊响), (色泽=乌黑;根蒂:稍蜷;敲声=沉闷), (色泽=浅白;根蒂 硬挺;敲声=清脆),……,每对括号内是一条记录, "=”意思是"取值为"。

这组记录的集合称为一个"数据集" (data set) ,其中每条记录是关于一个事件或对象(这里是一个西瓜)的描述,称为一个"示例" (instance) 或"样本" (sample)。反映事件或对象在某方面的表现或性质的事项,称为"属性" (attribute) 或"特征" (feature);属性上的取值,称为"属性值" (attribute value)。属性张成的空间称为"属性空间" (attribute space) "样本空间" (sample space) 或"输入空间"。例如我们把"色泽" "根蒂" "敲声"作为三个坐标轴,则它们张成 一个用于描述西瓜的三维空间,每个西瓜都可在这个空间中找到自己的坐标位置。由于空间中的每个点对应一个坐标向量,因此我们也把一个示例称为一个 "特征向量" (feature vector)。

一般地,令 D = {x_{1},x_{2},...,x_{m}}表示包含 m 个示例的数据集,每个 示例由d个属性描述,,则每个示例 x_{i} = (x_{i1}; x_{i2}; . . . ;x_{id}) 是 d 维样本空间 \chi中的一个向量, x_{i}\in \chi,其中 x_{ij} 是 x_{i} 在第j个属性上的取值, d 称为样本 x_{i} 的“维数”(dimensionality)。

从数据中学得模型的过程称为"学习" (learning) 或"训练" (training),训练过程中使用的数据称为"训练数据" (training data) ,其中每个样本称为一个“训练样本" (training sample), 训练样本组成的集合称为"训练集" (training set).学得模型对应了关于数据的某种潜在的规律,因此亦称"假设" (hypothesis);这种潜在规律自身,则称 为"真相"或"真实" (ground-truth) ,学习过程就是为了找出或逼近真相。本书有时将模型称为“学习器”(learner)。

关于示例结果的信息,例如"好瓜",称为"标记”(lable);拥有了标记信息的示例,则称为"样例" (example)。一般地,用(x_{i},y_{i})表示第 i 个样例,其中 y_{i}\in \gamma 是示例 xi的标记,γ 是 所有标记的集合,亦称标记空间(lable space)输出空间

若我们欲预测的是离散值,此类学习任务称为分类(classification);若欲预测的是连续值,此类学习任务称为回归(regression)。对只涉及两个类别的二分类(binary classification)任务,通常称其中一个类为正类(positive class),另一个类为反类(negative class);设计多个类别时,则称为多分类(multi-class classification) 任务。

一般地,预测任务是希望通过对训练集{{(x_{1},y_{1}),(x_{2},y_{2}),...,(x_{m,y_{m}})}}进行学习,建立一个从输入空间 X 到输出空间 Y 的映射 f:X \mapsto Y。对二分类任务,通常令 Y={-1, +1} 或 {0, 1} ;对多分类任务,\left | Y \right |>2;对回归任务, Y = \mathbb{R}\mathbb{R}为实数集。

学得模型后,使用其进行预测的过程称为“测试”(testing),被预测的样本称为“测试样本”(testing sample)。亦称“测试示例”(testing instance)或测试例。

我们还可以对西瓜做“聚类”(clustering),即将训练集中的西瓜分成若干组,每组称为一个“”(cluster)。这些自动形成的簇可能对应一些潜在的概念划分,例如“浅色瓜”、“深色瓜”。

根据训练数据是否用用标记信息,学习任务可大致划分为两大类:“监督学习”(supervised learning)“无监督学习”(unsupervised learning),分类和回归是前者的代表,而聚类则是后者的代表。

需注意的是,机器学习的目标是使学得的模型能很好地适用于"新样本", 而不是仅仅在训练样本上工作得很好;即便对聚类这样的无监督学习任务,我们也希望学得的簇划分能适用于没在训练集中出现的样本.学得模型适用于新样本的能力,称为"泛化" (generalization) 能力。通常假设样本空间中全体样本服从一个未知"分布" (distribution) 我们获得的每个样本都是独立 地从这个分布上采样获得的,即"独立同分布" (independent and identically distributed ,简称 i.i.d.). 一般而言,训练样本越多,我们得到的关于的信息越多,这样就越有可能通过学习获得具有强泛化能力的模型。


http://www.ppmy.cn/server/100927.html

相关文章

云原生与微服务

微服务和云原生是现代软件架构中常用的概念,通常用于构建灵活、可扩展和易于维护的应用程序。 微服务(Microservices) 微服务是一种软件架构风格,它将一个大而复杂的应用程序拆分为多个小型的、独立的服务。每个服务都可以单独开…

优化图像处理:从旋转与缩放到水印添加

1. 旋转与缩放的仿射变换 在 OpenCV 中,cv2.getRotationMatrix2D() 函数可以生成旋转矩阵,该矩阵用于对图像进行旋转和缩放变换。旋转矩阵的主要参数是: Center:旋转中心点的坐标 (x, y)。 Angle:旋转角度&#xff0…

Java学习Day28:Mysql 第二章:斗气大陆

一共有十一个步骤&#xff0c;最先执行的是FROM操作&#xff0c;最后执行的是LIMIT操作。每个操作都会产生一个虚拟表&#xff0c;该虚拟表作为一个处理的输入&#xff0c;具体执行顺序如下&#xff1a; (1) FROM:对FROM子句中的左表<left_table>和右表<right_table&g…

安装Redis Desktop Manager

文章目录 前言一、安装1. C 插件2. Redis Insight 二、连接1. 连接 三、操作1. 增加数据2. 查看数据3. 修改数据4. 删除数据 总结 前言 redisdesktop是一款可视化的redis监控工具&#xff0c;使用它我们可以更方便地访问redis&#xff0c;就像Navicat相对于Mysql和Oracle一样。…

[微软数据库]了解sql server数据库

一、介绍 SQL Server是由Microsoft开发和推广的关系数据库管理系统&#xff08;DBMS&#xff09;&#xff0c;它最初是由Microsoft、Sybase和Ashton-Tate三家公司共同开发的&#xff0c;并于1988年推出了第一个OS/2版本。 特点&#xff1a;图形化用户界面、飞赴的编程接口、很…

Linux安装MinIO(详细教程)

在Linux系统上安装MinIO的步骤相对直接&#xff0c;以下是详细的安装步骤&#xff1a; 一、准备工作 确保系统已更新&#xff1a;首先&#xff0c;确保你的Linux系统已更新到最新版本&#xff0c;并安装了必要的依赖工具&#xff0c;如curl和wget。选择安装目录&#xff1a;决…

提高超短期功率预测的准确性

提高超短期功率预测的准确性&#xff1a; 数据质量与预处理 高质量的数据&#xff1a;确保所使用的数据准确无误&#xff0c;避免噪声和异常值的影响。 特征工程&#xff1a;选择与预测结果相关性高的特征&#xff0c;例如天气条件、历史功率数据等。 数据清洗&#xff1a;去除…

SQL注入之查询方式及报错盲注

如果SQL注入没有回显&#xff0c;可能是SQL语句查询方式的问题导致的&#xff0c;所以需要用到相关的报错或盲注进行后续操作 sql注入的查询方式&#xff1a;select&#xff0c;insert&#xff0c;update&#xff0c;delete 比如在注册时&#xff0c;就需要用到insert…