机器学习-基本术语

ops/2025/1/21 5:36:43/

文章目录

      • 1. **数据集(Dataset)**
      • 2. **样本(Sample)**
      • 3. **属性(Attribute)**
      • 4. **特征(Feature)**
      • 5. **属性值(Attribute Value)**
      • 6. **属性空间(Attribute Space)**
      • 7. **样本空间(Sample Space)**
      • 8. **输入空间(Input Space)**
      • 9. **特征向量(Feature Vector)**
      • 总结:

1. 数据集(Dataset)

  • 数据集是由多个样本组成的集合,每个样本包括多个特征。数据集的目标是用于训练模型。
  • 示例:假设有一个房屋数据集,包含了以下内容:
    面积(平方米), 房龄(年), 位置, 房价(万元)
    100, 5, 市中心, 500
    80, 10, 郊区, 350
    120, 3, 市中心, 600
    90, 8, 郊区, 400
    

2. 样本(Sample)

  • 样本是数据集中的一个数据点,表示一个具体的房屋。每个样本由多个属性(特征)组成。
  • 示例:一个样本可能是:
    100, 5, 市中心, 500
    
    这表示一套面积为100平方米、房龄5年的房屋,位于市中心,价格是500万元。

3. 属性(Attribute)

  • 属性是用于描述样本的特征,通常用来区分不同的样本。
  • 示例:对于上面的样本,属性可以是:
    • 面积(平方米)
    • 房龄(年)
    • 位置(如:市中心、郊区等)
    • 房价(万元)

4. 特征(Feature)

  • 特征通常是样本的具体属性,表示样本的某一维度的数据。特征用于机器学习模型的训练。
  • 示例:在房价预测中,“面积”、“房龄”、“位置”都是特征。通常,“房价”是目标变量(也叫标签),不是特征。

5. 属性值(Attribute Value)

  • 属性值是样本中某一属性的具体取值。
  • 示例:对于样本 100, 5, 市中心, 500,属性值分别是:
    • 面积:100
    • 房龄:5
    • 位置:市中心
    • 房价:500

6. 属性空间(Attribute Space)

  • 属性空间是所有属性可能的取值集合,描述了每个属性的值域。
  • 示例
    • 面积属性空间:可能是[0, 1000](平方米),表示所有可能的面积范围。
    • 房龄属性空间:可能是[0, 100](年),表示房龄的可能取值范围。
    • 位置属性空间:可能是{“市中心”, “郊区”},表示房屋可能的所在位置。
    • 房价属性空间:可能是[100, 1000](万元),表示房价的可能范围。

7. 样本空间(Sample Space)

  • 样本空间是数据集中的所有可能样本的集合。它描述了数据集中的所有可能样本的组合。
  • 示例:样本空间包括了所有可能的房屋记录,例如:
    100, 5, 市中心, 500
    80, 10, 郊区, 350
    120, 3, 市中心, 600
    90, 8, 郊区, 400
    
    样本空间包含所有类似的记录,并且每个样本由多个属性值(如面积、房龄、位置)构成。

8. 输入空间(Input Space)

  • 输入空间是指在模型中,输入数据的所有可能取值集合。在训练时,输入空间通常是指特征空间,除去目标变量(标签)。
  • 示例:在房价预测中,输入空间包括所有可能的特征值组合,即“面积”和“房龄”以及“位置”,但是不包括“房价”(目标变量)。输入空间可能是:
    • 面积:0到1000平方米
    • 房龄:0到100年
    • 位置:{市中心, 郊区}

9. 特征向量(Feature Vector)

  • 特征向量是一个由样本的各个特征值组成的向量,是样本在多维特征空间中的数学表示。
  • 示例:对于一个样本 100, 5, 市中心, 500,其特征向量可以表示为:
    [100, 5, 0]
    
    其中,“100”是面积,“5”是房龄,“0”是“市中心”的编码(假设我们用独热编码将“市中心”映射为0,郊区映射为1)。

总结:

  • 数据集:包含多个样本(如一组房屋数据)
  • 样本:数据集中的每一条记录(如一个房屋的数据)
  • 属性:样本中的各个特征(如面积、房龄、位置)
  • 特征:与属性相同,描述样本的维度(如面积、房龄、位置)
  • 属性值:某一属性的具体值(如100平方米、5年)
  • 属性空间:属性可能的所有取值范围(如面积[0, 1000]平方米)
  • 样本空间:数据集中的所有可能样本的集合
  • 输入空间:模型训练时的输入数据的所有可能取值,通常不包括目标变量(标签)
  • 特征向量:将样本的各个特征值组合成的一个数学向量(如[100, 5, 0]

http://www.ppmy.cn/ops/151839.html

相关文章

如何爬取淘宝详情接口

在电商领域,淘宝作为中国最大的在线零售平台之一,拥有海量的商品数据。获取这些商品的详情信息对于市场分析、用户体验优化和商业决策具有重要意义。本文将详细介绍如何使用Python爬虫技术来爬取淘宝的详情接口数据,包括环境搭建、基本爬虫编…

HTML5 教程(下)

HTML5 Video(视频) HTML5 Video(视频) 在本节内容中,你将了解到在HTML5中视频是如何工作的、主流浏览器支持的视频格式以及如何对网页中的视频进行控制。 很多站点都会使用到视频. HTML5 提供了展示视频的标准。 检测您的浏览器是否支持 HTML5 视频: …

IP归属地为什么和定位不一致?原因解析

在数字化时代,IP地址作为网络设备的唯一标识符,不仅关乎设备间的通信,还涉及到用户的网络身份与位置信息。其中,IP归属地作为IP地址的地理位置信息,备受用户关注。然而,在日常使用中,不少用户会…

后端开发流程学习笔记

后端开发流程学习笔记 术语前瞻 分类英文中文解释研发模式Waterfall Model瀑布模型瀑布模型(Waterfall Model)最早强调软件或系统开发应有完整之周期,且必须完整的经历周期之每一开发阶段,并系统化的考量分析与设计的技术、时间…

探秘 JMeter 前置处理器:让性能测试如虎添翼

想象一下,你是一位超级英雄,要对一个庞大的虚拟城市(Web 应用)进行全面的 “健康检查”。JMeter 就是你的神奇工具包,而其中的前置处理器,就像是这个工具包里的各种超级武器,能帮助你轻松应对各…

网络安全VS数据安全

关于网络安全和数据安全,我们常听到如下两种不同声音: 观点一:网络安全是数据安全的基础,把当年做网络安全的那一套用数据安全再做一遍。 观点二:数据安全如今普遍以为是网络安全的延伸,实际情况是忽略数据…

前端Vue框架——npm ci与npm install的区别以及package-lock.json文件与package.json的区别

目录 一、npm ci与npm install的区别 (一)npm ci 的作用 (二)与 npm install 的区别 二、package-lock.json文件与package.json的区别 1️⃣ package.json 2️⃣ package-lock.json 3️⃣ 区别对比 4️⃣ 使用建议 5️⃣…

JavaScript系列(32)-- WebAssembly集成详解

JavaScript WebAssembly集成详解 🚀 今天,让我们深入了解JavaScript与WebAssembly的集成,这是一项能够显著提升Web应用性能的关键技术。 WebAssembly基础概念 🌟 💡 小知识:WebAssembly(简称W…