机器学习-基本术语

news/2025/1/19 5:47:10/

文章目录

      • 1. **数据集(Dataset)**
      • 2. **样本(Sample)**
      • 3. **属性(Attribute)**
      • 4. **特征(Feature)**
      • 5. **属性值(Attribute Value)**
      • 6. **属性空间(Attribute Space)**
      • 7. **样本空间(Sample Space)**
      • 8. **输入空间(Input Space)**
      • 9. **特征向量(Feature Vector)**
      • 总结:

1. 数据集(Dataset)

  • 数据集是由多个样本组成的集合,每个样本包括多个特征。数据集的目标是用于训练模型。
  • 示例:假设有一个房屋数据集,包含了以下内容:
    面积(平方米), 房龄(年), 位置, 房价(万元)
    100, 5, 市中心, 500
    80, 10, 郊区, 350
    120, 3, 市中心, 600
    90, 8, 郊区, 400
    

2. 样本(Sample)

  • 样本是数据集中的一个数据点,表示一个具体的房屋。每个样本由多个属性(特征)组成。
  • 示例:一个样本可能是:
    100, 5, 市中心, 500
    
    这表示一套面积为100平方米、房龄5年的房屋,位于市中心,价格是500万元。

3. 属性(Attribute)

  • 属性是用于描述样本的特征,通常用来区分不同的样本。
  • 示例:对于上面的样本,属性可以是:
    • 面积(平方米)
    • 房龄(年)
    • 位置(如:市中心、郊区等)
    • 房价(万元)

4. 特征(Feature)

  • 特征通常是样本的具体属性,表示样本的某一维度的数据。特征用于机器学习模型的训练。
  • 示例:在房价预测中,“面积”、“房龄”、“位置”都是特征。通常,“房价”是目标变量(也叫标签),不是特征。

5. 属性值(Attribute Value)

  • 属性值是样本中某一属性的具体取值。
  • 示例:对于样本 100, 5, 市中心, 500,属性值分别是:
    • 面积:100
    • 房龄:5
    • 位置:市中心
    • 房价:500

6. 属性空间(Attribute Space)

  • 属性空间是所有属性可能的取值集合,描述了每个属性的值域。
  • 示例
    • 面积属性空间:可能是[0, 1000](平方米),表示所有可能的面积范围。
    • 房龄属性空间:可能是[0, 100](年),表示房龄的可能取值范围。
    • 位置属性空间:可能是{“市中心”, “郊区”},表示房屋可能的所在位置。
    • 房价属性空间:可能是[100, 1000](万元),表示房价的可能范围。

7. 样本空间(Sample Space)

  • 样本空间是数据集中的所有可能样本的集合。它描述了数据集中的所有可能样本的组合。
  • 示例:样本空间包括了所有可能的房屋记录,例如:
    100, 5, 市中心, 500
    80, 10, 郊区, 350
    120, 3, 市中心, 600
    90, 8, 郊区, 400
    
    样本空间包含所有类似的记录,并且每个样本由多个属性值(如面积、房龄、位置)构成。

8. 输入空间(Input Space)

  • 输入空间是指在模型中,输入数据的所有可能取值集合。在训练时,输入空间通常是指特征空间,除去目标变量(标签)。
  • 示例:在房价预测中,输入空间包括所有可能的特征值组合,即“面积”和“房龄”以及“位置”,但是不包括“房价”(目标变量)。输入空间可能是:
    • 面积:0到1000平方米
    • 房龄:0到100年
    • 位置:{市中心, 郊区}

9. 特征向量(Feature Vector)

  • 特征向量是一个由样本的各个特征值组成的向量,是样本在多维特征空间中的数学表示。
  • 示例:对于一个样本 100, 5, 市中心, 500,其特征向量可以表示为:
    [100, 5, 0]
    
    其中,“100”是面积,“5”是房龄,“0”是“市中心”的编码(假设我们用独热编码将“市中心”映射为0,郊区映射为1)。

总结:

  • 数据集:包含多个样本(如一组房屋数据)
  • 样本:数据集中的每一条记录(如一个房屋的数据)
  • 属性:样本中的各个特征(如面积、房龄、位置)
  • 特征:与属性相同,描述样本的维度(如面积、房龄、位置)
  • 属性值:某一属性的具体值(如100平方米、5年)
  • 属性空间:属性可能的所有取值范围(如面积[0, 1000]平方米)
  • 样本空间:数据集中的所有可能样本的集合
  • 输入空间:模型训练时的输入数据的所有可能取值,通常不包括目标变量(标签)
  • 特征向量:将样本的各个特征值组合成的一个数学向量(如[100, 5, 0]

http://www.ppmy.cn/news/1564322.html

相关文章

【机器学习:二十一、避免高偏差和高方差】

定性分析:训练误差与验证误差的关系 在构建机器学习模型时,高偏差和高方差是两种常见的问题。高偏差通常意味着模型过于简单,未能很好地捕捉数据的复杂特性,导致训练误差和验证误差都较高。高方差则表示模型过度拟合,…

【2024年华为OD机试】(B卷,100分)- 数据分类 (Java JS PythonC/C++)

一、问题描述 题目描述 对一个数据a进行分类,分类方法为: 此数据a(四个字节大小)的四个字节相加对一个给定的值b取模,如果得到的结果小于一个给定的值c,则数据a为有效类型,其类型为取模的值&…

【原创】大数据治理入门(2)《提升数据质量:质量评估与改进策略》入门必看 高赞实用

提升数据质量:质量评估与改进策略 引言:数据质量的概念 在大数据时代,数据的质量直接影响到数据分析的准确性和可靠性。数据质量是指数据在多大程度上能够满足其预定用途,确保数据的准确性、完整性、一致性和及时性是数据质量的…

选择saas 还是源码主要考虑

公司业务规模:小型企业可能会发现SaaS提供的即用型解决方案更符合其需求,而大型企业可能需要源码以实现更高的定制性和控制权。 公司技术专长:缺乏技术团队的企业可能会倾向于使用SaaS,而那些拥有强大IT部门的企业可能更适合管理…

浅谈云计算12 | KVM虚拟化技术

KVM虚拟化技术 一、KVM虚拟化技术基础1.1 KVM虚拟化技术简介1.2 KVM虚拟化技术架构1.2.1 KVM内核模块1.2.2 用户空间工具(QEMU、Libvirt等) 二、KVM虚拟化技术原理2.1 硬件辅助虚拟化2.2 VMCS结构与工作机制 三、KVM虚拟化技术面临的挑战与应对策略3.1 性…

大数据技术Kafka详解 ⑤ | Kafka中的CAP机制

目录 1、分布式系统当中的CAP理论 1.1、CAP理论 1.2、Partitiontolerance 1.3、Consistency 1.4、Availability 2、Kafka中的CAP机制 C软件异常排查从入门到精通系列教程(核心精品专栏,订阅量已达600多个,欢迎订阅,持续更新…

Excel 技巧10 - 如何检查输入重复数据(★★)

本文讲了如何在Excel中通过COUNTIF来检查输入重复数据。 当输入重复数据时,显示错误提示。 1,通过COUNTIF来检查输入重复数据 比如下面是想检查不要输入重复的学号。 选中C列,点 Menu > 数据 > 数据验证 在数据验证页面&#xff0c…

如何使用策略模式并让spring管理

1、策略模式公共接口类 BankFileStrategy public interface BankFileStrategy {String getBankFile(String bankType) throws Exception; } 2、策略模式业务实现类 Slf4j Component public class ConcreteStrategy implements BankFileStrategy {Overridepublic String ge…