机器学习常识 2: 数据类型

news/2024/10/23 5:45:11/

摘要: 本贴讨论常见的数据类型.

1. 基本数据元素 (data item) 的类型

基本元素的类型包括: 布尔型、枚举型、实型等。

  • 布尔型有两种取值, 如: Yes/No, Pass/Fail.
  • 枚举型有多种取值, 如: 颜色有红/黄/绿, 形状有方/圆/梯. 这些值之间一般没有大小关系.
  • 实型如: 人的身高, 体重. 简便起见整型一般也当成实型, 而不是枚举型来处理.

2. 常见的数据类型

结构化数据是指每个实例/instance (样本/sample)用同一组特征/feature (属性/attribute) 进行描述.
例: 每个就诊者的检测报告包括: 性别、年龄、血压、红细胞数量、血小板数量共 5 个特征.
某些机器学习方法 (如决策树) 处理枚举型数据; 有些方法则只处理实型数据, 这时一个实例可以表示为一个向量.

图像数据本身可以用一个矩阵来表示.

序列数据由枚举型或实型组成.
它与结构化数据的区别在于: 不可以混用枚举型与实型, 长度不是固定的.
例如: 股票价格数据, 温度数据, 文本数据 (小说).

视频数据则是图像组成的序列数据.

图数据是指数据用结点和边表示. 如社交网络中, 结点表示人 (有性别、学历等特征), 边表示人与人之间的关系 (父女, 朋友等).


http://www.ppmy.cn/news/102738.html

相关文章

WGS84坐标转BD-09坐标(wgs84转百度)

推荐使用方法2 !!! Web服务API | 百度地图API SDK 方法1 定义一个待转换的坐标数组。 // 待转换的坐标数组 var points [new BMap.Point(116.404, 39.915),new BMap.Point(121.48044, 31.236985),new BMap.Point(113.952051, 22.538413),//…

如何在多个端口上运行 SSH 服务器?

SSH(Secure Shell)是一种用于安全远程访问和管理服务器的协议。默认情况下,SSH服务器在Linux系统上使用22号端口进行通信。但是,有时我们可能需要在多个端口上运行SSH服务器,以满足特定的需求或增强服务器的安全性。 本…

spring如何解决循环依赖

一、代码 Component public class BService {Autowiredprivate AService aService;public void work(){System.out.println("bservice的工作");} }Component public class AService {Autowiredprivate BService bService;public void work(){System.out.println(&q…

SpringBoot 使用事务报错:No transaction aspect-managed TransactionStatus in scope

当使用Spring Boot进行开发时,你可能会遇到以下错误之一:“No transaction aspect-managed TransactionStatus in scope”。这个错误通常发生在方法中手动回滚事务的情况下,但方法本身没有被Transactional注解修饰。 在本文中,我…

曾经由盛转衰的骈文,却引领后人在文质兼美的创作之路上坚定前行

又叫骈体文,是和散文相对应的一种文体,它兴起于汉末,形成于魏晋,最盛行于南北朝,在初唐、中唐、唐末、五代、宋初时也盛极一时。古人语:两马并驾为骈,所以骈文最大的特点是用对偶的手法&#xf…

Maven——SDK中的构建范围,构建插件,构建参数说明

Maven 依赖使用注意 封装 Maven SDK 的 Dependency 时,需要注意以下几点: 版本控制:确保所依赖的 SDK 版本与当前应用程序的其他依赖项兼容,并在 pom.xml 文件中指定正确的版本号。 稳定性:使用经过稳定测试和验证的…

06. 数据结构之散列表

前言 散列表也叫作哈希表(hash table),这种数据结构提供了键(Key)和值(Value)的映射关系。只要给出一个Key,就可以高效查找到它所匹配的Value,时间复杂度接近于O(1) 1.…

哪些因素会成为系统的瓶颈

CPU 如果存在大量的计算,他们会长时间不间断的占用 CPU 资源,导致其他资源无法争夺到 CPU 而响应缓慢,从而带来系统性能问题,例如频繁的 FullGC,以及多线程造成的上下文频繁的切换,都会导致 CPU 繁忙&…