数据挖掘:第二章、认识数据

embedded/2025/3/21 20:54:22/

第二章 认识数据

2.1 数据类型与统计汇总

数据集与数据对象

一个数据集由多个数据对象组成,每个数据对象代表一个实体。例如,在销售数据库中,数据对象可以是客户、商品、销售额等;在医疗数据库中,数据对象可以是患者、治疗信息等;在大学数据库中,数据对象可以是学生、教授、课程信息等。数据对象也被称为样品、示例、实例、数据点、对象、元组。

数据对象所描述的属性即数据集中的列,而数据对象则是数据库中的行。

属性

属性是数据对象的特征或功能,它可以是标称、二进制、序数、区间标度、比率标度等类型。

  • 标称属性:取值为类别或状态,如人的头发颜色、婚姻状况、职业、身份证号码、邮政编码等。

  • 二进制属性:只有两个状态(0和1),可以是对称的(如性别)或不对称的(如新型冠状病毒肺炎测试结果)。

  • 序数属性:取值有顺序或排名,但不知道连续值之间的具体大小,如大小(小、中、大)、等级、军队排名等。

  • 区间标度属性:以单位长度顺序性度量,值有序,但不存在绝对0点,如温度、日历日期等。

  • 比率标度属性:具有固定零点的数值属性,有序且可以计算倍数,如长度、重量、年龄、质量、电流等。

离散属性与连续属性
  • 离散属性:取有限或无限可数个值,通常表示为整数变量,如邮政编码、计数、文档集的词等。

  • 连续属性:取实数值,通常用浮点变量表示,如温度、高度、重量等。

统计汇总

为了更好地理解数据,我们需要分析数据的集中趋势、分布等统计特性,如最大值、最小值、中位数、位数、离群值、方差等。

  • 平均值:一组数据的均衡点,但对离群值敏感。

  • 中位数:将数据分为两半的值,对离群值不敏感。

  • 截断均值:去掉极端值后的平均值,也对离群值不敏感。

  • 众数:一组数据中出现次数最多的值。

  • 五点概况:包括最小值、第一四分位数(Q1)、中位数、第三四分位数(Q3)、最大值。盒状图可以直观地展示五点概况,离群点通常定义为高于或低于1.5×IQR(四分位距)的值。

2.2 数据可视化

数据可视化是将数据以图形或图像的形式展示出来,以便更直观地理解数据的特征和规律。

盒状图

盒状图可以分析多个属性数据的离散度差异性,展示数据的五点概况(最小值、Q1、中位数、Q3、最大值),并标识离群点。

直方图

直方图用于分析单个属性在各个区间的变化分布,展示数据的频率分布情况。

散点图

散点图用于显示两组数据的相关性分布,帮助分析两个属性之间的关系。例如,在房价预测中,可以通过散点图分析房屋面积、停车面积、建筑面积、地下室面积等属性与销售价格之间的相关性,相关性越强,说明该属性对预测房价的作用越大。

2.3 度量数据的相似性和相异性

数据矩阵与相异矩阵
  • 数据矩阵:由N个数据对象和p个属性组成的矩阵。

  • 相异矩阵:记录两个数据点之间相异程度的矩阵,通常用距离来衡量。

相似度与相异度
  • 相似度:衡量两个数据对象有多相似,值越大表示越相似,通常取值范围为[0,1]。

  • 相异度:衡量两个数据对象的差别程度,值越小表示越相似,最小相异度通常为0。

标称属性与二值属性的邻近性度量
  • 标称属性:可以使用简单匹配的方法计算相似度或相异度,公式为 d(i,j)=pp−m​,其中m是匹配次数,p是属性总数。

  • 二值属性:分为对称和非对称两种情况。对于对称二值属性,0和1同样重要;对于非对称二值属性,通常1比0更重要。可以使用Jaccard系数等方法计算相似度。

距离度量
  • 闵可夫斯基距离:是一族距离度量,包括曼哈顿距离(h=1)、欧氏距离(h=2)和上确界距离(h→∞)等。

    • 曼哈顿距离: d(i,j)=∣xi1​−xj1​∣+∣xi2​−xj2​∣+⋯+∣xip​−xjp​∣

    • 欧氏距离: d(i,j)=(xi1​−xj1​)2+(xi2​−xj2​)2+⋯+(xip​−xjp​)2

  • 上确界距离: d(i,j)=max(∣xi1​−xj1​∣,∣xi2​−xj2​∣,…,∣xip​−xjp​∣)


http://www.ppmy.cn/embedded/174519.html

相关文章

学习threejs,使用MeshLambertMaterial漫反射材质

👨‍⚕️ 主页: gis分享者 👨‍⚕️ 感谢各位大佬 点赞👍 收藏⭐ 留言📝 加关注✅! 👨‍⚕️ 收录于专栏:threejs gis工程师 文章目录 一、🍀前言1.1 ☘️THREE.MeshLambertMaterial…

【智能体】| 知识库、RAG概念区分以及智能体是什么

文章目录 前言简介大模型“幻觉”问题如何解决“幻觉”问题? RAG、智能体、RAG智能体概念什么是检索增强型生成(RAG)模拟简单的RAG场景 AI系统中的智能体是什么什么是Agentic RAG?Agentic RAG如何工作?Agentic RAG架构…

springboot+mysql增删改查

说明:springbootmysql增删改查 step1:create language: javatype: gradle-groovyjdk:21java:21packaging: jardeveloper tools:lombokweb: spring webtemplate engines:thymelafsql:spring data jpa,spring data jdbc,mysql driveri/o:validationstep2:sql -- …

蓝桥杯青少组stema2025年3月9日scratch初级组真题——转动的图形

完整题目可查看: 转动的图形_scratch_少儿编程题库学习中心-嗨信奥https://www.hixinao.com/tiku/scratch/show-5106.html?_shareid3 程序演示可查看: 转动的图形-scratch作品-少儿编程题库学习中心-嗨信奥https://www.hixinao.com/scratch/creation…

批量删除 PPT 中的所有图片、某张指定图片或者所有二维码图片

PPT 文档中的图片如何删除呢?相信很多小伙伴或碰到类似的需求。比如我们需要删除 PPT 文档中的某一张图片或者某张二维码图片,如果每一页都有这张图片,或者有很多 ppt 都有同一张要删除的图片,我们应该怎么快速的完成删除呢&#…

产品战略之科学定价策略与模型(104页PPT)(文末有下载方式)

产品战略之科学定价策略与模型(104页PPT)详细解读 详细资料请看本解读文章的最后内容。 在当今竞争激烈的市场环境中,科学定价策略是企业成功的关键之一。本文将对《产品战略之科学定价策略与模型》进行详细解读,帮助读者深入理…

微服务即时通信系统---(九)消息转发子服务

目录 功能设计 模块划分 业务接口/功能示意图 服务实现流程 服务代码实现 数据管理 MySQL(聊天会话成员管理) chatSessionMember.hxx(ODB文件编写) 客户端操作编写(mysqlChatSessionMemberTable.hpp) 编写proto文件 消息元信息 消息转发proto 发送新消息 R…

Apache Paimon 在抖音集团多场景中的优化实践

资料来源:火山引擎-开发者社区 本文将基于抖音集团内部两大业务的典型实时数仓场景,介绍Paimon在抖音集团内部的生产实践。 作者:李明、苏兴、文杰 抖音集团大数据工程师 目前抖音集团内部主要使用 Lambda 架构进行实时数仓建设,其…