数据挖掘导论——第二章:数据

ops/2025/3/16 0:29:34/

谈数据之前,我们要先知道数据有哪几种类型。数据的维度,数据的频率、位置、分布(方差或标准差衡量)等。

接着就是数据的质量,数据挖掘着眼于要么是对数据质量问题的检测和纠正,要么是使用可以容忍低质量数据的算法。第一步对数据质量问题的检测和纠正,通常称作数据清理。

涉及测量误差的问题:噪声、伪像、偏置、精度和准确度。

同时涉及测量误差和数据收集的问题:离群点、遗漏值、重复数据。

如何处理缺失值?删除/估计缺失值/分析过程中忽略缺失值/用所有可能值(按概率加权)替换

非标准化数据:不同特征的值域差别过大。这会带来什么问题?

1,在计算不同样本之间的距离时,假如不标准化,可能造成对特征的重要程度估计的影响

2,忽略了真正的偏差

两类标准化方式:

1,Max-Min标准化。容易受极端值影响。

2,Z-score标准化。使用前提:高斯分布。

标准化是同类数据之间进行的。

值得一提的是基因/蛋白表达矩阵(行为样本,列为基因),需要去除batch的时候,是沿着列标准化,要对基因表达正则化则沿着行(有些基因天生表达差异大)

对于分类数据或非量化数据,可以用one-hot encoding。

总之,数据清洗分为以下几步:数据去噪,清除异常值,处理缺失值,删除重复,分类数据编码,数据标准化。先后顺序可能会影响最后结果。


http://www.ppmy.cn/ops/166072.html

相关文章

c#使用redis如何实现数据的分库存储

在 C# 中使用 Redis 实现数据的分库存储,可以通过以下几种方案实现。以下详细说明并提供代码示例: 方案 1:Redis 多数据库索引(逻辑分库) Redis 默认支持 0-15 共 16 个逻辑数据库,通过索引切换。适用于简单场景。 步骤 连接时指定数据库索引: using StackExchange.Re…

PGSQL基本使用

PGSQL基本使用 文章目录 PGSQL基本使用日期转换长度不够补数获取上下行取连续的开始和结束的值 日期转换 格式说明YYYY年MM月DD日hh2424小时制mi分钟ss秒 -- 日期字符串转指定日期字符串 -- 20250101123000 转为 2025-01-01 12:30:00 select to_char(to_timestamp(2025010112…

Android Studio搭建环境并运行项目

参考: android studio开发环境搭建全过程_androidstudio 搭建开发环境-CSDN博客 Android Studio 开发环境搭建与项目结构认识 1、下载Android Studio 和Java JDK 并配置 (安装教程看百度),我这里使用的是Android Studio 2024.01版…

【零基础入门unity游戏开发——进阶篇】Marhf和Math的使用

考虑到每个人基础可能不一样,且并不是所有人都有同时做2D、3D开发的需求,所以我把 【零基础入门unity游戏开发】 分为成了C#篇、unity通用篇、unity3D篇、unity2D篇。 【C#篇】:主要讲解C#的基础语法,包括变量、数据类型、运算符、流程控制、面向对象等,适合没有编程基础的…

IDEA 创建SpringCloud 工程(图文)

创建父工程 打开IDEA,【New Project】新建一个Spring Boot 项目。 选择【Spring Web】依赖之后【Create】。 删除【src文件夹】以及【mvn开头文件】。 在pom文件中增加【packaging 标签】。 创建子工程 在父工程中,【New】→【Module】。 也同样…

ArcGIS助力水文分析:数据处理、地图制作与流域特征提取

在水文水环境保护中,对于信息的采集、处理和分析是关键步骤。水文水环境及其相关数据均具有空间分布特征,传统的方法难以发挥作用。地理信息系统(GIS)强大的空间数据管理和分析功能,在空间信息处理上有独到的优势&…

大模型巅峰对决:DeepSeek vs GPT-4/Claude/PaLM-2 全面对比与核心差异揭秘

喜欢可以到主页订阅专栏 目录 技术架构对比性能表现与基准测试多模态与多语言能力推理效率与成本分析开源生态与行业适配应用场景与案例研究未来发展与技术趋势代码实现与调用示例1. 技术架构对比 DeepSeek:动态稀疏激活的混合专家系统(MoE) 动态路由机制:每个输入仅激活…

【每日学点HarmonyOS Next知识】tab对齐、相对布局、自定义弹窗全屏、动画集合、回到桌面

1、HarmonyOS Tabs 是否能支持 tabbar 居左对齐&#xff1f; 当前方案为自定义tabbar实现&#xff0c;示例demo&#xff1a; Entry Component struct TabsExample {State tabArray: Array<number> [0, 1,2]State focusIndex: number 0State pre: number 0State inde…