数据处理之数据规约

ops/2024/12/27 15:19:02/
aidu_pl">

数据处理之数据规约

1. 数据规约概述

数据规约是数据处理中的重要方法,旨在让数据处理更简便、高效,以满足业务需求。当从数据仓库获取的数据量庞大时,直接在海量数据上进行分析和挖掘成本颇高。数据规约可得到数据集的归约表示,在减小数据规模的同时,尽可能保持原数据的完整性,使得在归约后的数据集上进行挖掘能获得与使用原数据集近乎相同的分析结果。

2. 经典数据规约策略
  • 属性规约:想办法减少分析时需考虑的变量或属性。常用方法如小波变换,它能将复杂数据简化到更小、更简单的空间;主成分分析利用降维思想,把多个指标压缩成几个重要且互不重复、能抓住大部分原始信息的指标;还有挑选属性子集,即去除不重要、重复、不相关或冗余的属性维度,找到最小属性集合,让数据分布与使用所有属性时的分布尽量相似。例如分析顾客是否愿意购买新的流行歌单时,可删掉电话号码、住址等无关信息,保留顾客分类、年龄、喜好的音乐类型等重要信息。
  • 数量规约:通过较小的数据集替代原始数据集来简化处理过程。其常用方法分为参数的和非参数的。
    • 参数方法:利用如回归模型、对数线性模型等数学模型拟合数据,只需存储模型的参数而非整个数据集,借助模型的概括能力实现数据压缩和表示。
    • 非参数方法:不依赖特定数学模型,例如使用直方图近似数据分布,通过聚类将数据分组并用簇的代表性数据点替代原始数据,或者运用抽样技术从原始数据集中选取部分数据作为代表,以及数据立方体聚集,它通过对数据进行多维度的汇总和聚合来减少数据量并保留关键信息。
    • 直方图:这是一种利用分箱法近似数据分布的数据规约方法,把数据分成不同区间(格子),格子宽度代表范围大小,高度显示该范围内的数据点数量,常用于统计数据的可视化,便于理解数据分布情况,还可根据等宽原则或等平原则来确定区间划分。
    • 聚类:将数据集的数据对象分组,使相似对象归为同一组,不相似对象分到不同组,分组结果称为簇或群。相似性通常基于距离度量(如欧几里得距离、曼哈顿距离等)来判定,距离越小相似度越高,距离越大差异性越大。聚类技术在市场细分、图像处理、社交网络等诸多领域都有重要作用,簇的直径和簇心距离是评估聚类质量的关键指标,常用的聚类算法包括基于划分(如 k means 算法)、基于层次、基于密度、基于网格和基于模型的方法等。
    • 抽样:通过从大型数据集提取小的随机样本子集来代表整个数据集,能显著降低处理和分析的计算成本,同时保留数据代表性。常见抽样方法有无放回简单随机抽样(确保样本独立性和随机性,每个数据点只能被选一次)、有放回简单随机抽样(所选数据点抽样后会放回,可多次选择,适用于需重复抽样情况)、簇抽样(适合数据集自然分组情况,将数据集划分成簇后随机选簇抽样)以及分层抽样(适用于数据集有明显分层特征情况,将数据集划分为不同层后从各层随机抽取样本)。

二、数据处理之数据变换

1. 数据变换的意义

数据变换是数据挖掘过程中的关键环节,核心任务是把各种原始数据转化为适合分析和挖掘的格式,以提高挖掘的准确性,帮助提取更有价值的信息。

2. 常见的数据变换策略
  • 光滑数据:犹如去除画布上的杂点般去掉数据中的噪声,常用技术包括分箱、回归和聚类等,使数据更纯净。
  • 数据聚类:对数据进行汇总或聚集,比如将日销售数据聚合计算出月或年销售总量,有助于发现数据模式,还能构建数据立方体以从多维度观察数据。
  • 属性构造(特征构造):依据已有的属性构造出新属性并添加到属性集中,能加速挖掘过程,更快找到有价值信息。
  • 数据规范化:类似调整乐器音调,按比例缩放数据的属性,使其落入特定区间,避免某些属性对结果产生过大影响,常见算法有最小最大规范化(将数据最小值拉伸到 0,最大值压缩到 1,使中间数值线性映射到该区间)、零均值规范化(将数据均值变成 0,并根据标准差缩放,确保数据分布均匀,消除偏移,不受极端值干扰)、小数定规范化(将所有数据值转换为相对于总和的比例,直观体现各部分对整体的贡献)。
  • 数据离散化:把原始值替换为区间标签或概念标签,让数据更简洁明了,便于理解和分析。
  • 数据泛化:进行概念分层,用高层概念替换低层或原始数据,像把街道泛化为城市、国家等,许多属性的概念分层可在数据库模式中自动定义。

http://www.ppmy.cn/ops/145413.html

相关文章

Java高级工程师1380道面试题(附答案)分享

Java 面试八股文有必要背吗? 我的回答是:很有必要。你可以讨厌这种模式,但你一定要去背,因为不背你就进不了大厂。现如今,Java 面试的本质就是八股文,把八股文面试题背好,面试才有可能表现好。…

ant design学习记录:响应式尺寸头像大小 Avatar

<Avatarsize{{ xs: 24, sm: 32, md: 40, lg: 64, xl: 80, xxl: 100 }}icon{<AntDesignOutlined />}/> 解释&#xff1a; 响应式设计&#xff1a;size 属性的值是一个对象&#xff0c;包含了多个键值对&#xff0c;每个键代表一个屏幕尺寸&#xff08;如 xs, sm, md…

MySQL 查询大偏移量(LIMIT)问题分析

大偏移量查询缓慢?LIMIT: 会进行三步操作 性能消耗在哪里了?ORDER 操作问题 1 OFFSET操作问题 2 LIMIT 操作 如何优化? 大偏移量查询缓慢? 示例:(假设age字段有索引) SELECT * FROM test WHERE age>18 LIMIT 10000000 ,10;分析MySQL的 LIMIT 10000000 , 10 LIMIT: 会…

老旧小区用电安全保护装置#限流式防火保护器参数介绍#

摘要 随着居民住宅区用电负荷的增加&#xff0c;用电安全问题日益突出&#xff0c;火灾隐患频繁发生。防火限流式保护器作为一种新型电气安全设备&#xff0c;能够有效预防因电气故障引发的火灾事故。本文介绍了防火限流式保护器的工作原理、技术特点及其在居民住宅区用电系统…

C语言从入门到放弃教程

C语言从入门到放弃 1. 介绍1.1 特点1.2 历史与发展1.3 应用领域 2. 安装2.1 编译器安装2.2 编辑器安装 3. 第一个程序1. 包含头文件2. 主函数定义3. 打印语句4. 返回值 4. 基础语法4.1 注释4.1.1 单行注释4.1.2 多行注释 4.2 关键字4.2.1 C语言标准4.2.2 C89/C90关键字&#xf…

“declarative data-parallel operators“与“MapReduce”

Declarative data-parallel operators “Declarative data-parallel operators”&#xff08;声明性数据并行操作符&#xff09;是一种编程范式&#xff0c;它允许程序员以声明性的方式指定数据并行操作&#xff0c;而无需明确指定操作的执行顺序或方式。这种范式旨在简化并行…

kafka的配置

server.properties server.properties模板 # broker id&#xff0c;多个broker服务器的话&#xff0c;每个broker id必须不同 broker.id1# kafka broker所在节点的 hostnamehostname10.1.1.1.3:9092# 处理网络请求的线程数 num.network.threads 8# 执行磁盘IO的线程数 num.io…

经历三次的运放笔试题

简述电阻电容的作用,计算放大倍数 上图假设同向端直接接地:就是最基本的反向放大电路,就像下面这样 R1:输入电阻,R4:反馈电阻,构成反向放大电路,A = VinRf/R= -20k / 10k = -2Vin ;没问题 但是加上R2、R3后,相当于同向输入端也加了输入。此时可以利用叠加定理,也就是…