生物信息学中---数据集不平衡的处理方法

news/2024/10/30 15:20:15/

1.NearMiss:

NearMiss 是 Mani 等人根据数据分布特征,基于 KNN 算法提出的欠采样方案, 对多数类样本利用随机欠采样来达到数据平衡。 根据不同数据采样的距离,可以分为三类: NearMiss-1、 NearMiss-2 和 NearMiss-3。

NearMiss-1 对于每个多数类样本,选择与少数类样本最近的k 个并计算这k 个少数类样本的平均距离,保留平均距离最小的多数类样本; NearMiss-2 与 NearMiss-1不同的是选择最远的k 个少数类样本并计算平均距离并进行保留。 NearMiss-3 在上述基础上进行的改进,对数据更加详细的分类。 首先对于每个少数类样本,选择与多数类样本最近的m 个;接着对于保留的多数类样本,选择距离最近的k 个少数类样本并计算这k 个少数类样本的平均距离,保留平均距离最大的多数类样本。

2 SMOTE:

对于不平衡的数据而言,分类器算法结果通常受多数类样本的影响较大,正负样本差距较大时可能会造成过拟合现象,进而忽视少数类样本在其中带来的影响,严重失衡会影响模型的预测性能。 SMOTE 是由 Chawla 等人[60]在 2002 年提出的一对少数类样本采取随机过采样来达到数据平衡的有效方法。该算法可以描述为: 在少类数据集中每一个样本 x ,利用欧式距离计算出每个样本的k 近邻,然后根据少类样本不平衡的比列确定采样倍率为 N ,从每个样本的k 近邻中随机的选择 N 个样本,若选择的近邻为 Xn( n= 1,2,3, , , ) 在少数类样本和 xn之间进行随机线性插值,则新的样本 x_new 为:

其中rand(0,1)表示生成介于 0 和 1 之间的随机数。将构建出新的少类样本集添加到原少类样本数据集中,最终形成一个新的数据集,即与多类样本数量平衡的数据集。 

3.Borderline-SMOTE

Borderline-SMOTE (Borderline-Synthetic Minority Oversampling Technique) 方法是对SMOTE方法的改进,该算法仅使用边界上的少数类样本来合成新样本。Borderline-SMOTE[60]采样过程是首先将少数类样本分为3类,分别命名为Safe、Danger和Noise。其次,仅对Danger类的少数类样本过采样。具体步骤如下:
Step1:
(1) Safe: 样本周围一半以上均为少数类样本,如图2-1 (A) 中点a。
(2) Danger:样本周围一半以上均为多数类样本,视为在边界上的样本,如图2-1
(A) 中点b。
(3) Noise:样本周围均为多数类样本,视为噪音,如图2-1 (A) 中点c。
Step2:
对b类样本利用SMOTE进行过采样,通过线性插值构建出新的少类样本集添加到原
少类样本数据集中,最终形成一个新的数据集。

 


http://www.ppmy.cn/news/58692.html

相关文章

【GORM框架】ORM介绍、GORM简单连接和高级配置详解

博主简介:努力学习的大一在校计算机专业学生,热爱学习和创作。目前在学习和分享:数据结构、Go,Java等相关知识。博主主页: 是瑶瑶子啦所属专栏: GORM框架学习 近期目标:写好专栏的每一篇文章 目录 一、简介…

Azure DevOps Server 数据还原方式三:增量还原

Contents 1. 概述2. 操作方式 2.1 创建共享文件夹,并将备份文件复制到共享文件夹中2.2 还原数据3 验证还原的数据库 3.1 方式一:核对工作项所在的表的数据3.2 方式二:将数据库配置到应用层,在应用中验证数据4. 常见问题&#xff1…

FreeRTOS 事件标志组

文章目录 一、事件标志组简介二、创建事件标志组1. 函数 xEventGroupCreate()2. 函数 xEventGroupCreateStatic() 三、设置事件位1. 函数 xEventGroupClearBits()2. 函数 xEventGroupClearBitsFromISR()3. 函数 xEventGroupSetBits()4. 函数 xEventGroupSetBitsFromISR() 四、获…

企业信息化建设都包括哪些方面?

企业信息化建设都包括哪些方面? 在这个信息化快速发展的时代,企业信息化管理系统已经成为了企业发展的必要条件之一。大家都在说要信息化、数字化,那么, 到底什么是企业信息化建设?企业信息化建设包括哪些方面&#…

信息技术发展

OSI网络标准协议 物理层:联网的媒介 RS232 FDDI 数据链路层: 网络层接收到的数据分割成可被物理层传输的帧 IEEE802.3/.2 ATM 网络层:网络地址翻译成对应的物理地址,路由 IP ICMP IGMP IPX ARP 传输层:端到端的错误恢复和流量控制…

良好的沟通是我们成功的关键

目录 一、什么是沟通 二、沟通方法 正确的表达方式: 职场中对上沟通 主动与上级沟通 提前做好准备 避免只讲困难 意见不同的争辩不是批评 良好的沟通是我们成功的关键 一、什么是沟通 百度:沟通(communication)是人们分…

总结837

今天跟唐同学一块去商洛柞水的福源漂流。咱俩因为比较喜欢刺激又好玩的东西,于是一拍即合,说走就走。 由于路程比较遥远,在去的路上比较费时,花了大约五六个小时,但这却丝毫不影响我们玩漂流的体验感。 这世界上有很…

【视频解读】动手学深度学习V2_00预告

00预告 【动手学深度学习V2】 深度学习是人工智能最热的领域,在过去十年,人工智能的主要突破都来自于深度学习。 深度学习的核心是神经网络,它与人工智能的其他领域不一样的是,神经网络是一个非常灵活的框架,它允许我…