python实现将数据标准化到指定区间[a,b]+正向标准化+负向标准化

server/2024/9/18 20:48:02/ 标签: python, 数据分析, pandas, numpy, 数据预处理, 标准化

目录

一、公式介绍

(一)正向标准化公式

(二)负向标准化公式如下

(三)[a,b]取[0,1]的特例

二、构建数据集

三、自定义标准化函数 

四、正向标准化

五、负向标准化 

六、合并数据


一、公式介绍

将一列数据X标准化到指定区间[a,b]

(一)正向标准化公式

nor_X=(b-a)*(X-X_min)/(X_max-Xmin)+a

(二)负向标准化公式如下

nor_X=(b-a)*(Xmax-X)/(X_max-Xmin)+a

(三)[a,b]取[0,1]的特例

若[a,b]的取值为[0,1],

那么正向标准化公式就变为了如下:

nor_X=(X-X_min)/(X_max-Xmin)

负向标准化公式就变味了如下:

nor_X=(Xmax-X)/(X_max-Xmin)

也就是我们常用的在[0,1]区间的最大最小标准化

二、构建数据集

import pandas as pd
import numpy as np
#对医院进行综合分析
data=pd.DataFrame({'医院':['医院1', '医院2', '医院3', '医院4', '医院5', '医院6', '医院7', '医院8', '医院9', '医院10'],'门诊人数':[368107, 215654, 344914, 284220, 216042, 339841, 225785, 337457, 282917, 303455],'病床使用率%':[99.646, 101.961, 90.353, 80.39, 91.114, 98.766, 95.227, 88.157, 99.709, 101.392],'病死率%':[1.512, 1.574, 1.556, 1.739, 1.37, 1.205, 1.947, 1.848, 1.141, 1.308],'确诊符合率%':[99.108, 98.009, 99.226, 99.55, 99.411, 99.315, 99.397, 99.044, 98.889, 98.715],'平均住院日':[11.709, 11.24, 10.362, 12, 10.437, 10.929, 10.521, 11.363, 11.629, 11.328],'抢救成功率%':[86.657, 81.575, 79.79, 80.872, 76.024, 88.672, 87.369, 75.77, 78.589, 83.072]
})#令"医院"这一属性为索引列
data.set_index("医院",inplace=True)

三、自定义标准化函数 

def min_max_scaling(data, method='positive', feature_range=(0, 1)):'''Min-Max归一化处理参数:data (pd.DataFrame): 需要进行处理的数据框method (str): 归一化的方法,'positive' 为正向,'negative' 为逆向,默认为'positive'feature_range (tuple): 归一化后的最小最大值范围,默认为 (0, 1)返回:pd.DataFrame: 归一化后的数据框'''y_min, y_max = feature_range#y_min、y_max分别是归一化后数据的最小值 和最大值范围normalized_data = pd.DataFrame()#创建了一个名为normalized_data的空pandas DataFrame对象,可以向这个数据框中添加数据for col in data.columns:col_max = data[col].max()col_min = data[col].min()#获取DataFrame data 中每一列的最大值和最小值if method == 'negative':scaled_col = (y_max - y_min) * (col_max - data[col]) / (col_max - col_min) + y_min #这样是使数据映射到(y_min,y_max)区间#如果y_min=0,y_max=1,那么scaled_col = ((col_max - data[col]) / (col_max - col_min) 也就是到(0,1)区间的标准化映射了#下边的负向标准化同理#负向标准化elif method == 'positive':scaled_col = (y_max - y_min) * (data[col] - col_min) / (col_max - col_min) + y_min#正向标准化normalized_data[col] = scaled_col#将标准化后的数据增加到上边创建的空数据框中return normalized_data
#返回标准化后的数据框

四、正向标准化

由数据可知,['门诊人数', '病床使用率%', '确诊符合率%', '抢救成功率%']这四列数据应该是正向指标,即数值越大越好。

# 正向指标标准化
positive_cols = ['门诊人数', '病床使用率%', '确诊符合率%', '抢救成功率%']
positive_normalized = min_max_scaling(data[positive_cols], method='positive', feature_range=(0.002, 1))
# positive_normalized = min_max_scaling(data[positive_cols], method='positive', feature_range=(0, 1))

将数据进行标准化的区间为[0.002,1]

五、负向标准化 

 由数据可知,['病死率%', '平均住院日']这四列数据应该是负向指标,即数值越小越好。

# 负向指标标准化
negative_cols = ['病死率%', '平均住院日']
negative_normalized = min_max_scaling(data[negative_cols], method='negative', feature_range=(0.002, 1))
# negative_normalized = min_max_scaling(data[negative_cols], method='negative', feature_range=(0, 1))

六、合并数据

# 数据合并且保持顺序
combined_normalized_data = positive_normalized.join(negative_normalized)
# combined_normalized_data = combined_normalized_data[data.columns]
# combined_normalized_data.index = data.index


http://www.ppmy.cn/server/1763.html

相关文章

linux安装jdk

yum安装jdk 在linux上使用yum安装是非常粗暴无脑的,但仍然有需要注意的点,不然会掉坑里。这里说一下步骤。 1.1. 执行命令yum list |grep jdk查看可安装jdk版本 1.2. 选择一个java版本进行安装 这里我们希望安装java1.8,因为我们的机器是64位…

AI人工智能讲师叶梓:语言模型的推理、行动与规划:LATS框架的探索与实践

在人工智能的发展历程中,语言模型的推理、行动和规划能力一直是研究的重点。近期,一种名为LATS(语言智能树搜索)的通用框架引起了广泛关注,它成功地将大型语言模型(LLMs)的规划、行动和推理能力…

【C++题解】1607. 两位数运算

问题:1607. 两位数运算 类型:基本运算、拆位求解 题目描述: 小丽在编程课上学会了拆位运算,她已经可以拆出一个两位整数的十位和个位了,她想知道这个整数的十位 / 个位的结果是多少,请编程帮她实现&#…

OpenHarmony开发学习:【源码下载和编译】

本文介绍了如何下载鸿蒙系统源码,如何一次性配置可以编译三个目标平台(Hi3516,Hi3518和Hi3861)的编译环境,以及如何将源码编译为三个目标平台的二进制文件。 坑点总结: 下载源码基本上没有太多坑&#xff…

前端基础(之五)

Q1: git常用的命令有哪些 git init 在当前目录下创建一个新的Git仓库 git clone 复制一个远程仓库到本地 git add 将文件添加到暂存区,准备提交 git commit 提交暂存区的更改到本地仓库,并记录提交信息 git status 查看仓库的当前状态&am…

什么是强化学习?什么是自监督学习?

强化学习(Reinforcement Learning,RL)是机器学习的一个范式和方法论,主要用于描述和解决智能体(agent)在与环境的交互过程中,通过学习策略以达成回报最大化或实现特定目标的问题。强化学习的特点…

虚拟机的网络模式

仅主机 仅用来与主机交互,使用的是VMnet1网卡,该模式无法链接互联网,只能与物理机通讯,如果ip不与物理机在同一个网段,那么也无法与物理机通讯 桥接模式 该模式下的虚拟机会链接VMnet0网卡,该网卡会直接桥接…

计算机网络---第九天

以太网交换机的工作原理 以太网定义: 定义:输出标准Ethernet2类型帧的网络 以太网特征: 特征:多路访问,广播式的网络 mac地址: 每台设备都有一个唯一的物理地址,全球唯一 48位长度,16禁止…

线程池学习(通俗易懂)

线程池 线程池是什么ThreadPoolExecutor模拟实现线程池结语 线程池是什么 假设我们要频繁的创建线程和销毁线程,但是创建线程和销毁线程是有成本的. 所以我们可以提前创建一批线程,后面需要使用的时候,直接拿就可以了,这就是线程池. 当线程不再使用的时候,就归还到池子里.为什…

Git的工作流程概述

Git的工作流程涵盖了从初始化本地仓库、日常开发操作到协作与发布的整个过程。以下是一个简要的Git工作流程概述: 1. 初始化仓库: ○ 在本地创建一个新的目录,进入该目录并通过 git init 命令将其初始化为一个Git仓库。 2. 添加文件到版…

Edge 浏览器的使用心得与深度探索

前言 Edge 浏览器是微软推出的一款现代化网络浏览器,旨在提供更快、更安全、更智能的网络浏览体验。作为一名前端开发者和网页浏览者,我在长期使用 Edge 浏览器的过程中积累了一些使用心得和对其功能的深度探索。在本文中,我将分享我对 Edge…

如何采集opc服务器数据上传云端

为了进一步提高生产效率,生产制造的不断朝着智能化发展和升级,传统的自动化生产系统已经不能满足需求。传统的SCADA系统一般是用于现场的数据采集与控制,但是本地控制已经无法满足整个工厂系统智能化数字化的需求,智能化数字化是需…

鸿蒙原生应用元服务-访问控制(权限)开发工作流程相关

一、权限的工作流程 权限申请使用的工作流程 应用在访问数据或者执行操作时,需要评估该行为是否需要应用具备相关的权限。如果确认需要目标权限,则需要在应用安装包中申请目标权限。 然后,需要判断目标权限是否属于用户授权类。如果是&#x…

Qt mysql数据库表的增加,删除,修改,查询操作

连接mysql数据库 bool MainWindow::connectToDatabase(QSqlDatabase &db, const QString &host, const QString &dbName, const QString &user, const QString &password) {db QSqlDatabase::addDatabase("QMYSQL");db.setHostName(host);db.s…

死磕GMSSL通信-C/C++系列(一)

死磕GMSSL通信-C/C++系列(一) 最近再做国密通信的项目开发,以为国密也就简单的集成一个库就可以完事了,没想到能有这么多坑。遂写下文章,避免重复踩坑。以下国密通信的坑有以下场景 1、使用GMSSL guanzhi/GmSSL进行通信 2、使用加密套件SM2-WITH-SMS4-SM3 使用心得 ​…

OCR-身份证识别认证-身份证实名认证-python接口文档

OCR通常被称作为光学字符识别,以此技术而延申的功能产品有很多种,类如:身份证识别、文档识别、发票识别、驾照识别、护照识别等多类文字识别技术。下面我们以翔云身份证识别接口实现简单的示例。 身份证识别接口可以快速、精准识别证件正反面…

ChatGPT让论文写作更高效,让学术研究更精彩

ChatGPT无限次数:点击直达 ChatGPT让论文写作更高效,让学术研究更精彩 引言 在当今数字化时代,人工智能技术的发展为学术研究者提供了更多创新的机会和工具。其中,自然语言处理模型如ChatGPT在论文写作领域展现出强大的潜力。本文将介绍如何…

机器学习和深度学习常见算法

监督学习算法对比 线性回归(Linear Regression) vs 支持向量机(Support Vector Machine, SVM) 线性回归: 特点:简单、易于理解和实现,基于线性假设建立输入和输出之间的关系。应用场景&#…

centos 7 sshd服务无法自动随机启动

centos 7 sshd 服务无法伴随主机启动而启动&#xff0c;而使用systemctl start sshd可以启动&#xff0c;很奇怪。 后来使用Kimi查询&#xff0c;有提示“检查系统启动服务的顺序和状态” systemctl list-dependencies <service>确保所有依赖服务都已正常启动。 查看本…

databricks spark基本使用方法和讲解

databricks spark基本使用方法 文章目录 databricks spark基本使用方法spark dataframe和pandas dataframe区别概念小例子&#xff1a;感受下语法差异&#xff01; 基本使用生成序列数据显示数据查看rdd的分区数和作用对列进行操作 spark dataframe和pandas dataframe区别 概念…