机器学习笔记(持续更新)

server/2024/12/22 19:08:51/

使用matplotlib绘图:

import matplotlib.pyplot as plt
fig, ax=plt.subplots()  #创建一个图形窗口
plt.show()   #不绘制任何内容,直接显示空图

重复值处理:

重复值处理代码:

import pandas as pd
data = pd.DataFrame({'学号': [1, 2, 3, 4, 5, 6, 7, 7, 8],'身高': [172,162,175,170,168,160,164,164,160],'体重': [70,62,75,68,67,58,64,64,53]
})
data.drop_duplicates(['学号'], keep = 'last', inplace=True)
print(data)# drop_duplicates方法的正确语法是drop_duplicates(subset=None, keep='first', inplace=False),
# 其中keep参数只能是
# 'first'(保留第一次出现的重复行)、
# 'last'(保留最后一次出现的重复行)
#  False(删除所有重复行)

缺损值删除:

缺损值删除代码:

import pandas as pd
import numpy as np
data = pd.DataFrame({'学号': [1, 2, 3, 4, 5, 6, 7, 7, 8],'身高': [172,162,175,170,np.nan,160,164,164,160],'体重': [70,62,75,68,67,58,64,64,53]
})
data=data.dropna()  #只要有空值就删除
data=data.dropna(how='all')  #只有当一行中所有值都是缺失值才删除改行,如果至少有一个非缺失值,则改行不会被删除
print(data)

缺损值填充:

缺损值填充代码:

import pandas as pd
import numpy as np
data = pd.DataFrame({'学号': [1, 2, 3, 4, 5, 6, 7, 7, 8],'身高': [172,162,175,170,np.nan,160,164,164,160],'体重': [70,62,75,68,67,58,64,64,53]
})
# data=data.fillna(199)  #用199数值填充缺损的数据
# data=data.fillna(method='ffill')  #使用缺损值前一行填充缺损值
# data=data.fillna(method='bfill')  #使用缺损值后一行填充缺损值
data['身高'].fillna(data['身高'].mean(),inplace=True)  #使用身高的均值来填充缺损值
print(data)

异常值填充:

异常值填充代码:

import pandas as pd
data = pd.DataFrame({'学号': [1, 2, 3, 4, 5, 6, 7, 7, 8],'身高': [172,162,175,170,1700,160,164,164,160],'体重': [70,62,75,68,67,58,64,64,53]
})
print("是否存在超出正常身高范围的值:",any(data['身高']>240))  #检查是否存在异常值
renew_value=data['身高'][data['身高']<200].max()
data.loc[data['身高']>200,'身高']=renew_value    #用身高最高值填充异常值
print(data)

http://www.ppmy.cn/server/130198.html

相关文章

ElasticSearch快速入门

目录 快速入门 快速了解 与MySQL对比 相关组件&#xff0c;概念 增删改查 快速入门 快速了解 一、Elasticsearch 官方定义 Elasticsearch 是一个分布式、RESTful 风格的搜索和数据分析引擎&#xff0c;同时是可扩展的数据存储和矢量数据库&#xff0c;能够应对日益增多的…

Chromium html<img>对应c++接口定义

<img src"tulip.jpg" alt"上海鲜花港 - 郁金香" /> 1、html_tag_names.json5中接口定义&#xff1a; &#xff08;third_party\blink\renderer\core\html\html_tag_names.json5&#xff09; {name: "img",constructorNeedsCreateElementF…

顺丰Android面试题集锦及参考答案

TCP 三次握手和四次挥手是什么,挥手过程中主动方的状态是什么? TCP 三次握手是建立连接的过程: 第一次握手:客户端向服务器发送一个 SYN 报文,该报文包含客户端的初始序列号(seq=x)。此时客户端进入 SYN_SENT 状态。第二次握手:服务器收到客户端的 SYN 报文后,向客户端…

GeoCue与Xer Technologies合作推动无人机测绘技术革新

GeoCue与Xer Technologies合作推动无人机测绘技术革新 近期,LiDAR测绘硬件和软件开发商GeoCue与瑞士长航时混合动力无人机制造商Xer Technologies AG携手合作,成功将GeoCue的TrueView 720 LiDAR和图像传感器集成至Xer X8无人机平台。这一里程碑式的合作不仅标志着无人机测绘技…

差分 - 加减最值

堆积木最小操作 [P1969 NOIP2013 提高组] 积木大赛 - 洛谷 | 计算机科学教育新生态 (luogu.com.cn) #include <bits/stdc.h> using namespace std; const int N 2e6 21; int a[N]; int main() { int n; cin>>n;for(int i 1; i < n ;i) cin>>a[i];// f…

仿RabbitMQ实现消息队列客户端

文章目录 客⼾端模块实现订阅者模块信道管理模块异步⼯作线程实现连接管理模块生产者客户端消费者客户端 客⼾端模块实现 在RabbitMQ中&#xff0c;提供服务的是信道&#xff0c;因此在客⼾端的实现中&#xff0c;弱化了Client客⼾端的概念&#xff0c;也就是说在RabbitMQ中并…

【优选算法】(第三十三篇)

目录 删除字符中的所有相邻重复项&#xff08;easy&#xff09; 题目解析 讲解算法原理 编写代码 ⽐较含退格的字符串&#xff08;easy&#xff09; 题目解析 讲解算法原理 编写代码 删除字符中的所有相邻重复项&#xff08;easy&#xff09; 题目解析 1.题目链接&…

jmeter入门:脚本录制

1.设置代理。 网络连接-》代理-》手动设置代理. ip&#xff1a; 127.0.0.1&#xff0c; port&#xff1a;8888 2. add thread group 3. add HTTP(s) test script recorder, target controller chooses Test plan-> thread Group 4. click start. then open the browser …