python笔记16_实例练习_二手车折旧分析p1

news/2024/11/28 19:47:29/

python数据分析练习,具体数据不放出。

分析实践很简单。目的不是做完,而是讲清楚每一步的目的和连带的知识点(所以才叫学习笔记)

0.数据准备

原始数据格式:csv文件

原始数据结构:

数据格式

字段名

int(无用信息)
Stringche300_brand_name
floatnew_price
Stringmaker_type
floatlowest_price
Stringcar_level_name
intage_month
Stringbrand 
floatage
Stringmaker
intcluster

1.导包

import warnings
warnings.filterwarnings('ignore')
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

"warnings" 是警告过滤器,没有实际作用。

"seaborn" 是一个基于 Matplotlib 的图形可视化库,可以用于绘制统计图表,如密度图、散点图、线性回归图等。

2.读取&初步处理

读数据:

data = pd.read_csv('二手车折旧分析.csv',encoding='gb2312')

利用 pandas 读csv文件,第二个参数是设置编码,默认编码会使用 'utf-8' ,但这里的数据中有中文,需要使用支持简体中文的编码,如下图所示,可选择 'gb2312' 'gbk' 'gb18030'

  查看更多详细编码:codecs — Codec registry and base classes — Python 3.11.3 documentation

查看数据:

data.head(5) # 查看前五行
data.describe() # 查看数据描述

这里的 describe() 函数会自动出每一列是数值的数据的计数、均值、标准差、四分位数、二分位数、最值。相当于一次性使用了8次聚合函数,非常便于初步总览数据。

初步处理:

模拟真实数据中有不需要的列/行,可以进行删除

如本例中的第一列,没有列名,那么再上一步查看数据的时候列名会显示为 'Unnamed: 0'

data = data.drop('Unnamed: 0',axis = 1)

drop 函数第一个参数是列名,第二个参数 axis = 0 :删除行 ; axis = 1 :删除列。

3.数据清洗——残值率计算:

假设现在我们需要关注一个值——残值率的准确性。

如果你恰巧学过会计学,对这个词应该不陌生。

在会计记账过程中,资产的价值是每年会降低的,这很好理解,因为任何有形资产(如机器设备、车辆)都有使用年限,它们会随着时间磨损、消耗,最终报废,也就是资产归零。而每年在计算它们的价值时,应当根据剩余使用年限计算一个当前剩余的价值。

比如一辆价值10万元的车,如果理论上使用10年就会报废,那么它在使用2年后的资产价值就是10-10/10*2=8万元,这里面损失的2万元就是折旧,剩余的8万元就是残值,也就是此处的lowest_price 字段。

资产原值(new_price)/资产残值(lowest_price)= 残值率

正常情况下,残值率肯定低于1。

那么残值率高于1的数据就是错误数据,需要处理:

data['残值率'] = data['lowest_price']/data['new_price']

给 DataFrame 添加一列,计算残值率,命名为“残值率”;

question_data = data[data['残值率'] > 1]
question_data.head(5) # 查看异常数据
question_data.count() # 异常数据总数

筛选残值率高于1的数据进行探查;

data = data[data['残值率'] < 1]

去除异常数据,进行数据清洗。

(未完待续)


http://www.ppmy.cn/news/109739.html

相关文章

日志 | 使用服务器

一篇稍有些散乱的个人记录。 文章目录 1 命令记录2 操作记录1. 添加用户clf2. 使用yum安装mysql3. 修改mysql密码4. 尝试在多个浏览器同时访问部署的blog 3 Bug记录1. 宝塔面板4042. pip freeze导出依赖&#xff0c;在服务器无法使用3. 安装insightface失败4. conda命令not fou…

大数据面试题目(第一部分)

您对“大数据”一词有什么了解&#xff1f; 当谈到"大数据"时&#xff0c;它是指处理和分析规模巨大、多样化且高速增长的数据集的技术和方法。这些数据通常无法在传统的数据库系统中轻松存储、处理和分析。大数据的特点包括数据量大、速度快、多样性高和价值密度低。…

代码随想录算法训练营第五十七天 | 回文

647. 回文子串 文档讲解&#xff1a;代码随想录 (programmercarl.com) 视频讲解&#xff1a;动态规划&#xff0c;字符串性质决定了DP数组的定义 | LeetCode&#xff1a;647.回文子串_哔哩哔哩_bilibili 状态&#xff1a;不会做。 思路 确定dp数组&#xff08;dp table&#xf…

MySQL进阶- SQL优化和视图

目录 SQL优化插入数据时的SQL优化&#xff08;insert优化&#xff0c;和大批量数据插入&#xff09;主键优化order by优化&#xff08;排序操作的优化&#xff09;group by优化&#xff08;分组优化&#xff09;limit优化&#xff08;分页查询优化&#xff09; SQL优化 插入数…

IDEA 安装配置步骤详解

引言 IntelliJ IDEA 是一款功能强大的集成开发环境&#xff0c;它具有许多优势&#xff0c;适用于各种开发过程。本文将介绍 IDEA 的主要优势&#xff0c;并提供详细的安装配置步骤。 介绍 IntelliJ IDEA&#xff08;以下简称 IDEA&#xff09;之所以被广泛使用&#xff0c;…

String字符串

文章目录 String类String常用的字符串处理方法StringBuffer类 StringBufferStringBuffer类中常用的方法StringBuilder类&#xff08;了解为主&#xff09;StringTokenzier类&#xff08;了解为主&#xff09; final属性&#xff0c;不可扩展&#xff0c;不可子类&#xff0c;不…

C++ list类成员函数介绍

目录 &#x1f914;list模板介绍&#xff1a; &#x1f914;特点&#xff1a; &#x1f914;list内存结构图解&#xff1a; &#x1f914; list的成员函数&#xff1a; &#x1f60a;list构造函数&#xff1a; &#x1f50d;代码示例&#xff1a; &#x1f50d;运行结果&…

查看 HTTP 请求的数据.

文章结构 如果是 GET 请求如果是 POST 请求方法1&#xff1a;DEBUG 窗口&#xff08;**爽、超级爽、吴迪爽**&#xff09;&#xff1a;方法2&#xff1a;写方法读取流中数据&#xff08;繁琐&#xff0c;难用&#xff09;&#xff1a; 我们可能会碰到 MVC 拿不到前端的参数&…