编程小白冲Kaggle每日打卡(13)--kaggle学堂:<机器学习简介>基础数据探索

ops/2025/2/27 22:15:53/

Kaggle官方课程链接:Basic Data Exploration

本专栏旨在Kaggle官方课程的汉化,让大家更方便地看懂。

Basic Data Exploration

加载并理解您的数据。

使用Pandas熟悉您的数据

任何机器学习项目的第一步都是熟悉数据。您将使用Pandas库进行此操作。Pandas是数据科学家用来探索和操纵数据的主要工具。大多数人在代码中将pandas缩写为pd。

import pandas as pd

Pandas库最重要的部分是DataFrame。DataFrame包含您可能认为是表的数据类型。这类似于Excel中的工作表或SQL数据库中的表。

Pandas对于你想用这类数据做的大多数事情都有强大的方法。

例如,我们将查看澳大利亚墨尔本的房价数据。在实践练习中,您将把相同的过程应用于一个新的数据集,该数据集包含爱荷华州的房价。

示例(墨尔本)数据位于文件路径中/输入/墨尔本住房快照/melb_data.csv。

我们使用以下命令加载和浏览数据:

# save filepath to variable for easier access
melbourne_file_path = '../input/melbourne-housing-snapshot/melb_data.csv'
# read the data and store data in DataFrame titled melbourne_data
melbourne_data = pd.read_csv(melbourne_file_path) 
# print a summary of the data in Melbourne data
melbourne_data.describe()
RoomsPriceDistancePostcodeBedroom2BathroomCarLandsizeBuildingAreaYearBuiltLattitudeLongtitudePropertycount
count13580.0000001.358000e+0413580.00000013580.00000013580.00000013580.00000013518.00000013580.0000007130.0000008205.00000013580.00000013580.00000013580.000000
mean2.9379971.075684e+0610.1377763105.3019152.9147281.5342421.610075558.416127151.9676501964.684217-37.809203144.9952167454.417378
std0.9557486.393107e+055.86872590.6769640.9659210.6917120.9626343990.669241541.01453837.2737620.0792600.1039164378.581772
min1.0000008.500000e+040.0000003000.0000000.0000000.0000000.0000000.0000000.0000001196.000000-38.182550144.431810249.000000
25%2.0000006.500000e+056.1000003044.0000002.0000001.0000001.000000177.00000093.0000001940.000000-37.856822144.9296004380.000000
50%3.0000009.030000e+059.2000003084.0000003.0000001.0000002.000000440.000000126.0000001970.000000-37.802355145.0001006555.000000
75%3.0000001.330000e+0613.0000003148.0000003.0000002.0000002.000000651.000000174.0000001999.000000-37.756400145.05830510331.000000
max10.0000009.000000e+0648.1000003977.00000020.0000008.00000010.000000433014.00000044515.0000002018.000000-37.408530145.52635021650.000000

解读数据描述

结果显示原始数据集中每列有8个数字。第一个数字是计数,显示有多少行没有缺失值。

缺失值的出现有很多原因。例如,在调查一间卧室的房子时,不会收集第二间卧室的大小。我们将回到缺失数据的话题。

第二个值是平均值,即平均值。在这种情况下,std是标准偏差,它衡量的是数值的分散程度。

要解释最小值、25%、50%、75%和最大值,想象一下从最低值到最高值对每列进行排序。第一个(最小)值是最小值。如果你遍历列表的四分之一,你会发现一个大于值的25%但小于值的75%的数字。这就是25%的值(发音为“25th percentury”)。第50和第75百分位数的定义类似,最大值是最大的数字。

Your Turn

开始你的第一个编码练习


http://www.ppmy.cn/ops/161779.html

相关文章

将夸克网盘的webdav挂载成本地磁盘驱动器时报错“405“

1 准备 alist挂载夸克网盘完毕。网页浏览器处可以访问夸克网盘里的文件。 2 故障现象 但是用RaiDrive或rclone等将之挂载成本地磁盘会报错"405"。 3 解法 alist的web管理页面上给“用户(一般是admin)->编辑->权限"里的webdav读…

Spring 创建对象的流程

1. 故事背景 想象一下,你是一个老板,要开一家公司。公司里有很多员工(对象),每个员工都有自己的职责和依赖关系(比如,程序员需要电脑,销售需要电话等)。传统方式是你自己…

PyEcharts 数据可视化:从入门到实战

一、PyEcharts 简介 PyEcharts 是基于百度开源可视化库 ECharts 的 Python 数据可视化工具,支持生成交互式的 HTML 格式图表。相较于 Matplotlib 等静态图表库,PyEcharts 具有以下优势: 丰富的图表类型(30)动态交互功…

毕业项目推荐:基于yolov8/yolo11的苹果叶片病害检测识别系统(python+卷积神经网络)

文章目录 概要一、整体资源介绍技术要点功能展示:功能1 支持单张图片识别功能2 支持遍历文件夹识别功能3 支持识别视频文件功能4 支持摄像头识别功能5 支持结果文件导出(xls格式)功能6 支持切换检测到的目标查看 二、数据集三、算法介绍1. YO…

洛谷 P8705:[蓝桥杯 2020 省 B1] 填空题之“试题 E :矩阵” ← 卡特兰数

【题目来源】 https://www.luogu.com.cn/problem/P8705 【题目描述】 把 1∼2020 放在 21010 的矩阵里。要求同一行中右边的比左边大,同一列中下边的比上边的大。一共有多少种方案? 答案很大,你只需要给出方案数除以 2020 的余数即可。 【答案提交】 …

【Java项目】基于SpringBoot的【旅游管理系统】

【Java项目】基于SpringBoot的【旅游管理系统】 技术简介:采用Java技术、MySQL数据库、Spring框架实现。 系统简介:系统包括管理员、用户二个用户角色,管理员功能可以管理个人中心、用户管理、景区分类管理、景区信息管理、景区商城管理、商品…

P8681 [蓝桥杯 2019 省 AB] 完全二叉树的权值--完全 “二叉树” 不一定是 “满二叉树”

P8681 [蓝桥杯 2019 省 AB] 完全二叉树的权值 题目分析代码 题目 分析 我吧完全二叉树记成满二叉树了^^ 又卡我几分钟 代码 #include <iostream> #include <vector> #include <string> #include <algorithm> #include <math.h> #include <qu…

算法仿真平台搭建1-FFMPEG+RtspSever快速搭建一个RTSP服务器

一、前言 本文相关的全部源码和RtspSever库&#xff0c;我已打包上传&#xff0c;欢迎大家免费下载&#xff0c;testRTSPSever。 每一个嵌入式视觉算法工程师&#xff0c;都应该有一套属于自己的算法仿真和测试环境。可以方便地进行视频、图像等素材进行在线导入&#xff0c;可…