机器学习基础入门——机器学习库介绍(NumPy、pandas、Matplotlib)

server/2025/2/26 21:42:33/

pandasMatplotlib_0">机器学习库介绍(NumPy、pandas、Matplotlib)

在 Python 机器学习的领域中,NumPy、pandas 和 Matplotlib 是三个不可或缺的基础库。它们分别在数值计算、数据处理与分析以及数据可视化方面发挥着关键作用,极大地提升了开发效率与数据洞察能力。接下来,我们将通过丰富的代码示例详细了解这三个库。

NumPy:高效的数值计算库

NumPy 提供了多维数组对象ndarray,以及大量用于数组操作的函数,使得数值计算变得高效且便捷。

创建数组

import numpy as np# 创建一维数组arr1 = np.array([1, 2, 3, 4])print(arr1)# 创建二维数组arr2 = np.array([[1, 2, 3], [4, 5, 6]])print(arr2)# 创建全零数组zeros_arr = np.zeros((3, 4))print(zeros_arr)# 创建全一数组ones_arr = np.ones((2, 3))print(ones_arr)# 创建指定范围的数组range_arr = np.arange(1, 10, 2)print(range_arr)

*示意不同方式创建的 NumPy 数组结构*

数组运算

a = np.array([1, 2, 3])b = np.array([4, 5, 6])# 数组相加add_result = a + bprint(add_result)# 数组相乘mul_result = a * bprint(mul_result)# 数组点积dot_result = np.dot(a, b)print(dot_result)

在这里插入图片描述

数组索引与切片

arr = np.array([10, 20, 30, 40, 50])# 访问单个元素print(arr[2])# 切片操作print(arr[1:4])# 二维数组索引与切片two_d_arr = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])print(two_d_arr[1, 2])print(two_d_arr[:, 1])

在这里插入图片描述

pandas_111">pandas:强大的数据处理与分析库

pandas 的核心数据结构是Series(一维带标签数组)和DataFrame(二维表格型数据结构),提供了丰富的数据处理与分析方法。

创建数据结构

import pandas as pd# 创建Seriesdata = [10, 20, 30, 40]index = ['a', 'b', 'c', 'd']series = pd.Series(data, index=index)print(series)# 创建DataFramedata = {'Name': ['Alice', 'Bob', 'Charlie'],'Age': [25, 30, 35],'City': ['New York', 'London', 'Paris']}df = pd.DataFrame(data)print(df)

在这里插入图片描述

展示 pandas 中 Series 和 DataFrame 的数据结构样式

数据读取与写入

# 从CSV文件读取数据df = pd.read_csv('data.csv')print(df.head())# 将数据写入CSV文件df.to_csv('new_data.csv', index=False)

数据清洗与处理

# 处理缺失值df = pd.DataFrame({'A': [1, 2, None, 4],'B': [5, None, 7, 8]})df = df.dropna()  # 删除包含缺失值的行print(df)# 处理重复值df = pd.DataFrame({'A': [1, 2, 2, 3],'B': [4, 5, 5, 6]})df = df.drop_duplicates()print(df)

在这里插入图片描述

数据筛选与统计

df = pd.DataFrame({'Name': ['Alice', 'Bob', 'Charlie'],'Age': [25, 30, 35],'City': ['New York', 'London', 'Paris']})# 筛选年龄大于30的行filtered_df = df[df['Age'] > 30]print(filtered_df)# 统计各列的描述性统计信息stats = df.describe()print(stats)

在这里插入图片描述

Matplotlib:数据可视化利器

Matplotlib 可以将数据以直观的图表形式展示出来,帮助我们更好地理解数据特征与趋势。

简单绘图

import matplotlib.pyplot as pltx = [1, 2, 3, 4]y = [10, 12, 15, 13]plt.plot(x, y)plt.xlabel('X-axis')plt.ylabel('Y-axis')plt.title('Simple Line Plot')plt.show()

在这里插入图片描述

Matplotlib 绘制的简单折线图示例

绘制多种图表

# 柱状图labels = ['A', 'B', 'C', 'D']values = [20, 35, 15, 30]plt.bar(labels, values)plt.show()

在这里插入图片描述

Matplotlib 绘制的柱状图示例

# 散点图x = np.random.randn(100)y = np.random.randn(100)plt.scatter(x, y)plt.show()

在这里插入图片描述

Matplotlib 绘制的散点图示例

# 饼图sizes = [30, 20, 15, 35]labels = ['Apple', 'Banana', 'Orange', 'Grapes']plt.pie(sizes, labels=labels, autopct='%1.1f%%')plt.show()

在这里插入图片描述

Matplotlib 绘制的饼图示例

通过上述对 NumPy、pandas 和 Matplotlib 库的详细介绍及代码示例,相信大家对这三个机器学习常用库有了更深入的理解。在实际项目中,灵活运用这些库能够大幅提升数据处理、分析与可视化的效率,为机器学习模型的构建与优化奠定坚实基础。


http://www.ppmy.cn/server/170851.html

相关文章

深入探索 Java NIO:从基础到实战应用

🚀欢迎来到我的【Java高级】专栏🚀 🙋我是小蜗,一名在职牛马。🐒我的博客主页​​​​​​ ➡️ ➡️ 小蜗向前冲的主页🙏🙏欢迎大家的关注,你们的关注是我创作的最大动力🙏🙏🌍前言 揭开 Java NIO 的神秘面纱,开启高效编程之旅 Java NIO(New I/O)是在…

什么是HTTP/2协议?NGINX如何支持HTTP/2并提升网站性能?

HTTP/2是一种用于在Web浏览器和服务器之间进行通信的协议,旨在提高网站性能和加载速度。它是HTTP/1.1的继任者,引入了许多优化和改进,以适应现代Web应用的需求。HTTP/2的主要目标是减少延迟、提高效率,以及更好地支持并发请求。 …

DeepSeek “源神”启动!「GitHub 热点速览」

上周,DeepSeek 官方宣布将陆续发布 5 个开源项目。本周一开源社区就迎来了首发之作——FlashMLA!该项目开源后,不到一天 Star 数已突破 6k,并且还在以惊人的速度持续飙升。 GitHub 地址:github.com/deepseek-ai/FlashM…

python与C系列语言的差异总结(4)

如果具有传统编译型语言的经验,大家可能会对是否使用字典而犹豫不决,担心字典的效率比列表或数组低。事实上Python字典的执行速度已经相当快了。Python语言的许多内部特性都依赖于字典,为提高字典的效率已经投入了大量的心血。Python的所有数…

C#基础总结:常用的数据结构

Array: 需要处理的元素数量确定并且需要使用下标时可以考虑,不过建议使用List 数组的内容都是相同类型 数组可以直接通过下标访问 创建时需要固定数组大小 int size 5; int [] test new int [size]; string [] test2 new string [3]; //赋值 t…

2024大模型技术全景解构:从开源生态到商业落地的深度博弈

大模型技术调研报告 一、开源大模型概览 模型名称开发公司/机构技术架构参数规模开源协议特点与应用场景LLaMA 3Meta (Facebook)Transformer (Decoder-only)8B、70B、400B需申请商用许可支持多语言,长上下文(128K token),优化推…

吃一堑长一智

工作中经历,有感触记录下 故事一 以前在一家公司时,自己是一名开发人员,遇到问题请教领导解决方案,当时领导给了建议,后来上线后出问题了,背了锅。心里想的是领导说这样做的呀,为什么出问题还…

23贪心算法

分发饼干 class Solution { public:int findContentChildren(vector<int>& g, vector<int>& s) {int i0,j0;int count0;sort(s.begin(),s.end());sort(g.begin(),g.end());while(i<g.size()&&j<s.size()){if(g[i]<s[j]){i;j;count;}else…