【Numpy核心编程攻略:Python数据处理、分析详解与科学计算】2.12 连续数组:为什么contiguous这么重要?

news/2025/2/3 23:39:18/

在这里插入图片描述

2.12 连续数组:为什么contiguous这么重要?

目录
《连续数组:为什么contiguous这么重要?》
2.12.1 C顺序与Fortran顺序对比
2.12.2 跨步数组重排
2.12.3 BLAS库兼容性
2.12.4 转置操作性能对比
2.12.5 总结
2.12.6 参考文献

2.12.1 C顺序与Fortran顺序对比

NumPy 的 ndarray 支持两种主要的内存顺序:C 顺序(行优先)和 Fortran 顺序(列优先)。了解这两种顺序的差异和影响对于优化内存访问至关重要。

  • C 顺序的基本原理:行优先存储。
  • Fortran 顺序的基本原理:列优先存储。
  • 选择合适的顺序:在不同场景下选择合适的内存顺序。
内存顺序对比
C 顺序
Fortran 顺序
行优先存储
列优先存储
选择合适的顺序
矩阵乘法
数组切片
python">import numpy as np# 创建一个 C 顺序的数组
a_c = np.array([[1, 2, 3], [4, 5, 6]], order='C')
print(f"C 顺序数组 a_c: \n{a_c}")
print(f"a_c 的步长: {a_c.strides}")  # 输出步长# 创建一个 Fortran 顺序的数组
a_f = np.array([[1, 2, 3], [4, 5, 6]], order='F')
print(f"Fortran 顺序数组 a_f: \n{a_f}")
print(f"a_f 的步长: {a_f.strides}")  # 输出步长

2.12.2 跨步数组重排

跨步(strides)是 ndarray 中非常重要的概念,通过调整步长可以实现数组的重排,而不需要创建新的数据副本。合理的跨步设置可以显著提高性能。

  • 跨步的基本概念:步长的定义和作用。
  • 跨步重排的方法:如何通过调整步长实现数组重排。
  • 跨步重排的性能优势:避免数据复制,提高访问效率。
通过 reshape 方法调整步长
ndarray
+int nd: 维度数
+npy_intp* dimensions: 形状数组
+npy_intp* strides: 步长数组
+void* data: 数据指针
+PyDataTypeObject* dtype: 数据类型
+PyObject* base: 基数组
+int flags: 标志位
reshape
+ndarray* _array: 原始数组
+npy_intp* _new_strides: 新的步长数组
+int _new_flags: 新的标志位
python">import numpy as np# 创建一个 3x3 的数组
a = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])# 通过重塑实现跨步重排
b = a.reshape(9)  # 将 3x3 的数组重塑为 1x9 的数组
print(f"重塑后的数组 b: \n{b}")
print(f"b 的步长: {b.strides}")  # 输出步长# 通过转置实现跨步重排
c = a.T  # 转置数组
print(f"转置后的数组 c: \n{c}")
print(f"c 的步长: {c.strides}")  # 输出步长

2.12.3 BLAS库兼容性

BLAS(Basic Linear Algebra Subprograms)库是许多数值计算库的核心,NumPy 也依赖于 BLAS 库来实现高效的矩阵运算。了解 ndarray 的连续性对 BLAS 库的兼容性影响可以优化计算性能。

  • BLAS库的基本原理:BLAS 库的介绍和作用。
  • 连续性对 BLAS 的影响:非连续数组对 BLAS 库性能的影响。
  • 优化 BLAS 兼容性:如何确保数组的连续性以优化 BLAS 性能。
BLAS库兼容性
BLAS库的基本原理
矩阵运算优化
线性代数操作
连续性对 BLAS 的影响
性能下降
数据复制
优化 BLAS 兼容性
使用 np.ascontiguousarray
转置数组
python">import numpy as np
import time# 创建一个大数组
a = np.random.rand(1000, 1000)# 非连续数组
b = a[::2, ::2]  # 非连续数组# 连续数组
c = np.ascontiguousarray(b)  # 转换为连续数组# 计算矩阵乘法
start_time = time.time()
result_b = np.dot(b, b.T)  # 非连续数组的矩阵乘法
non_contiguous_time = time.time() - start_time
print(f"非连续数组矩阵乘法用时: {non_contiguous_time:.2f}秒")start_time = time.time()
result_c = np.dot(c, c.T)  # 连续数组的矩阵乘法
contiguous_time = time.time() - start_time
print(f"连续数组矩阵乘法用时: {contiguous_time:.2f}秒")# 比较性能
speedup = non_contiguous_time / contiguous_time
print(f"连续数组矩阵乘法性能提升: {speedup:.2f}倍")

2.12.4 转置操作性能对比

转置操作在数组处理中非常常见,但不同的数组顺序(如 C 顺序和 Fortran 顺序)会影响转置的性能。了解转置操作的性能差异可以优化代码。

  • 转置的基本原理:转置操作的定义和作用。
  • C 顺序和 Fortran 顺序的转置性能:比较两种顺序的转置性能。
  • 优化转置操作:如何优化转置操作以提高性能。
转置操作性能对比
转置的基本原理
改变数组顺序
C 顺序的转置性能
数据复制
步长调整
Fortran 顺序的转置性能
数据不复制
步长调整
优化转置操作
使用 np.asfortranarray
使用 np.ascontiguousarray
python">import numpy as np
import time# 创建一个 C 顺序的数组
a_c = np.random.rand(1000, 1000)# 创建一个 Fortran 顺序的数组
a_f = np.asfortranarray(a_c)# 计算 C 顺序数组的转置
start_time = time.time()
b_c = a_c.T  # 转置操作
c contiguous_time = time.time() - start_time
print(f"C 顺序数组转置用时: {c_contiguous_time:.2f}秒")
print(f"b_c 的步长: {b_c.strides}")  # 输出步长# 计算 Fortran 顺序数组的转置
start_time = time.time()
b_f = a_f.T  # 转置操作
f_contiguous_time = time.time() - start_time
print(f"Fortran 顺序数组转置用时: {f_contiguous_time:.2f}秒")
print(f"b_f 的步长: {b_f.strides}")  # 输出步长# 比较性能
speedup = c_contiguous_time / f_contiguous_time
print(f"Fortran 顺序数组转置性能提升: {speedup:.2f}倍")

2.12.5 总结

  • 关键收获:理解 C 顺序和 Fortran 顺序的差异,掌握跨步数组重排的方法,了解 BLAS 库兼容性的重要性,优化转置操作的性能。
  • 最佳实践:合理选择内存顺序,优化数组的跨步设置,确保数组的连续性以提高计算性能,使用 np.ascontiguousarraynp.asfortranarray 进行内存优化。
  • 实用技巧:通过实时监控内存占用和性能测试,找到最优的内存布局策略。

通过本文,我们深入探讨了 NumPy 中连续数组的重要性,包括 C 顺序和 Fortran 顺序的对比,跨步数组的重排技巧,BLAS 库的兼容性问题,以及转置操作的性能优化。希望这些内容能帮助你在实际开发中更好地优化内存使用,提高代码性能,避免常见的内存陷阱。

2.12.6 参考文献

参考资料链接
《NumPy Beginner’s Guide》NumPy Beginner’s Guide
《Python for Data Analysis》Python for Data Analysis
NumPy 官方文档NumPy Reference
Dask 官方文档Dask Documentation
Stack OverflowDifference between C and Fortran order in NumPy
MediumUnderstanding NumPy’s Memory Layout
Python Memory ManagementPython Memory Management
SciPy 官方文档SciPy Memory Efficiency
WikipediaBLAS (Basic Linear Algebra Subprograms)
《高性能Python》High Performance Python
《Python数据科学手册》Python Data Science Handbook
Intel MKLIntel Math Kernel Library (MKL)
OpenBLASOpenBLAS Documentation

这篇文章包含了详细的原理介绍、代码示例、源码注释以及案例等。希望这对您有帮助。如果有任何问题请随私信或评论告诉我。


http://www.ppmy.cn/news/1569086.html

相关文章

【C++动态规划 离散化】1626. 无矛盾的最佳球队|2027

本文涉及知识点 C动态规划 离散化 LeetCode1626. 无矛盾的最佳球队 假设你是球队的经理。对于即将到来的锦标赛,你想组合一支总体得分最高的球队。球队的得分是球队中所有球员的分数 总和 。 然而,球队中的矛盾会限制球员的发挥,所以必须选…

MySQL基本架构SQL语句在数据库框架中的执行流程数据库的三范式

MySQL基本架构图: MySQL主要分为Server层和存储引擎层 Server层: 连接器:连接客户端,获取权限,管理连接 查询缓存(可选):在执行查询语句之前会先到查询缓存中查看是否执行过这条语…

SQL UCASE() 函数详解

SQL UCASE() 函数详解 在SQL中,UCASE() 函数是一个非常有用的字符串处理函数,它可以将字符串中的所有小写字母转换为大写字母。本文将详细介绍UCASE() 函数的用法、语法、示例以及其在实际应用中的优势。 一、UCASE() 函数简介 UCASE() 函数是SQL标准…

经典蓝牙协议:【A2DP,HSP/HFP,OBEX/OPP】

经典蓝牙,也称为传统蓝牙,通常指的是蓝牙协议4.0以下的版本,包括v1.1、1.2、2.0、2.1和3.0等。这些版本的蓝牙协议支持音频(如HFP/HSP, A2DP)和数据(如SPP, HID, OPP, PBAP等)两大类协议。其中&…

Games104——网络游戏的架构基础

这里写目录标题 多人网络游戏面临的挑战网络协议OSI模型SocketTCP/IP协议UDP协议基于UDP的可靠连接自动重复的要求Forward Error Correction FECXOR-FEC(异或运算)Reed-Solomon Codes 时钟同步&RPCRTTNTPRPCStubs 网络拓扑P2PDedicated Server 快照同…

97,【5】buuctf web [极客大挑战 2020]Greatphp

进入靶场 审代码 <?php // 关闭所有 PHP 错误报告&#xff0c;防止错误信息泄露可能的安全隐患 error_reporting(0);// 定义一个名为 SYCLOVER 的类 class SYCLOVER {// 定义类的公共属性 $sycpublic $syc;// 定义类的公共属性 $loverpublic $lover;// 定义魔术方法 __wa…

【Leetcode 每日一题】81. 搜索旋转排序数组 II

问题背景 已知存在一个按非降序排列的整数数组 n u m s nums nums&#xff0c;数组中的值不必互不相同。 在传递给函数之前&#xff0c; n u m s nums nums 在预先未知的某个下标 k ( 0 < k < n u m s . l e n g t h ) k\ (0 < k < nums.length) k (0<k<…

北京大学与智元机器人联合实验室发布OmniManip:显著提升机器人3D操作能力

近年来视觉语⾔基础模型&#xff08;Vision Language Models, VLMs&#xff09;在多模态理解和⾼层次常识推理上⼤放异彩&#xff0c;如何将其应⽤于机器⼈以实现通⽤操作是具身智能领域的⼀个核⼼问题。这⼀⽬标的实现受两⼤关键挑战制约&#xff1a;1. VLM 缺少精确的 3D 理解…