为什么很多编程语言中数组都是从0开始编号?

news/2025/2/19 8:21:32/

文章来源于极客时间前google工程师−王争专栏。

如何实现随机访问?

什么是数组?

数组(Array)是一种线性表数据结构。它用一组连续的内存空间,来存储一组具有相同类型的数据。

  • 线性表,顾名思义,线性表就是数据排成像一条线一样的结构。每个线性表上的数据最多只有前后两个方向。其实除了数组,链表、队列、栈等也是线性表结构。

image

  • 非线性表,比如二叉树、堆、图等。在非线性表中,数据之间并不是简单的前后关系。

image

  • 连续的内存空间和相同的类型的数据。 正因为这两个限制,它才有了一个堪称“杀手锏”的特性:“随机访问”。但有利就有弊,这两个限制也让数组的很多操作变得非常低效,比如要想在数组中删除、插入一个数据,为了保证数据连续性,就需要做大量的数据搬移工作。

数组如何实现根据下标随机访问数组?

以int[] a = new int[10]来举例。计算机给数组a,分配了一块连续的内存空间1000~1039,其中内存块的首地址为base_address = 1000。

image

我们知道,计算机会给每个内存单元分配一个地址,计算机通过地址来访问内存中的数据。当计算机需要随机访问数组中的某个元素时,它会受限通过下面的寻址公式,计算出该元素存储的内存地址:

a[i]_address = base_address + i*data_type_size

错误纠正

  • 链表适合插入、删除,时间复杂度为O(1);数组适合查找,查找时间复杂度为O(1)
  • 数组是适合查找操作,但是查找的时间复杂度不为O(1)。即便是排好序的数组,用二分查找,时间复杂度也是O(logn)。所以,正确的表述应该是,数组支持随机访问,根据下标随机访问的时间复杂度为O(1)。

低效的“插入”和“删除”

数组为了保持内存数据的连续性,会导致插入、删除两个操作比较低效。

插入操作

假设数组的长度为n,现在,如果我们需要将一个数据插入到数组中的第k个位置。为了把第k个位置腾出来,给新来的数据,需要将第k~n这部分的元素都顺序地往后挪一位。

  • 最好:O(1)
  • 最坏:O(n)
  • 平均:O(n)

image

图上处理,会将第k个位置插入一个元素的时间复杂度降为O(1)。这个处理思想在快排中也会用到。

删除操作

  • 最好:O(1)
  • 最坏:O(n)
  • 平均:O(n)

实际上,在某些特殊场景下,并不一定非得追求数组中数据的连续性。如果我们将多次删除操作集中在一起执行,删除的效率会不会提高很多呢?

image

每次的删除操作并不是真正地搬移数据,只是记录数据已经被删除。当数组中没有更多空间存储数据时,我们再触发执行一次真正地删除操作,这样就大大减少了删除操作导致的数据搬移。

这就是JVM标记清除垃圾回收算法的核心思想。

警惕数组的访问越界问题

如下c语言代码运行结果:

int main(int argc,char* argv[]){int i = 0;int arr[3] = {0};for(;i<=3;i++){arr[i] = 0;printf("hello world");}return 0;
}

在 C 语言中,只要不是访问受限的内存,所有的内存空间都是可以自由访问的。根据我们前面讲的数组寻址公式,a[3]也会被定位到某块不属于数组的内存地址上,而这个地址正好是存储变量i的内存地址,那么 a[3]=0 就相当于i=0,所以所以就会导致代码无限循环。

容器能否完全替代数组?

  1. java ArrayList无法存储基本类型,比如int、long,需要封装为Integer、Long类,而autoboxing、unboxing则有一定的性能消耗,所以如果特别关注性能,或者使用基本类型,就可以选择数组。
  2. 如果数据大小事先已知,并且对数据的操作非常简单,用不到ArrayList提供的大部分方法,也可以直接使用数组。
  3. 当要表示多维数组时,用数组往往会更加直观。比如Object[][] array;而用容器的话需要定义:ArrayList array。
  • 对于业务开发,直接使用容器就足够了,省时省力。毕竟损耗一丢丢性能,完全不会影响到系统整体的性能。
  • 底层开发,比如开发网络框架,性能的优化需要做到机制,这个时候数组就会优于容器,成为首选。

解答开篇

数组为什么要从0开始编号,而不是从1开始呢?

  • 从0开始
    • 计算a[k]的内存地址公式如下:
a[k]_address = base_address+k*data_type_size
  • 从1开始
    • 计算a[k]的内存地址公式如下:
a[k]_address = base_address+(k-1)*data_type_size

通过比较发现,如果从1开始编号,每次随机访问数组元素都会多一次减法运算,对于CPU来说,就是多了一次减法指令。

很多语言也并不是从0开始计数的,比如Matlab。甚至支持负数下标,比如Python。

二维数组的寻址公式

a[][] array = int[m][n];(i<m,j<n)
a[i][j]_address = base_address+i*n*data_base_type+j*data_base_typea[i][j]_address = base_address+(i*n+j)*data_base_type

http://www.ppmy.cn/news/1139697.html

相关文章

Qt + FFmpeg 搭建 Windows 开发环境

Qt FFmpeg 搭建 Windows 开发环境 Qt FFmpeg 搭建 Windows 开发环境安装 Qt Creator下载 FFmpeg 编译包测试 Qt FFmpeg踩坑解决方法1&#xff1a;换一个 FFmpeg 库解决方法2&#xff1a;把项目改成 64 位 后记 官方博客&#xff1a;https://www.yafeilinux.com/ Qt开源社区…

Lua系列文章(1)---Lua5.4参考手册学习总结

windows系统上安装lua,下载地址&#xff1a; Github 下载地址&#xff1a;https://github.com/rjpcomputing/luaforwindows/releases 可以有一个叫SciTE的IDE环境执行lua程序 1 – 简介 Lua 是一种强大、高效、轻量级、可嵌入的脚本语言。 它支持过程编程&#xff0c; 面向对…

08 集群参数配置(下)

Kafka Broker不需要太大的堆内存&#xff1f; Kafka Broker不需要太大的堆内存&#xff1f;应该把内存留给页缓存使用&#xff1f; kafka刷盘时宕机 kafka认为写入成功是指写入页缓存成功还是数据刷到磁盘成功算成功呢&#xff1f;还是上次刷盘宕机失败的问题&#xff0c;页…

【Spring Cloud系统】- Zookeer特性与使用场景

【Spring Cloud系统】- Zookeer特性与使用场景 一、概述 Zookeeper是一个分布式服务框架&#xff0c;是Apache Hadoop的一个子项目&#xff0c;它主要是用来解决分布式应用中经常遇到的一些数据管理问题。如&#xff1a;统一命名服务、状态同步服务、集群管理、分布式应用配置…

基于粒子群优化算法、鲸鱼算法、改进的淘沙骆驼模型算法(PSO/SSA/tGSSA)的微电网优化调度(Matlab代码实现)

&#x1f4a5;&#x1f4a5;&#x1f49e;&#x1f49e;欢迎来到本博客❤️❤️&#x1f4a5;&#x1f4a5; &#x1f3c6;博主优势&#xff1a;&#x1f31e;&#x1f31e;&#x1f31e;博客内容尽量做到思维缜密&#xff0c;逻辑清晰&#xff0c;为了方便读者。 ⛳️座右铭&a…

《学术小白学习之路14》主题建模——主题概率分布相似度计算

《学术小白学习之路14》主题建模——主题概率分布相似度计算 一、场景二、主题建模三、主题之间的相似度计算一、场景 计算主题概念分布的相似度在自然语言处理和机器学习任务中有多种用途。下面是一些常见的应用场景: 1.文本聚类和主题建模:在文本聚类任务中,可以使用主题…

Git 学习笔记 | 安装 Git 及环境配置

Git 学习笔记 | 安装 Git 及环境配置 Git 学习笔记 | 安装 Git 及环境配置安装 Git配置 Git查看配置 Git 学习笔记 | 安装 Git 及环境配置 安装 Git 官方网站&#xff1a;https://git-scm.com/ 官网下载太慢&#xff0c;我们可以使用淘宝镜像下载&#xff1a;https://regist…

工程派工单,建筑工程派工单

工程派工单是指建设项目管理人员或工程维修人员发出的文件&#xff0c;用于标明工人或维修人员在建设项目或设备中处理或维修问题的任务。派工单包括建设项目的实际维护任务、所需材料、工具等信息&#xff0c;以及具体的执行人员和完成时间。工程派工单是保证建设项目顺利开展…