Java集合学习:HashMap的原理

server/2025/1/30 23:49:30/

一、HashMap里的Hash是什么?

首先,我们先要搞清楚HashMap里的的Hash是啥意思。

当我们在编程过程中,往往需要对线性表进行查找操作。

在顺序表中查找时,需要从表头开始,依次遍历比较a[i]与key的值是否相等,直到相等才返回索引i;在有序表中查找时,我们经常使用的是二分查找,通过比较key与a[i]的大小来折半查找,直到相等时才返回索引i。最终通过索引找到我们要找的元素。

但是,这两种方法的效率都依赖于查找中比较的次数

那能不能不经过比较,而是直接通过关键字key一次得到所要的结果呢?这时,就有了散列表查找(哈希表)

散列技术是指在记录的存储位置和它的关键字之间建立一个确定的对应关系f,使每一个关键字都对应一个存储位置。这样,在查找的过程中,只需要通过这个对应关系f 找到给定值key的映射f(key)。只要集合中存在关键字和key相等的记录,则必在存储位置f(key)处。我们把这种对应关系f 称为散列函数哈希函数。按照这个思想,采用散列技术将记录存储在一块连续的存储空间中,这块连续的存储空间称为哈希表。所得的存储地址称为哈希地址散列地址

相信看到这里大家都懂这个Hash是什么意思了,其实就是散列技术,通过一个对应关系快速找到目标值的位置。

二、HashMap是什么?

HashMap是正是基于哈希表的数据结构,用于存储键值对(key-value)。

HashMap基于键的HashCode值唯一标识一条数据,同时基于键的HashCode值进行数据的存取,因此可以快速更新查询数据,但其每次遍历的顺序无法保证相同。

HashMap的key和value允许为null

HashMap是非线程安全的,即在同一时刻有多个线程同时写HashMap时将可能导致数据的不一致。

如果需要满足线程安全的条件,则可以用Collections的synchronizedMap方法使HashMap具有线程安全的能力,或者使用ConcurrentHashMap

三、HashMap的底层原理

HashMap的核心原理是将键的哈希值映射到数组索引位置,通过数组+链表(在Java 8及之后是数组+链表或红黑树)来处理哈希冲突。

HashMap使用键的hashCode()方法计算哈希值,并通过indexFor方法(JDK1.7之后版本移除了这个方法,直接使用(n-1) & hash)确定元素在数组中的存储位置。哈希值是经过一定扰动处理的,防止哈希值分布不均匀,从而减少哈希冲突。

1、HashMap的数据结构

在这里插入图片描述
HashMap的数据结构如上图所示,其内部是一个数组,数组中的每个元素都是一个单向链表,链表中的每个元素都是嵌套类Entry的实例,Entry实例包含4个属性:key、value、hash值和用于指向单向链表下一个元素的next。

HashMap在查找数据时,根据HashMap的Hash值可以快速定位到数组的具体下标,但是在找到数组下标后需要对链表进行顺序遍历直到找到需要的数据,时间复杂度为O(n)为了减少链表遍历的开销,Java 8对HashMap进行了优化,将数据结构修改为数组+链表或红黑树。在链表中的元素超过8个以后,HashMap会将链表结构转换为红黑树结构以提高查询效率,红黑树是一种自平衡二叉搜索树,能够将最坏情况下的查询复杂度从O(n)降低到O(log N)。如果树中元素的数量低于6个,红黑树会转换回链表,以减少不必要的树操作开销。

Java 8 HashMap的数据结构如下图所示:
在这里插入图片描述

2、hashCode()和equals()的重要性

HashMap的键必须实现hashCode()和equals()方法。hashCode()用于计算哈希值,以决定键的存储位置,而equals()用于比较两个键是否相同。在put操作时,如果两个键的hashCode()相同,但equals()返回false,则这两个键会被视为不同的键,存储在同一个桶的不同位置。

误用hashCode()和equals()会导致HashMap中的元素无法正常查找或插入

3、默认容量与负载因子的选择

HashMap常用的参数如下:

  • capacity:当前数组的容量,默认为16,可以扩容,扩容后数组的大小为当前的两倍,因此该值始终为2n。
  • loadFactor:负载因子,默认为0.75。
  • threshold:扩容的阈值,其值等于capacity×loadFactor。

默认容量是16,负载因子是0.75,这个组合是在性能和空间之间找到平衡。较高的负载因子会减少空间浪费,但增加了哈希冲突的概率;较低的负载因子会增加空间开销,但减少哈希冲突。

如果已知HashMap的容量需求,建议提前设定合适的初始容量,以减少扩容带来的性能损耗。

4、哈希冲突链表法

当要塞入一个键值对的时候,会根据一个hash算法计算key的hash值,然后通过数组大小n-1 & hash值之后,得到一个数组的下标,然后往那个位置塞入这个键值对

hash算法是可能产生冲突的,且数组的大小是有限的,所以很可能通过不同的key计算得到一样的下标,因此为了解决键值对冲突的问题,采用了链表法:

在JDK1.7及之前链表的插入采用的是头插法,即每当发生哈希冲突时,新的节点总是插入到链表的头部,老节点依次向后移动,形成新的链表结构。

多线程的情况下,头插法可能会导致链表形成环,特别是在并发扩容时。

在JDK1.8的时候,改成了尾插法,即新节点插入到链表的尾部,保持插入的顺序。


http://www.ppmy.cn/server/163656.html

相关文章

【趣学SQL】第五章:性能优化与调优 5.2 数据库调优——让MySQL跑得比双十一快递还快的终极秘籍

第五章:性能优化与调优 5.2 数据库调优——让MySQL跑得比双十一快递还快的终极秘籍 欢迎来到「MySQL改装车间」!今天我们将化身"数据库赛车工程师",用一家日订单千万的虚拟电商平台崩溃案例,教你如何把MySQL从"老…

pytorch使用SVM实现文本分类

完整代码: import torch import torch.nn as nn import torch.optim as optim import jieba import numpy as np from sklearn.model_selection import train_test_split from sklearn.feature_extraction.text import TfidfVectorizer from sklearn import metric…

Linux学习笔记——网络管理命令

一、网络基础知识 TCP/IP四层模型 以太网地址(MAC地址): 段16进制数据 IP地址: 子网掩码: 二、接口管命令 ip命令:字符终端,立即生效,重启配置会丢失 nmcli命令:字符…

【暴力洗盘】的实战技术解读-北玻股份和三变科技

龙头的上攻与回调动作都是十分惊人的。不惊人不足以吸引投资者的关注,不惊人也就不能成为龙头了。 1.建筑节能概念--北玻股份 建筑节能,是指在建筑材料生产、房屋建筑和构筑物施工及使用过程中,满足同等需要或达到相同目的的条件下&#xf…

Github 2025-01-26 php开源项目日报Top10

根据Github Trendings的统计,今日(2025-01-26统计)共有10个项目上榜。根据开发语言中项目的数量,汇总情况如下: 开发语言项目数量PHP项目10Blade项目1Laravel:表达力和优雅的 Web 应用程序框架 创建周期:4631 天开发语言:PHP, BladeStar数量:75969 个Fork数量:24281 次…

【信息系统项目管理师-选择真题】2006下半年综合知识答案和详解

更多内容请见: 备考信息系统项目管理师-专栏介绍和目录 文章目录 【第1题】【第2题】【第3题】【第4题】【第5题】【第6题】【第7题】【第8题】【第9题】【第10题】【第11题】【第12题】【第13题】【第14题】【第15题】【第16题】【第17题】【第18题】【第19题】【第20题】【第…

【MySQL】C# 连接MySQL

C# 连接MySQL 1. 添加MySQL引用 安装完MySQL之后,在安装的默认目录 C:Program Files (x86)MySQLConnector NET 8.0 中查找MySQLData.dll文件。 在Visual Studio 中为项目中添加引用。 2. 引入命名空间 using MySql.Data.MySqlClient;3. 构建连接 private sta…

Nuitka打包python脚本

Python脚本打包 Python是解释执行语言,需要解释器才能运行代码,这就导致在开发机上编写的代码在别的电脑上无法直接运行,除非目标机器上也安装了Python解释器,有时候还需要额外安装Python第三方包,相当麻烦。 事实上P…