Cpp::哈希表的两种模拟实现方式(27)

news/2025/1/8 2:03:10/

文章目录

  • 前言
  • 一、闭散列
    • 大思路
    • 基本构架
    • 插入数据
    • 扩容逻辑
    • 扩容换表
    • 查找元素
    • 删除数据
    • 除留余数法出现类型问题
      • 简单类型做key
      • string类型做key
  • 二、开散列
    • 大思路
    • 插入数据
    • 析构函数
    • 哈希扩容
    • 删除数据
    • 哈希查找
  • 总结


前言

  哈喽大家好!承接上文,今天我们再来模拟实现一下哈希表
  它的实现方式一共有两种!


一、闭散列

大思路

  闭散列:也叫开放定址法,当发生哈希冲突时,如果哈希表未被装满,说明在哈希表中必然还有空位置,那么可以把key存放到冲突位置中的“下一个” 空位置中去

在这里插入图片描述

有点强盗逻辑,既然我的位置没了,那就去抢别人的位置!

基本构架

	enum State{EXIST,EMPTY,DELETE};template<class K, class V>struct HashData{pair<K, V> _kv;State _state = EMPTY;};template<class K, class V>class HashTable{public:private:vector<HashData<K, V>> _tables;size_t _n = 0;};

_ size 一般用于序列式容器中表示有效元素个数,在关联式容器中命名约定一般规定 _n 作为记录有效元素个数

插入数据

  在插入过程,元素需要通过除留余数法找到对应位置进行插入,期间可能会出现哈希冲突的问题,我们需要以该位置向后寻找状态标记为空的位置进行插入

  在向后寻找位置途中可能存在越界情况,这里采用处理循环队列方式进行取模操作,保证数据在合法范围进行查找。这里存在一个大前提,空间是充足的,不然找半天都找不到位置

		bool Insert(const pair<K, V>& kv){if (Find(kv.first))return false;// 扩容if (_n * 10 / _tables.size() >= 7){//vector<HashData<K, V>> newTables(_tables.size() * 2); 遍历旧表,将所有数据映射到新表 ...//_tables.swap(newTables);HashTable<K, V, Hash> newHT;newHT._tables.resize(_tables.size() * 2);for (size_t i = 0; i < _tables.size(); i++){if (_tables[i]._state == EXIST){newHT.Insert(_tables[i]._kv);}}_tables.swap(newHT._tables);}Hash hs;size_t hashi = hs(kv.first) % _tables.size();while (_tables[hashi]._state == EXIST){++hashi;hashi %= _tables.size();}_tables[hashi]._kv = kv;_tables[hashi]._state = EXIST;++_n;return true;}

扩容逻辑

  上点中我们代码中有个扩容模块
在这里插入图片描述

负载因子越小,冲突率越低,效率就越高,空间利用率就越低

  当然,为了防止出现类型问题,我们采用乘个十的方法来解决这类问题

同时,我们可以思考一个问题,就是我们的 n 到底是除以 size() 还是 capacity() ,选择后者有可能会导致越界访问,所以我们可以先在构造函数中为 _tables 开辟空间,同时防止了 size() 出现等于零的风险

扩容换表

  当哈希表进行扩容逻辑时,导致了散列表长度发生了变换。这也意味着通过哈希函数(开发定址法)得到的位置需要重新安排插入

  这个时候我们就可以重新书写哈希函数,避免显得冗余,这就是插入逻辑复用

查找元素

		HashData<K, V>* Find(const K& key){Hash hs;size_t hashi = hs(key) % _tables.size();while (_tables[hashi]._state != EMPTY){if (   _tables[hashi]._state == EXIST&& _tables[hashi]._kv.first == key){return &_tables[hashi];}++hashi;hashi %= _tables.size();}return nullptr;}

  其中我们需要注意的是,当删除某个元素时,查找过程中无法判断找到数据及其是否需要继续前进,这时候就需要DELETE标记

删除数据

		bool Erase(const K& key){HashData<K, V>* ret = Find(key);if (ret == nullptr){return false;}else{ret->_state = DELETE;return true;}}

哈希表删除数据是我们遇到最简单的删除逻辑,只需要改变位置状态就可以了

除留余数法出现类型问题

  对于 key 进行取模查找,是建立在 key 属于无符号整型类型来考虑的,但是我们设计属于泛型编程,key 需要去适应不同种类型如 string类型、自定义类型、负数

简单类型做key

template<class K>
struct HashFunc
{size_t operator()(const K& key){return (size_t)key;}
};

string类型做key

  这时候我们可能会想,能不能把字母转成 ASCII 码值,但是事实上,这种方法可能会出错,且也可能会发生哈希冲突,因为不同字符组合可能具有相同的 ASCII 码总和

  这个时候,我们就可以进行模板特化

template<>
struct HashFunc<string>
{size_t operator()(const string& key){size_t hash = 0;for (const auto& e : key){hash *= 31;hash += e;}return hash;

二、开散列

大思路

  开散列法又叫链地址法(开链法),首先对关键码集合用散列函数计算散列地址,具有相同地址的关键码归于同一子集合,每一个子集合称为一个桶,各个桶中的元素通过一个单链表链接起来,各链表的头结点存储在哈希表中

在这里插入图片描述

开散列中每个桶中放的都是发生哈希冲突的元素,并没有顺序之分

插入数据

在这里插入图片描述

			Node* newnode = new Node(kv);newnode->_next = _tables[hashi];_tables[hashi] = newnode;++_n;

其实头插尾插都行,只不过是尾插有点麻烦,头插比较简单轻松

析构函数

  这里涉及堆上空间资源的开辟,一般需要涉及析构函数进行资源处理

		~HashTable(){// 依次把每一个桶释放for (size_t i = 0; i < _tables.size(); i++){Node* cur = _tables[i];while (cur){Node* next = cur->_next;delete cur;cur = next;}_tables[i] = nullptr;}}

哈希扩容

  到这里,我们可以复用闭散列的扩容方案,只是那种方案如果存在一万个节点,意味着需要复制一万个节点又要释放一万个节点,显得很浪费

  这时候我们就可以采取一种新的方式了!
在这里插入图片描述
  先保存 cur 的下一个节点 next,然后得到新表的位置,再把 cur 所指向的节点链到新的表上,这就是我们的思路

删除数据

		bool Erase(const K& key){Hash hs;size_t hashi = hs(key) % _tables.size();Node* prev = nullptr;Node* cur = _tables[hashi];while (cur){if (cur->_kv.first == key){if (prev == nullptr){_tables[hashi] = cur->_next;}else{prev->_next = cur->_next;}delete cur;--_n;return true;}prev = cur;cur = cur->_next;}return false;}

一种是删除第一个节点,另一种是删除其他节点prev->_next = cur->_next

哈希查找

		Node* Find(const K& key){Hash hs;size_t hashi = hs(key) % _tables.size();Node* cur = _tables[hashi];while (cur){if (cur->_kv.first == key){return cur;}cur = cur->_next;}return nullptr;}

总结

  本节其实没有什么特别难的地方,但是但是,下一篇的 unordered 封装就不尽然了,请继续加油!


http://www.ppmy.cn/news/1560576.html

相关文章

vcruntime140.dll如何修复?彻底解决vcruntime140.dll丢失的七个方法

vcruntime140.dll是Microsoft Visual C 2015 Redistributable包中的关键组件&#xff0c;主要用于支持使用Visual C开发的应用程序。这个DLL文件包含了多个用于执行C程序的运行时库函数&#xff0c;涉及内存管理、异常处理、输入输出操作等核心功能。vcruntime140.dll的重要性体…

在 uni-app 中使用 wxml-to-canvas 的踩坑经验总结

在 uni-app 中使用 wxml-to-canvas 的踩坑经验总结 wxml-to-canvas 是一款非常强大的小程序工具&#xff0c;可以将 WXML 转换为 Canvas 绘图&#xff0c;用于生成海报、分享图片等。将其应用于 uni-app 项目中&#xff0c;可以为多端开发带来极大的便利&#xff0c;但也有一些…

【C++】lambda 表达式 | 包装器

文章目录 &#x1f449;lambda表达式&#x1f448;C98中的一个例子lambda表达式lambda表达式语法 &#x1f449;包装器&#x1f448;function包装器bind &#x1f449;lambda表达式&#x1f448; C98中的一个例子 注&#xff1a;是否需要加括号&#xff0c;看的是模板需要的是…

STM32 拓展 备份寄存器(BKP)

备份寄存器简介 BKP&#xff08;backup register&#xff0c;备份寄存器&#xff09;。备份寄存器是42个16位的寄存器&#xff0c;可用来存储84个字节的用户应用程序数据。他们处在备份域里&#xff0c;当VDD电源被切断&#xff0c;他们仍然由VBAT维持供电。 当系统在待机模式…

简单使用linux

1.1 Linux的组成 Linux 内核&#xff1a;内核是系统的核心&#xff0c;是运行程序和管理 像磁盘和打印机等硬件设备的核心程序。 文件系统 : 文件存放在磁盘等存储设备上的组织方法。 Linux 能支持多种目前浒的文件系统&#xff0c;如 ext4 、 FAT 、 VFAT 、 ISO9660 、 NF…

JDK、JRE、JVM三者的关系、JDK8的新特性、JVM内存结构,堆栈的区别

1&#xff0e;JDK、JRE、JVM三者的关系 JDK (Java Development Kit)----Java开发工具包&#xff0c;用于Java程序的开发。 JRE (Java Runtime Environment)----Java运行时环境&#xff0c;只能运行.class文件&#xff0c;不能编译。 JVM (Java Virtual Machine)----Java虚拟…

论文阅读:Towards Faster Deep Graph Clustering via Efficient Graph Auto-Encoder

论文地址&#xff1a;Towards Faster Deep Graph Clustering via Efficient Graph Auto-Encoder | ACM Transactions on Knowledge Discovery from Data 代码地址&#xff1a; https://github.com/Marigoldwu/FastDGC 摘要 深度图聚类&#xff08;Deep Graph Clustering, DGC…

快速上手LangChain(三)构建检索增强生成(RAG)应用

文章目录 快速上手LangChain(三)构建检索增强生成(RAG)应用概述索引阿里嵌入模型 Embedding检索和生成RAG应用(demo:根据我的博客主页,分析一下我的技术栈)快速上手LangChain(三)构建检索增强生成(RAG)应用 langchain官方文档:https://python.langchain.ac.cn/do…