【MySQL】索引(上)

news/2025/2/28 13:55:45/

欢迎拜访:雾里看山-CSDN博客
本篇主题:【MySQL】索引(上)
发布时间:2025.2.26
隶属专栏:MySQL

在这里插入图片描述

目录

  • 初始索引
    • 基本介绍
    • 常见索引分类
    • 案例使用
  • 认识磁盘
    • MySQL 与 存储
    • 关于磁盘
    • 关于扇区
    • 定位扇区
    • 结论
    • 磁盘随机访问(Random Access)与连续访问(Sequential Access)
  • MySQL 与磁盘交互基本单位
  • 建立共识

初始索引

基本介绍

索引:提高数据库的性能,索引是物美价廉的东西了。不用加内存,不用改程序,不用调sql,只要执行正确的 create index ,查询速度就可能提高成百上千倍。但是天下没有免费的午餐,查询速度的提高是以插入、更新、删除的速度为代价的,这些写操作,增加了大量的IO。所以它的价值,在于提高一个海量数据的检索速度

常见索引分类

  1. 主键索引(primary key)
  2. 唯一索引(unique)
  3. 普通索引(index)
  4. 全文索引(fulltext)–解决中子文索引问题。

案例使用

先整一个海量表,在查询的时候,看看没有索引时有什么问题?

--构建一个8000000条记录的数据
--构建的海量表数据需要有差异性,所以使用存储过程来创建, 拷贝下面代码就可以了,暂时不用理解-- 产生随机字符串
delimiter $$
create function rand_string(n INT)
returns varchar(255)
begindeclare chars_str varchar(100) default'abcdefghijklmnopqrstuvwxyzABCDEFJHIJKLMNOPQRSTUVWXYZ';declare return_str varchar(255) default '';declare i int default 0;while i < n doset return_str =concat(return_str,substring(chars_str,floor(1+rand()*52),1));set i = i + 1;end while;return return_str;end $$
delimiter ;--产生随机数字
delimiter $$
create function rand_num()
returns int(5)
begindeclare i int default 0;set i = floor(10+rand()*500);
return i;
end $$
delimiter ;--创建存储过程,向雇员表添加海量数据
delimiter $$
create procedure insert_emp(in start int(10),in max_num int(10))
begin
declare i int default 0;set autocommit = 0;repeatset i = i + 1;insert into EMP values ((start+i)
,rand_string(6),'SALESMAN',0001,curdate(),2000,400,rand_num());until i = max_numend repeat;commit;
end $$
delimiter ;
-- 执行存储过程,添加8000000条记录
call insert_emp(100001, 8000000);

到此,已经创建出了海量数据的表了。

  1. 查询员工编号为998877的员工
mysql> select * from EMP where empno=998877;
+--------+--------+----------+------+---------------------+---------+--------+--------+
| empno  | ename  | job      | mgr  | hiredate            | sal     | comm   | deptno |
+--------+--------+----------+------+---------------------+---------+--------+--------+
| 998877 | vnaqzD | SALESMAN | 0001 | 2025-02-22 00:00:00 | 2000.00 | 400.00 |    198 |
+--------+--------+----------+------+---------------------+---------+--------+--------+
1 row in set (8.86 sec)

可以看到耗时8.86秒,这还是在本机一个人来操作,在实际项目中,如果放在公网中,假如同时有1000个人并发查询,那很可能就死机。

  1. 解决方法,创建索引
mysql> alter table EMP add index(empno);
Query OK, 0 rows affected (22.08 sec)
Records: 0  Duplicates: 0  Warnings: 0
  1. 换一个员工编号,测试看看查询时间
mysql> select * from EMP where empno=998877;
+--------+--------+----------+------+---------------------+---------+--------+--------+
| empno  | ename  | job      | mgr  | hiredate            | sal     | comm   | deptno |
+--------+--------+----------+------+---------------------+---------+--------+--------+
| 998877 | vnaqzD | SALESMAN | 0001 | 2025-02-22 00:00:00 | 2000.00 | 400.00 |    198 |
+--------+--------+----------+------+---------------------+---------+--------+--------+
1 row in set (0.01 sec)mysql> select * from EMP where empno=445566;
+--------+--------+----------+------+---------------------+---------+--------+--------+
| empno  | ename  | job      | mgr  | hiredate            | sal     | comm   | deptno |
+--------+--------+----------+------+---------------------+---------+--------+--------+
| 445566 | daTpSu | SALESMAN | 0001 | 2025-02-22 00:00:00 | 2000.00 | 400.00 |    216 |
+--------+--------+----------+------+---------------------+---------+--------+--------+
1 row in set (0.00 sec)

认识磁盘

MySQL 与 存储

MySQL 给用户提供存储服务,而存储的都是数据,数据在磁盘这个外设当中。磁盘是计算机中的一个机械设备,相比于计算机其他电子元件,磁盘效率是比较低的,在加上IO本身的特征,可以知道,如何提交效率,是 MySQL 的一个重要话题。

关于磁盘

磁盘的物理结构
在这里插入图片描述
关于磁盘的盘片
在这里插入图片描述

关于扇区

数据库文件,本质其实就是保存在磁盘的盘片当中。也就是上面的一个个小格子中,就是我们经常所说的扇区。当然,数据库文件很大,也很多,一定需要占据多个扇区。

题外话:

  • 从上图可以看出来,在半径方向上,距离圆心越近,扇区越小,距离圆心越远,扇区越大
  • 那么,所有扇区都是默认512字节吗?目前是的,我们也这样认为。因为保证一个扇区多大,是由比特位密度决定的。
  • 不过最新的磁盘技术,已经慢慢的让扇区大小不同了,不过我们现在暂时不考虑。

我们在使用Linux,所看到的大部分目录或者文件,其实就是保存在硬盘当中的。(当然,有一些内存文件系统,如: procsys 之类,我们不考虑)

root@VM-20-16-ubuntu:/var/lib/mysql# ll
total 254044
drwxr-x--- 11 mysql mysql      4096 Feb 22 14:56 ./
drwxr-xr-x 45 root  root       4096 Feb 21 21:24 ../
-rw-r-----  1 mysql mysql        56 Jan 20 12:21 auto.cnf
drwxr-x---  2 mysql mysql      4096 Feb 22 15:18 bit_index/
-rw-------  1 mysql mysql      1680 Jan 20 12:21 ca-key.pem
-rw-r--r--  1 mysql mysql      1112 Jan 20 12:21 ca.pem
-rw-r--r--  1 mysql mysql      1112 Jan 20 12:21 client-cert.pem
-rw-------  1 mysql mysql      1676 Jan 20 12:21 client-key.pem
drwxr-x---  2 mysql mysql      4096 Jan 21 16:34 database1/
-rw-r-----  1 mysql mysql       379 Jan 22 14:47 ib_buffer_pool
-rw-r-----  1 mysql mysql 146800640 Feb 22 15:18 ibdata1
-rw-r-----  1 mysql mysql  50331648 Feb 22 15:18 ib_logfile0
-rw-r-----  1 mysql mysql  50331648 Feb 22 15:18 ib_logfile1
-rw-r-----  1 mysql mysql  12582912 Feb 21 19:46 ibtmp1
drwxr-x---  2 mysql mysql      4096 Jan 20 12:21 mysql/
drwxr-x---  2 mysql mysql      4096 Jan 20 12:21 performance_schema/
-rw-------  1 mysql mysql      1680 Jan 20 12:21 private_key.pem
-rw-r--r--  1 mysql mysql       452 Jan 20 12:21 public_key.pem
drwxr-x---  2 mysql mysql      4096 Feb 21 19:46 scott/
-rw-r--r--  1 mysql mysql      1112 Jan 20 12:21 server-cert.pem
-rw-------  1 mysql mysql      1676 Jan 20 12:21 server-key.pem
drwxr-x---  2 mysql mysql     12288 Jan 20 12:21 sys/
drwxr-x---  2 mysql mysql      4096 Feb 18 16:23 test/
drwxr-x---  2 mysql mysql      4096 Feb 17 16:58 test_db/
drwxr-x---  2 mysql mysql      4096 Jan 22 16:22 user_db/

所以,最基本的,找到一个文件的全部,本质,就是在磁盘找到所有保存文件的扇区。
而我们能够定位任何一个扇区,那么便能找到所有扇区,因为查找方式是一样的。

定位扇区

在这里插入图片描述

  • 柱面(磁道): 多盘磁盘,每盘都是双面,大小完全相等。那么同半径的磁道,整体上便构成了一个柱面

  • 每个盘面都有一个磁头,那么磁头和盘面的对应关系便是1对1的

  • 所以,我们只需要知道,磁头(Heads)、柱面(Cylinder)(等价于磁道)、扇区(Sector)对应的编号。即可在磁盘上定位所要访问的扇区。这种磁盘数据定位方式叫做 CHS 。不过实际系统软件使用的并不是 CHS (但是硬件是),而是 LBA ,一种线性地址,可以想象成虚拟地址与物理地址。系统将 LBA 地址最后会转化成为 CHS ,交给磁盘去进行数据读取。不过,我们现在不关心转化细节,知道这个东西,让我们逻辑自洽起来即可。

结论

我们现在已经能够在硬件层面定位,任何一个基本数据块了(扇区)。那么在系统软件上,就直接按照扇区(512字节,部分4096字节),进行IO交互吗?不是

  • 如果操作系统直接使用硬件提供的数据大小进行交互,那么系统的IO代码,就和硬件强相关,换言之,如果硬件发生变化,系统必须跟着变化
  • 从目前来看,单次IO 512字节,还是太小了。IO单位小,意味着读取同样的数据内容,需要进行多次磁盘访问,会带来效率的降低。
  • 之前学习文件系统,就是在磁盘的基本结构下建立的,文件系统读取基本单位,就不是扇区,而是数据块。

故,系统读取磁盘,是以块为单位的,基本单位是 4KB

磁盘随机访问(Random Access)与连续访问(Sequential Access)

随机访问:本次IO所给出的扇区地址和上次IO给出扇区地址不连续,这样的话磁头在两次IO操作之间需要作比较大的移动动作才能重新开始读/写数据。

连续访问:如果当次IO给出的扇区地址与上次IO结束的扇区地址是连续的,那磁头就能很快的开始这次 IO操作,这样的多个IO操作称为连续访问。

因此尽管相邻的两次IO操作在同一时刻发出,但如果它们的请求的扇区地址相差很大的话也只能称为随机访问,而非连续访问。

磁盘是通过机械运动进行寻址的,随机访问不需要过多的定位,故效率比较高。

MySQL 与磁盘交互基本单位

MySQL 作为一款应用软件,可以想象成一种特殊的文件系统。它有着更高的IO场景,所以,为了提高基本的IO效率, MySQL 进行IO的基本单位是 16KB (后面统一使用 InnoDB 存储引擎为例)

mysql> show global status like 'innodb_page_size';
+------------------+-------+
| Variable_name    | Value |
+------------------+-------+
| Innodb_page_size | 16384 | -- 16*1024=16384
+------------------+-------+
1 row in set (0.00 sec)

也就是说,磁盘这个硬件设备的基本单位是 512 字节,而 MySQL InnoDB引擎 使用 16KB 进行IO交互。即, MySQL 和磁盘进行数据交互的基本单位是 16KB 。这个基本数据单元,在 MySQL 这里叫做page(注意和系统的page区分)

建立共识

  • MySQL 中的数据文件,是以page为单位保存在磁盘当中的。
  • MySQLCURD 操作,都需要通过计算,找到对应的插入位置,或者找到对应要修改或者查询的数据。
  • 而只要涉及计算,就需要CPU参与,而为了便于CPU参与,一定要能够先将数据移动到内存当中。
  • 所以在特定时间内,数据一定是磁盘中有,内存中也有。后续操作完内存数据之后,以特定的刷新策略,刷新到磁盘。而这时,就涉及到磁盘和内存的数据交互,也就是IO了。而此时IO的基本单位就是Page。
  • 为了更好的进行上面的操作, MySQL 服务器在内存中运行的时候,在服务器内部,就申请了被称为 Buffer Pool 的的大内存空间,来进行各种缓存。其实就是很大的内存空间,来和磁盘数据进行IO交互。
  • 为何更高的效率,一定要尽可能的减少系统和磁盘IO的次数

⚠️ 写在最后:以上内容是我在学习以后得一些总结和概括,如有错误或者需要补充的地方欢迎各位大佬评论或者私信我交流!!!


http://www.ppmy.cn/news/1575516.html

相关文章

Web开发:ORM框架之使用Freesql的导航属性

一、什么时候用导航属性 看数据库表的对应关系&#xff0c;一对多的时候用比较好&#xff0c;不用多写一个联表实体&#xff0c;而且查询高效 二、为实体配置导航属性 1.给关系是一的父表实体加上&#xff1a; [FreeSql.DataAnnotations.Navigate(nameof(子表.子表关联字段))]…

《Somewhat Practical Fully Homomorphic Encryption》笔记 (BFV 源于这篇文章)

文章目录 一、摘要二、引言1、FHE 一般分为三个逻辑部分2、噪声的管理3. 贡献点4. 文章思路 三、基础数学知识四、基于 RLWE 的加密1. LWE 问题2. RLWE 问题3. RLWE 问题的难度和安全性 五、加密方案1. LPR.ES 加密方案2. Lemma 1 (引理 1)3. Optimisation/Assumption 1 (优化/…

JVM生产环境问题定位与解决实战(三):揭秘Java飞行记录器(JFR)的强大功能

提到飞行记录器&#xff0c;或许你的脑海中并未立刻浮现出清晰的画面&#xff0c;但一说起“黑匣子”&#xff0c;想必大多数人都能恍然大悟&#xff0c;知晓其重要性及用途。在航空领域&#xff0c;黑匣子作为不可或缺的设备&#xff0c;默默记录着飞行过程中的每一项关键数据…

一种数据高效具身操作的原子技能库构建方法

25年1月来自京东、中科大、深圳大学、海尔集团、地平线机器人和睿尔曼智能科技的论文“An Atomic Skill Library Construction Method for Data-Efficient Embodied Manipulation”。 具身操控是具身人工智能领域的一项基本能力。尽管目前的具身操控模型在特定场景下表现出一定…

本地搭建Koodo Reader书库结合内网穿透打造属于自己的移动图书馆

文章目录 前言1. Koodo Reader 功能特点1.1 开源免费1.2 支持众多格式1.3 多平台兼容1.4 多端数据备份同步1.5 多功能阅读体验1.6 界面简洁直观 2. Koodo Reader安装流程2.1 安装Git2.2 安装Node.js2.3 下载koodo reader 3. 安装Cpolar内网穿透3.1 配置公网地址3.2 配置固定公网…

Ollama使用笔记【更新ing】

0.引言 本篇以自己的学习轨迹为主&#xff0c;记录有关ollama的技术和理论问题。 1.Ollama是什么&#xff1f; 上图为ollama官方logo。Ollama 是一个专注于本地部署大型语言模型的工具&#xff0c;通过提供便捷的模型管理、丰富的预建模型库、跨平台支持以及灵活的自定义选项…

【Java】多线程和高并发编程(一):线程的基础概念

文章目录 一、线程的基础概念1、基础概念1.1 进程与线程1.2 多线程1.3 串行、并行、并发1.4 同步异步、阻塞非阻塞 2、线程的创建2.1 继承Thread类 重写run方法2.2 实现Runnable接口 重写run方法2.3 实现Callable 重写call方法&#xff0c;配合FutureTask2.4 基于线程池构建线程…

23种设计模式之《外观模式(Facade)》在c#中的应用及理解

程序设计中的主要设计模式通常分为三大类&#xff0c;共23种&#xff1a; 1. 创建型模式&#xff08;Creational Patterns&#xff09; 单例模式&#xff08;Singleton&#xff09;&#xff1a;确保一个类只有一个实例&#xff0c;并提供全局访问点。 工厂方法模式&#xff0…