MySQL的聚簇索引与非聚簇索引

devtools/2025/2/23 3:48:54/
前言

  首先我们要了解到,聚簇索引只能有一个,而非聚簇可以有多个。在本文中可以了解到,范围查询时聚簇索引的优势,以及非聚簇索引在频繁更新时的劣势。
  在MySQL中,主键索引通常就是聚簇索引,如果没有显式定义主键,InnoDB会选择一个唯一非空索引代替,如果都没有,会生成隐藏的ROWID作为聚簇索引。

  一个用户表,id是主键,作为聚簇索引,数据按id顺序存储。而如果有一个非聚簇索引在email字段上,索引存储的是email和对应的主键id,查询时需要回表操作,即通过email索引找到id,再通过id找到完整数据行。这样回表会影响性能,尤其是当需要大量数据时。
  这就要提到覆盖索引的概念,即如果非聚簇索引包含了查询所需的所有字段,就可以避免回表,提升性能。比如,如果查询只需要email和id,那么email索引已经包含这些信息,无需回表。
  另外,本文需要讨论不同存储引擎的情况。比如,MyISAM使用的是非聚簇索引,而InnoDB使用的是聚簇索引。这直接影响了选择存储引擎时的考量,比如MyISAM在查询时可能需要更多的磁盘I/O,而InnoDB在范围查询时更高效。

  还需要解释索引的结构,比如B+树,以及聚簇索引和非聚簇索引在B+树中的不同组织形式。聚簇索引的叶子节点直接存储数据行,而非聚簇索引的叶子节点存储的是主键值或指向数据行的指针。

  在实际的应用场景中,高并发写入的环境下,聚簇索引的顺序插入可能导致页分裂,影响性能,而非聚簇索引的更新可能更频繁,需要维护多个索引结构,增加写操作的开销。这时候可能需要权衡索引的数量和类型,以优化整体性能。

  在最后一章节中,本文会总结聚簇索引和非聚簇索引的优缺点,以及适用场景。比如,聚簇索引适合主键查询和范围查询,而非聚簇索引适合辅助查询,但需要注意回表带来的性能问题。以及给出相应的优化建议。

  MySQL中的索引是优化查询性能的关键工具,而聚簇索引(Clustered Index)和非聚簇索引(Non-Clustered Index)是两种核心索引类型。它们的实现原理和适用场景有显著差异,理解这些差异对数据库设计和性能优化至关重要。以下章节从存储结构、工作原理、优缺点及实际应用进行全面分析。

一、聚簇索引(Clustered Index)

1. 定义与特性
  • 存储方式:数据行的物理存储顺序与索引顺序完全一致。
  • 唯一性:每个表只能有一个聚簇索引(因为数据只能按一种方式物理排序)。
  • 默认行为:在InnoDB引擎中,主键(Primary Key)自动成为聚簇索引。若未定义主键,InnoDB会选择第一个唯一非空索引(UNIQUE NOT NULL)作为聚簇索引;若两者均无,则隐式生成一个6字节的ROWID作为聚簇索引。
2. 数据结构
  • B+树结构

    • 叶子节点:直接存储完整数据行(即数据页)。
    • 非叶子节点:存储索引键值和指向子节点的指针。
    B+树示意图(聚簇索引):
    根节点
    ├── 索引键值区间1 → 中间节点
    │    ├── 索引键值区间1.1 → 叶子节点(数据行)
    │    └── 索引键值区间1.2 → 叶子节点(数据行)
    └── 索引键值区间2 → 中间节点
    
3. 优点
  • 高效范围查询:相邻数据物理上连续存储,减少磁盘I/O。
  • 主键查询极快:直接通过主键定位到数据行。
  • 覆盖索引优化:若查询仅涉及索引列,无需回表。
4. 缺点
  • 插入速度依赖顺序:若主键非自增,随机插入可能导致页分裂(Page Split),影响性能。
  • 更新代价高:主键更新需移动数据行,导致额外开销。
5. 应用场景
  • 主键查询:如SELECT * FROM users WHERE id = 100
  • 范围查询:如SELECT * FROM orders WHERE date BETWEEN '2023-01-01' AND '2023-01-31'

二、非聚簇索引(Non-Clustered Index)

1. 定义与特性
  • 存储方式:索引结构与数据行物理存储分离。
  • 多索引支持:一个表可创建多个非聚簇索引。
  • InnoDB实现:非聚簇索引的叶子节点存储主键值,而非直接指向数据行(需要回表查询)。
2. 数据结构
  • B+树结构

    • 叶子节点:存储索引键值 + 主键值(InnoDB)或数据行指针(MyISAM)。
    • 非叶子节点:存储索引键值和指向子节点的指针。
    B+树示意图(非聚簇索引):
    根节点
    ├── 索引键值区间1 → 中间节点
    │    ├── 索引键值1.1 → 叶子节点(主键值)
    │    └── 索引键值1.2 → 叶子节点(主键值)
    └── 索引键值区间2 → 中间节点
    
3. 优点
  • 灵活索引设计:可针对不同查询需求创建多个辅助索引。
  • 减少写开销:更新非聚簇索引不影响数据行物理位置。
4. 缺点
  • 回表查询:通过非聚簇索引找到主键后,需二次查询聚簇索引获取完整数据,增加I/O。
  • 范围查询效率低:非连续存储需多次磁盘寻址。
5. 应用场景
  • 辅助查询:如通过email字段快速定位用户ID,再通过主键获取完整数据。
  • 覆盖索引优化:若索引包含查询所需所有字段,避免回表(如SELECT email FROM users WHERE email = 'user@example.com')。

三、聚簇索引 vs 非聚簇索引对比

特性聚簇索引非聚簇索引
索引数量每个表仅一个可创建多个
存储内容数据行与索引一体索引键值 + 主键(InnoDB)或指针(MyISAM)
查询性能主键/范围查询快,避免回表需回表,覆盖索引时高效
插入性能主键顺序插入快,随机插入可能页分裂无数据移动,插入较快
更新代价主键更新代价高仅更新索引结构,代价较低
适用场景主键查询、范围扫描辅助查询、覆盖索引

四、存储引擎差异

1. InnoDB
  • 聚簇索引:主键索引为聚簇索引,数据按主键顺序存储。
  • 非聚簇索引:叶子节点存储主键值,需回表查询。
2. MyISAM
  • 无聚簇索引:所有索引均为非聚簇索引。
  • 数据存储:数据行独立存储(.MYD文件),索引存储指向数据行的指针(.MYI文件)。

五、实战优化建议

  1. 合理设计主键

    • 使用自增整数(AUTO_INCREMENT)减少页分裂。
    • 避免使用频繁更新的字段作为主键。
  2. 覆盖索引优化

    • 将查询字段包含在索引中,避免回表。
    -- 创建覆盖索引
    CREATE INDEX idx_user_email ON users(email, name);
    -- 查询仅需索引即可完成
    SELECT email, name FROM users WHERE email = 'user@example.com';
    
  3. 控制索引数量

    • 非聚簇索引过多会增加写操作开销,需权衡读写比例。
  4. 范围查询优先聚簇索引

    • 若查询条件涉及范围,尽量使用聚簇索引字段。

六、示例分析

场景:用户表查询
  • 表结构

    CREATE TABLE users (id INT PRIMARY KEY AUTO_INCREMENT,  -- 聚簇索引email VARCHAR(100) UNIQUE,          -- 非聚簇索引(UNIQUE约束)name VARCHAR(100),INDEX idx_name (name)               -- 非聚簇索引
    ) ENGINE=InnoDB;
    
  • 查询1SELECT * FROM users WHERE id = 100;

    • 路径:直接通过聚簇索引找到数据行,无需回表,效率高。
  • 查询2SELECT * FROM users WHERE email = 'user@example.com';

    • 路径:通过email索引找到主键id,再通过聚簇索引回表查询,效率较低。
  • 查询3SELECT name FROM users WHERE name LIKE 'John%';

    • 路径:若idx_name包含name字段,直接通过索引返回结果,避免回表。

七、总结

  • 聚簇索引:数据与索引一体,适合主键和范围查询,但需注意插入顺序。
  • 非聚簇索引:独立存储,适合辅助查询和覆盖索引,但可能需回表。
  • 优化核心:根据查询模式设计索引,减少回表操作,平衡读写性能。

http://www.ppmy.cn/devtools/160255.html

相关文章

VSCode 实用快捷键

前文 VSCode 作为文本编辑神器, 熟练使用其快捷键更是效率翻倍, 本文介绍 VSCode 常用的实用的快捷键 实用快捷键 涉及到文本操作, 搜索定位, 多光标, 面板打开等快捷键 功能快捷键复制光标当前行 (不需要鼠标选中) Ctrl C 剪切光标当前行 (不需要鼠标选中) Ctrl X 当前行下…

mysql 使用 CONCAT、GROUP_CONCAT 嵌套查询出 json 格式数据

tb_factory表由 factory_code 和 factory_name 字段,查询出如下所示效果: {"factory_0001": "工厂1","factory_0002": "工厂2",... } select sql: SELECT CONCAT( "{",GROUP_CONCAT( C…

Android-构建问题记录

文章目录 报错 No signature of method: build_4tl7r8s6qna6qev75ywim0904.android() is applicable for argument types: (build_4tl7r8s6qna6qev75ywim0904 r u n c l o s u r e 2 ) v a l u e s : [ b u i l d 4 t l 7 r 8 s 6 q n a 6 q e v 75 y w i m 0904 _run_closure2…

4、IP查找工具-Angry IP Scanner

在前序文章中,提到了多种IP查找方法,可能回存在不同场景需要使用不同的查找命令,有些不容易记忆,本文将介绍一个比较优秀的IP查找工具,可以应用在连接树莓派或查找IP的其他场景中。供大家参考。 Angry IP Scanner下载…

无人设备遥控器之视频回传篇

无人设备遥控器的视频回传是指将无人设备(如无人机)采集到的视频信号传输回遥控器或其他接收设备的过程。这一过程在诸多应急情境中显得尤为重要,它能为指挥中心的决策者、调度系统以及AI分析等提供实时画面。 一、主流回传方式 目前&#x…

利用Java爬虫精准获取商品SKU详细信息:实战案例指南

在电商领域,SKU(Stock Keeping Unit,库存单位)详细信息是电商运营的核心数据之一。它不仅包含了商品的规格、价格、库存等关键信息,还直接影响到库存管理、价格策略和市场分析等多个方面。本文将详细介绍如何利用Java爬…

基于机器学习的医疗图像分析:从图像识别到精准诊断

友友们好! 我的新专栏《Python进阶》正式启动啦!这是一个专为那些渴望提升Python技能的朋友们量身打造的专栏,无论你是已经有一定基础的开发者,还是希望深入挖掘Python潜力的爱好者,这里都将是你不可错过的宝藏。 在这个专栏中,你将会找到: ● 深入解析:每一篇文章都将…

ios苹果手机使用AScript应用程序实现UI自动化操作,非常简单的一种方式

现在要想实现ios的ui自动化还是非常简单的,只需要安装AScript这个自动化工具就可以了,而且安卓,iso还有windows都支持,非常好用。 在ios端安装之后,需要使用mac电脑或者windows电脑激活一下 使用Windows电脑激活​ 激…