【MySQL精通之路】SQL优化(1)-查询优化(8)-嵌套联接优化

devtools/2024/9/23 5:53:18/

主博客:

【MySQL精通之路】SQL优化(1)-查询优化-CSDN博客

上一篇:

【MySQL精通之路】SQL优化(1)-查询优化(7)-嵌套循环联接-CSDN博客

下一篇:

【MySQL精通之路】SQL优化(1)-查询优化(9)-外部联接优化-CSDN博客


与SQL标准相比,table_factor的语法得到了扩展。后者只接受table_reference,而不接受一对括号内的结果。如果我们将table_reference项列表中的每个逗号视为等效于内部联接,那么这是一个保守的扩展。

例如:

sql">SELECT * FROM t1 LEFT JOIN (t2, t3, t4)ON (t2.a=t1.a AND t3.b=t1.b AND t4.c=t1.c)

相当于:

sql">SELECT * FROM t1 LEFT JOIN (t2 CROSS JOIN t3 CROSS JOIN t4)ON (t2.a=t1.a AND t3.b=t1.b AND t4.c=t1.c)

在MySQL中,CROSS JOIN在语法上等同于INNER JOIN;它们可以相互替换。

在标准SQL中,它们是不等价的。INNER JOINON子句一起使用;否则使用CROSS JOIN

通常,在只包含内部联接操作的联接表达式中,可以忽略圆括号。

例如下面联接表达式:

sql">t1 LEFT JOIN (t2 LEFT JOIN t3 ON t2.b=t3.b OR t2.b IS NULL)ON t1.a=t2.a

删除括号并向左分组操作后,该联接表达式将转换为以下表达式:

sql">(t1 LEFT JOIN t2 ON t1.a=t2.a) LEFT JOIN t3ON t2.b=t3.b OR t2.b IS NULL

然而,这两种表述并不等同。

为此,假设表t1、t2和t3具有以下状态:

Table t1 contains rows (1), (2)

Table t2 contains row (1,101)

Table t3 contains row (101)

在这种情况下,第一个表达式返回包括行(1,1,101,101), (2,NULL,NULL,NULL),的结果集,而第二个表达式返回行(1,1,101,101), (2,NULL,NULL,101)

sql">sql>mysql> SELECT *FROM t1LEFT JOIN(t2 LEFT JOIN t3 ON t2.b=t3.b OR t2.b IS NULL)ON t1.a=t2.a;
+------+------+------+------+
| a    | a    | b    | b    |
+------+------+------+------+
|    1 |    1 |  101 |  101 |
|    2 | NULL | NULL | NULL |
+------+------+------+------+sql>mysql> SELECT *FROM (t1 LEFT JOIN t2 ON t1.a=t2.a)LEFT JOIN t3ON t2.b=t3.b OR t2.b IS NULL;
+------+------+------+------+
| a    | a    | b    | b    |
+------+------+------+------+
|    1 |    1 |  101 |  101 |
|    2 | NULL | NULL |  101 |
+------+------+------+------+

在以下示例中,外联操作与内联操作一起使用:

sql">t1 LEFT JOIN (t2, t3) ON t1.a=t2.a

 该表达式无法转换为以下表达式:

sql">t1 LEFT JOIN t2 ON t1.a=t2.a, t3

 对于给定的表状态,这两个表达式返回不同的行集:

sql">sql>mysql> SELECT *FROM t1 LEFT JOIN (t2, t3) ON t1.a=t2.a;
+------+------+------+------+
| a    | a    | b    | b    |
+------+------+------+------+
|    1 |    1 |  101 |  101 |
|    2 | NULL | NULL | NULL |
+------+------+------+------+sql>mysql> SELECT *FROM t1 LEFT JOIN t2 ON t1.a=t2.a, t3;
+------+------+------+------+
| a    | a    | b    | b    |
+------+------+------+------+
|    1 |    1 |  101 |  101 |
|    2 | NULL | NULL |  101 |
+------+------+------+------+

因此,如果我们在带有外联运算符的联接表达式中省略括号,我们可能会更改原始表达式的结果集。

        更确切地说,我们不能忽略左外部联接运算的右操作数和右联接运算的左操作数中的括号。换句话说,对于外部联接操作的内部表表达式,我们不能忽略括号。可以忽略其他操作数(外部表的操作数)的括号。

以下表达式:

sql">(t1,t2) LEFT JOIN t3 ON P(t2.b,t3.b)

 对于任何表t1、t2、t3和属性t2.b和t3.b上的任何条件P,等价于该表达式:

sql">t1, t2 LEFT JOIN t3 ON P(t2.b,t3.b)

每当联接表达式(joined_table)中联接操作的执行顺序不是从左到右时,我们就讨论嵌套联接。请考虑以下查询:

sql">SELECT * FROM t1 LEFT JOIN (t2 LEFT JOIN t3 ON t2.b=t3.b) ON t1.a=t2.aWHERE t1.a > 1SELECT * FROM t1 LEFT JOIN (t2, t3) ON t1.a=t2.aWHERE (t2.b=t3.b OR t2.b IS NULL) AND t1.a > 1

 这些查询被认为包含这些嵌套联接:

sql">t2 LEFT JOIN t3 ON t2.b=t3.b
t2, t3

第一个查询中,嵌套联接是通过左联接操作形成的。

第二个查询中,它是用内部联接操作形成的。

第一个查询,括号可以省略:联接表达式的语法结构规定了联接操作的相同执行顺序。

第二个查询,不能省略括号,尽管这里的联接表达式在没有括号的情况下可以被明确地解释。

在我们的扩展语法中,第二个查询的(t2,t3)中的括号是必需的,尽管理论上可以在没有括号的情况下解析查询:我们仍然会有明确的查询语法结构,因为LEFT JOIN ON扮演着表达式(t2,t3)的左右分隔符的角色。

前面的例子说明了以下几点:

对于只涉及内部联接(而不涉及外部联接)的联接表达式,可以删除圆括号,并从左到右计算联接。事实上,表可以按任何顺序进行评估

博主ps,你可以理解为内联接查询(求交集的过程),就是先把所有表都先求交集拼接起来,先拼谁都差不多

通常,对于外部联接或与内部联接混合的外部联接,情况并非如此。删除括号可能会改变结果。

具有嵌套外部联接的查询以与具有内部联接的查询相同的管道方式执行。

更确切地说,利用了嵌套循环连接算法的变体。调用嵌套循环联接执行查询的算法

(请参阅“嵌套循环联接算法”)。

假设对3个表T1、T2、T3的联接查询具有以下形式:

sql">SELECT * FROM T1 INNER JOIN T2 ON P1(T1,T2)INNER JOIN T3 ON P2(T2,T3)WHERE P(T1,T2,T3)

这里,P1(T1,T2)P2(T3,T3)是一些连接条件(关于表达式),而P(T1,T2,T3)是表T1、T2、T3的列上的条件。

嵌套循环联接算法将以以下方式执行此查询:

sql">FOR each row t1 in T1 {FOR each row t2 in T2 such that P1(t1,t2) {FOR each row t3 in T3 such that P2(t2,t3) {IF P(t1,t2,t3) {t:=t1||t2||t3; OUTPUT t;}}}
}

 符号t1 || t2 || t3 表示通过串联行t1、t2和t3的列而构造的行。

在下面的一些示例中,NULL表示该表的每一列的行。

例如

t1 || t2 || NULL表示通过串联行t1和t2的列而构造的行,并且对于t3的每一列设为NULL。

这样的行被称为NULL补码

现在考虑一个具有嵌套外部联接的查询:

sql">SELECT * FROM T1 LEFT JOIN(T2 LEFT JOIN T3 ON P2(T2,T3))ON P1(T1,T2)
WHERE P(T1,T2,T3)

 对于此查询,请修改嵌套循环模式以获得:

sql">FOR each row t1 in T1 {BOOL f1:=FALSE;FOR each row t2 in T2 such that P1(t1,t2) {BOOL f2:=FALSE;FOR each row t3 in T3 such that P2(t2,t3) {IF P(t1,t2,t3) {t:=t1||t2||t3; OUTPUT t;}f2=TRUE;f1=TRUE;}IF (!f2) {IF P(t1,t2,NULL) {t:=t1||t2||NULL; OUTPUT t;}f1=TRUE;}}IF (!f1) {IF P(t1,NULL,NULL) {t:=t1||NULL||NULL; OUTPUT t;}}
}

通常,对于外部联接操作中第一个内部表的任何嵌套循环,都会引入一个标志,该标志在循环之前为false,在循环之后检查状态。

当外部表中的当前行与表示内部操作的表匹配时,该标志为true。

如果在循环周期结束时,标志仍然为false,则未找到外部表的当前行的匹配项。在这种情况下,该行由内部表的列的NULL值补充。

结果行 被传递给输出下一个嵌套循环,但前提是该行满足所有外部联接的联接条件。

在该示例中,嵌入了由以下表达式表示的外部联接表:

sql">(T2 LEFT JOIN T3 ON P2(T2,T3))

对于具有内部联接的查询,优化器可以选择不同顺序的嵌套循环,例如以下循环:

sql">FOR each row t3 in T3 {FOR each row t2 in T2 such that P2(t2,t3) {FOR each row t1 in T1 such that P1(t1,t2) {IF P(t1,t2,t3) {t:=t1||t2||t3; OUTPUT t;}}}
}

对于具有外部联接的查询,优化器只能选择这样一种顺序,即外部表的循环先于内部表的循环。因此,对于具有外部联接的查询,只有一个嵌套顺序是可能的。

对于下面的查询,优化器评估两个不同的嵌套

在两个嵌套中,T1都必须在外循环中处理,因为它用于外联接。

T2和T3用于内部联接,因此联接必须在内部循环中处理。

然而,由于连接是内部连接,T2和T3可以按任意顺序进行处理。

sql">SELECT * T1 LEFT JOIN (T2,T3) ON P1(T1,T2) AND P2(T1,T3)WHERE P(T1,T2,T3)

一个嵌套计算T2,然后计算T3:

sql">FOR each row t1 in T1 {BOOL f1:=FALSE;FOR each row t2 in T2 such that P1(t1,t2) {FOR each row t3 in T3 such that P2(t1,t3) {IF P(t1,t2,t3) {t:=t1||t2||t3; OUTPUT t;}f1:=TRUE}}IF (!f1) {IF P(t1,NULL,NULL) {t:=t1||NULL||NULL; OUTPUT t;}}
}

另一个嵌套计算T3,然后计算T2:

sql">FOR each row t1 in T1 {BOOL f1:=FALSE;FOR each row t3 in T3 such that P2(t1,t3) {FOR each row t2 in T2 such that P1(t1,t2) {IF P(t1,t2,t3) {t:=t1||t2||t3; OUTPUT t;}f1:=TRUE}}IF (!f1) {IF P(t1,NULL,NULL) {t:=t1||NULL||NULL; OUTPUT t;}}
}

在讨论内联接的嵌套循环算法时,我们省略了一些细节,这些细节可能会对查询执行的性能产生巨大影响。我们没有提到所谓的“下推”条件。假设我们的WHERE条件P(T1,T2,T3)可以用一个连接公式表示:

sql">P(T1,T2,T2) = C1(T1) AND C2(T2) AND C3(T3).

在这种情况下,MySQL实际上使用以下嵌套循环算法来执行具有内部联接的查询:

sql">FOR each row t1 in T1 such that C1(t1) {FOR each row t2 in T2 such that P1(t1,t2) AND C2(t2)  {FOR each row t3 in T3 such that P2(t2,t3) AND C3(t3) {IF P(t1,t2,t3) {t:=t1||t2||t3; OUTPUT t;}}}
}

你可以看到,连接词C1(T1)、C2(T2)、C3(T3)中的每一个都被从最内部的循环推到最外部的循环,在那里它可以被评估。如果C1(T1)是一个非常严格的条件,则此条件下推可以大大减少从表T1传递到内部循环的行数。因此,查询的执行时间可能会大大提高。

博主PS:

这里意思是如果可以减少外层for循环的查询次数,将大大减少内层for循环的循环次数。这就是条件下推的意思。也就是将内层for循环的匹配条件推到外层判断。这样如果不匹配的话,之间终结外层循环。

对于具有外部联接的查询,只有在发现外部表中的当前行在内部表中匹配后,才检查WHERE条件。

因此,将判断条件推出内部嵌套循环的优化不能直接应用于具有外部联接的查询。

在这里,我们必须介绍 条件下推在标志打开时有保留的断言 。

回想一下这个带有外部联接的示例:

sql">P(T1,T2,T3)=C1(T1) AND C(T2) AND C3(T3)

 例如,使用受限的下推条件嵌套循环算法如下所示:

sql">FOR each row t1 in T1 such that C1(t1) {BOOL f1:=FALSE;FOR each row t2 in T2such that P1(t1,t2) AND (f1?C2(t2):TRUE) {BOOL f2:=FALSE;FOR each row t3 in T3such that P2(t2,t3) AND (f1&&f2?C3(t3):TRUE) {IF (f1&&f2?TRUE:(C2(t2) AND C3(t3))) {t:=t1||t2||t3; OUTPUT t;}f2=TRUE;f1=TRUE;}IF (!f2) {IF (f1?TRUE:C2(t2) && P(t1,t2,NULL)) {t:=t1||t2||NULL; OUTPUT t;}f1=TRUE;}}IF (!f1 && P(t1,NULL,NULL)) {t:=t1||NULL||NULL; OUTPUT t;}
}

        通常,可以从诸如P1(T1,T2)P(T2,T3)的联接条件中提取下推。

在这种情况下,下推断言由一个标志保护,该标志防止检查断言时由相应的外部联接操作生成的NULL补码行

        通过键从一个内部表访问同一嵌套联接中的另一个表是被禁止的,如果它是由WHERE条件中的谓词引发的


http://www.ppmy.cn/devtools/42387.html

相关文章

CAD2023 2024 2025以上版本出现无法运行 AutoCAD,原因可能如下1) 此版本的 AutoCAD 安装不正确

错误提示如下 此版本的 AutoCAD 安装不正确 缺少依赖组件Microsoft Edge webview2 Runtime 缺少依赖组件 Microsoft.NET跟You must install .NET Desktop Runtime 打开autoremove,点击扩展,输入 无法运行,点击搜索 你的软件属于什么版本…

线程的概念和控制

文章目录 线程概念线程的优点线程的缺点线程异常线程用途理解虚拟地址 线程控制线程的创建线程终止线程等待线程分离封装线程库 线程概念 什么是线程? 在一个程序里的一个执行路线就叫做线程(thread)。更准确的定义是:线程是“一…

使用Python生成一束玫瑰花

520到了,没时间买花?我们来生成一个电子的。 Python不仅是一种强大的编程语言,用于开发应用程序和分析数据,它也可以用来创造美丽的艺术作品。在这篇博客中,我们将探索如何使用Python生成一束玫瑰花的图像。 准备工作…

Java基础(三)- 多线程、网络通信、单元测试、反射、注解、动态代理

多线程基础 线程:一个程序内部的一条执行流程,只有一条执行流程就是单线程 java.lang.Thread代表线程 主线程退出,子线程存在,进程不会退出 可以使用jconsole查看 创建线程 有多个方法可以创建线程 继承Thread类 优点&#x…

【Linux线程(四)】死锁线程池

目录 前言 一、死锁 1.死锁概念 2.死锁必要条件 3.死锁解决方法 4.无锁化编程 二、线程池 1.线程池概念 2.线程池实现 3.线程池的应用场景 4.线程池优缺点 优点: 缺点: 三、单例模式 1.单例模式概念 2.懒汉式 3.饿汉式 前言 在之前的学…

数据访问层设计_6.连接对象管理设计

1.数据库连接管理 在基于JDBC的数据库应用开发中,数据库连接的管理是一个难点,因为它是决定该应用性能的一个重要因素。 对于共享资源,有一个很著名的设计模式——资源池。该模式正是为了解决资源频繁分配、释放所造成的问题。把该模式应用到…

ollama导入自己微调后的模型胡言乱语

1.ollama导入自己微调后的模型胡言乱语 原因:Modelfile的模板格式不对,对的如下所示 ##格式0FROM tinyllama-my-model.gguf### Set the system message SYSTEM """ You are a super helpful helper. """PARAMETER stop …

【C++初阶】--- C++入门(上)

目录 一、C的背景及简要介绍1.1 什么是C1.2 C发展史1.3 C的重要性 二、C关键字三、命名空间2.1 命名空间定义2.2 命名空间使用 四、C输入 & 输出 一、C的背景及简要介绍 1.1 什么是C C语言是结构化和模块化的语言,适合处理较小规模的程序。对于复杂的问题&…