一、引言
在SQL开发中,获取两表交集数据是常见的需求,而实现这一目标的主要方法有三种:JOIN、IN 和 EXISTS。虽然它们都能完成任务,但语法、性能和应用场景却各有不同。
我们将通过对比分析这三种方法的区别与优缺点,并结合实际案例,帮助您选择最合适的方案来高效解决两表交集数据的查询问题。
二、案例
给出如下两张表 t1、t2,请求出两表交集
sql">with t1 as (select *from (values (1), (2), (3)) as t (num)), t2 as (select *from (values (3), (4), (5)) as t (num))
2.1 JOIN
JOIN 是一种用于关联两个或多个表的关键字。它根据指定的条件(通常基于主键和外键)将数据合并到一起。
sql">with t1 as (select *from (values (1), (2), (3)) as t (num)), t2 as (select *from (values (3), (4), (5)) as t (num))
select t1.*
from t1
join t2
on t1.num = t2.num;
2.2 IN
IN 是一种用于在 WHERE 子句中筛选满足多个条件之一的操作符。它常与子查询结合使用,以获取交集数据。
sql">with t1 as (select *from (values (1), (2), (3)) as t (num)), t2 as (select *from (values (3), (4), (5)) as t (num))
select *
from t1
where num in (select num from t2)
;
2.3 EXISTS
EXISTS 是一种用于检查子查询是否返回任何结果的谓词(Predicate)。如果子查询有结果,则 EXISTS 返回 TRUE;否则返回 FALSE。
sql">with tbl1 as (select *from (values (1), (2), (3)) as t (num)), tbl2 as (select *from (values (3), (4), (5)) as t (num))select *
from tbl1 t1
where exists (select 1from tbl2 t2where t1.num = t2.num
);
上述三种方式得到的最终结果都是一样的:只有 3 。
2.4 对比
2.4.1 JOIN
- JOIN 主要用于合并来自不同表的数据。
- 适合2及以上个数的数据表进行关联。
- 结果集中包含来自所有相关联的表的数据。
2.4.2 IN
- 对于简单的子查询,IN 非常直观易懂。
- 如果子查询返回大量数据,可能会导致性能问题。
- 通常只适用于等值比较,对于复杂的条件处理能力有限。
2.4.3 EXISTS
- 在大多数情况下比 IN 更高效,尤其是在子查询返回大量数据时,因为一旦找到匹配项,EXISTS 就会立即停止搜索
- 可以结合其他条件进行更复杂的逻辑判断。
- 只返回主查询表中的数据。
三、总结
特性/方法 | JOIN | IN | EXISTS |
---|---|---|---|
适用场景 | 多表关联查询,需要合并数据 | 简单的存在性检查,子查询结果集不大 | 存在性检查,尤其适合大数据集 |
性能 | 中等,取决于连接条件和索引 | 差,特别是在子查询结果集较大时 | 好,尤其是大数据集时 |
语法复杂度 | 中等 | 简单 | 中等 |
灵活性 | 高,支持多种连接类型 | 低,主要用于等值比较 | 高,支持复杂条件 |