MySQL中 in 和 exists 区别

2022-09-22 10:26:12

欢迎大家关注我的公众号【老周聊架构】，Java后端主流技术栈的原理、源码分析、架构以及各种互联网高并发、高性能、高可用的解决方案。

一、提前准备

为了大家学习方便，我在这里面建立两张表并为其添加一些数据。

一张水果表，一张供应商表。

水果表 fruits表

供应商表 suppliers表

我们将用这两张表做演示。

exists关键字后面的参数是一个任意的子查询，系统对子查询进行运算以判断它是否返回行，如果至少返回一行，那么exists的结果为true ,此时外层的查询语句将进行查询；如果子查询没有返回任何行，那么exists的结果为false,此时外层语句将不进行查询。

需要注意的是，当我们的子查询为SELECT NULL 时，MYSQL仍然认为它是True。

在这里插入图片描述

in 关键字进行子查询时，内层查询语句仅仅返回一个数据列，这个数据列的值将提供给外层查询语句进行比较操作。

为了测试in 关键字，我在水果表中加了s_id一列

水果表 fruits表

f_id	f_name	f_price	s_id
a1	apple	5	101
a2	appricot	2	103
b1	blackberry	10	102
b2	berry	8	104
c1	cocount	9	103

在这里插入图片描述

in和exists到底有啥区别那，要什么时候用in，什么时候用exists？

我们先记住口诀再说细节！“外层查询表小于子查询表，则用exists，外层查询表大于子查询表，则用in，如果外层和子查询表差不多，则爱用哪个用哪个。”

我想你已经看出来了，当fruits表数据很大的时候不适合用in，因为它最多会将fruits表数据全部遍历一次。

如：suppliers表有10000条记录,fruits表有1000000条记录,那么最多有可能遍历10000*1000000次,效率很差。

再如：suppliers表有10000条记录,fruits表有100条记录,那么最多有可能遍历10000*100次,遍历次数大大减少,效率大大提升。

但是：suppliers表有10000条记录,fruits表有100条记录,那么exists()还是执行10000次,还不如使用in()遍历10000*100次,因为in()是在内存里遍历,而exists()需要查询数据库,我们都知道查询数据库所消耗的性能更高,而内存比较很快。

因此我们只需要记住口诀：“外层查询表小于子查询表，则用exists，外层查询表大于子查询表，则用in，如果外层和子查询表差不多，则爱用哪个用哪个。”

在这里插入图片描述

和exists一样，用到了suppliers上的id索引，exists()执行次数为fruits.length，不缓存exists()的结果集。

在这里插入图片描述

因为not in实质上等于!= and != ···，因为!=不会使用索引，故not in不会使用索引。

为啥not in不会使用索引？

我们假设有100万数据，s_id只有0和1两个值，利用索引我们要先读索引文件，然后二分查找，找到对应的数据磁盘指针，再根据读到的指针在磁盘上对应的数据，影响结果集50万，这种情况，和直接全表扫描哪个快显而易见。

如果你s_id字段是一个unique，就会用到索引。

如果你一定要用索引，可以用force index，不过效率不会有改善一般还会更慢就是了。

合理使用索引，Cardinality是一个重要指标，太小的话跟没建没区别，还浪费空间。

因此，不管suppliers和fruits大小如何，均使用not exists效率会更高。