听说mysql中的join很慢?是你用的姿势不对吧

来自：网络

时间：2022-12-27

阅读：

join 是进行两个或多个数据表进行关联查询的过程中，经常使用的一种查询手段。提到join，你一定会想到"笛卡尔积",当数据量很大的时候，"笛卡尔积"运算量会成倍的增加，在我们的印象中，join是一种运算效率不高的查询语句。

除了定性的判断join慢之外，你能定量的判断join的执行效率吗？

经过下面对join执行效率定量分析后，可能你会改变对join的认识，不在想当然的认为join就一定很慢了。

驱动表与被驱动表

进行join操作的两个表，分别称为驱动表和被驱动表，到底哪个是驱动表，哪个是被驱动表是不确定的，这个是mysql优化器来决定，和sql语句中两个表的位置没有关系。

如果我们想要强制指定两个表的对应关系，可以将sql中的join替换成 straight_join，替换后，在straight_join前的表称为驱动表，在straight_join后的表，称为被驱动表。

驱动表和被驱动表有什么差异

在join语句执行的过程中，驱动表和被驱动表所执行的操作是不同的。同是驱动表或被驱动表，在不同的join类型中，所执行操作也是不同的。

下面我们分析一下，不同join类型下，驱动表和被驱动表所做的操作的具体内容。

为了方便下面问题的讨论，我们建立如下的表结构:

create table 'table1' (
'id' int(11) NOT NULL,
'a' int(11) DEFAULT NULL,
'b' int(11) DEFAULT NULL,
PRIMARY KEY ('id'),
KEY 'a' ('a')
) engine = Innodb;
 
insert into table1 values(1,1,1)
insert into table1 values(2,2,2)
...
insert into table1 values(1000,1000,1000) // 也可以使用存储过程来实现大批量数据的插入
 
create table table2 like table1;
insert into t2 (select * from t2 where id <= 100)

建立表结构完全相同的两个表table1和table2，共有三个字段：id为主键字段，索引字段a和普通字段b。向table1中插入了1000行自增的数据，将table1中的前100行数据插入到table2中。

基于索引的join

如果在join过程中，使用到了索引，这种join又被称为 Index Nested-Loop Join(NLJ)。

如下面这个语句：

select * from table2  straight_join table1 on table2.a = table1.a;

为了便于明确驱动表和被驱动表，我们使用 straight_join 代替 join，这样就可以明确 table2 为驱动表，table1为被驱动表。

因为在被驱动表 table1上有索引a字段，在join的时候，会使用到这个索引，具体可以通过查看上面sql的执行计划：

explain select * from table2  straight_join table1 on table2.a = table1.a;

执行计划图：

该条语句的执行过程如下：

1.从table2中，读入一行R。

2.从该数据行R中取出字段a，到table1中去查找满足a=$R.a的数据行，因为在table1表中，字段a上有索引，所以这个查询效率很高。

3.将从2中查询返回的结果和R，构成结果集中一行。

4.重复步骤1到3，直到遍历完table2中的所有数据行。

这个过程遍历 table2中的所有数据行，取出每一行中的a值，然后去table1中查找满足条件的数据行，将table1中满足条件的数据和table2中遍历到的数据，组合成结果集中的数据。

在整个过程中：

驱动表table2所做的操作：被逐行遍历，也就是进行全表扫描，该过程要扫描100行数据。

被驱动表table1所做的操作：基于索引字段进行数据查询，因为table1中，没有a值相同的两行数据，所以每次搜索过程只会扫描一行数据。因为table2中有100行数，所以在table1中要执行100次搜索过程，也就是在table1中，也要扫描100行数据。

所以这个join语句整个执行下来要扫描200行数。

如果让 table1作为驱动表，table2作为被驱动表的话，执行语句如下：

select * from table1  straight_join table2 on table2.a = table1.a;

和前者有和区别呢？

根据上面的分析，驱动表需要进行全表扫描，被驱动表基于索引字段进行数据搜索。

table1作为驱动表时，sql语句执行计划如下图：

当 table1作为驱动表，table2作为被驱动表时：

驱动表table1需要被扫描 1000行。被驱动表table2需要进行 1000次搜索，但是最终只能成功搜索到100行数据。总的所有数据行数1100行。

这样对比下来，table2作为驱动表，table1作为被驱动表执行的效率，要比table1作为驱动表，table2作为被驱动表的执行效率要高一些。

join查询中如何选择驱动表

除了分析扫描行数，我们可以对NLJ执行过程中，总的时间复杂度计算一下，看一下哪个因素对join查询效率影响比较大，进而来对我们选择驱动表提供参考。

我们假设驱动表中的数据行数是N，被驱动表中的数据行数为M，因为在被驱动表中查询一行数据，要先搜索普通索引a，然后再回表到主键索引，才能获取完整的一行数据。

表中数据行数为M，通过主键索引树和普通索引树查找一行数据的时间复杂度都是log2M，所以查找一行数据的时间复杂度为2*log2M。驱动表中有N行数，因此驱动表要扫描N行，驱动表中的每行数据都要到被驱动表中进行一次搜索。所以当驱动表数据行数为N，被驱动表数据行数为M的情况下，一次基于索引的join查询的近似时间复杂度为 O = N + N*2*log2M。

整个join语句的时间复杂度，与驱动表中行数的关系为： O = (1+2*log2M)*N ，是线性关系。和被驱动表中行数的关系为：O = N*2*log2M +N 是对数函数关系。

基于数学知识，我们知道 "驱动表中行数"对整个sql执行时间复杂度的影响要比"被驱动表中行数" 影响要大。因此在基于索引的join(NLJ)中，我们应该尽量使用数据量小的表作为驱动表。这样可以减少扫描的行数，以及整体的时间复杂度。

不使用join，执行效率是否会更高

如果不使用join的情况下，要想实现下图类似功能，

select * from table2  join table1 on table2.a = table1.a;

我们需要把 table2中的数据全部取出来，

select * from table2; // 扫描100行数据

共100行数据，然后循环遍历这100行数据，取出每行数据中的a值$R.a，去执行

select * from table1 where a = $R.a // 扫描1行数据

把该条语句返回的结果和R拼接在一起，构成结果集中的一行数据。

这种不使用join的方式，也会扫描200行数据，只不过要执行的sql语句会有101条，而使用join语句的情况下，却只有1条。相比使用join，不使用join，会增加100次与mysql的交互过程，整体的执行效率相比使用join反而更低。

由此可见，在被驱动表上可以使用到索引的情况下，join操作的效率还是比较高的。读到这里，你是否会改变对join的认识呢？还会想当然的认为join执行效率很低吗？

可能你会问，如果join的过程中，被驱动表上没有索引呢？的确，当被驱动表上没有索引的情况下，join的执行效率会变慢很多，显然，"join执行的效率低"这个认知，不是空穴来风，但是变慢的原因是什么呢？感兴趣的老铁可以看一下，本篇文章。

以上为个人经验，希望能给大家一个参考，也希望大家多多支持。

SQL Server:SELECT TOP 10 * FROM T_USER ORDER BY NEWID()ORACLE:SELECT * FROM (SELECT * FROM T_USER ORDER BY DBMS_RANDOM.RANDOM()) WHERE RONUM <= 10MySQL:SELECT *

2024-10-21 20:47:50

一、limit用法在我们使用查询语句的时候，经常要返回前几条或者中间某几行数据，这个时候怎么办呢？不用担心，mysql已经为我们提供了这样一个功能。SELECT * FROM table LIMIT [off

2024-10-21 20:44:48

目录问题原因解决办法如何设置和查看使用Navicat Premium 12导入mysql的sql文件时，导入失败，出现如下错误：2006 - MySQL server has gone away。mysql出现ERROR : (2006, &

2024-10-21 20:43:22

今天早上启动了 phpstudy 软件中的 MySQL 8.0 数据库时，发现它启动后约过了 3 秒就自行关闭了。接着又自动启动然后再次关闭，似乎陷入了一个“开-闭-开”的循环。这导致我无

2024-10-18 23:15:41

目录

1. 每秒交易量

2. 每分钟交易量

3. 每5分钟交易量

4. 每10分钟交易量

5. 每30分钟交易量

结合 WHERE

2024-10-18 23:15:27

目录 Redis是什么？ Redis的特点依赖配置 redis的配置类（用于格式转换，处理乱码） String（字符串）特点业务场景代码使用案例 List（列表）特点业务场景代码使用案例 S

2024-10-18 23:15:18

目录 Oracle中BLOB、CLOB的读取和写入基于SQL的方式实现CLOB、BLOB的插入与读取 1. 插入大类型数据 2. 读取大类型数据并转换为字符串基于Java方式实现CLOB和B

2024-10-18 23:15:09

目录 dbeaver导出mysql数据库右键表-tools-Dump database 按默认设置总结 dbeaver导出mysql数据库右键表-tools-Dump database按默认设置只需修改输出文件夹我这里把

2024-10-18 23:15:01

目录 DBeaver如何导入excel中的大量数据步骤一：将Excel文件转换为CSV格式步骤二：在DBeaver中创建数据库表（如果尚未创建）步骤三：导入CSV文件到数据库表注意事项总结

2024-10-18 23:14:43

目录一、先清理归档日志使得数据库能够正常连接二、排查问题三、处理问题四、清理后效果最近客户单位的oracle数据库出了问题，经常出现无法连接,报错提示 ORA-00257: arc

2024-10-18 23:14:30

目录函数单行函数字符函数数学函数日期函数流程控制函数分组函数分组查询按单个字段分组在分组前进行条件筛选在分组之后进行条件筛选按多字段分

2024-10-18 23:14:18

目录 1、计算两个时间字符串之间的差值 2、字符串转换成日期/时间类型 3、计算两个日期和时间之间的差值在 SQL Server 中，计算两个时间字符串之间的差值首先将这些字符串转

2024-10-18 23:14:10

目录问题描述原因分析解决方案在Oracle数据库中，DECODE 函数是一个非常实用的条件处理函数，通常用于替代简单的 CASE WHEN 语句。它根据给定的值列表进行匹配，如果匹配成功

2024-10-18 23:14:02

目录描述实践描述删除表大批量数据，这是一个比较少的事件。但在实际的业务开发中或者数据测试也会遇到这种情况。比如定期从日志大表中删除几百万的数据记录；删除表数据的

2024-10-18 23:13:52

目录前言简介概述 DELETE 操作的基本概念常用的 DELETE 方法核心源码解读简单 DELETE 语句批量 DELETE 示例案例分析案例1：使用简单 DELETE 删除用户数据

2024-10-18 23:13:43

目录一、MySQL清空表数据三种方法 1.1 清空表数据：truncate 1.2 删除表：drop 1.3 删除/清空表数据：delete 二、使用原则三、truncate、drop、delete区别 1.操作类型

2024-10-14 19:50:11

目录一、问题描述二、解决方案 1.使用mysqldump命令备份数据库 2.创建目标数据库 3.导入数据到目标数据库三、补充知识 3.1 mysqldump命令介绍 3.2 常用备份命

2024-10-14 19:50:03

目录一、limit深分页为什么会变慢二、优化方案 2.1 通过子查询优化（覆盖索引）回顾B+树结构覆盖索引把条件转移到主键索引树 2.2 INNER JOIN 延迟关联

2024-10-14 19:49:55

目录 MySQL的TRUNCATE()函数规则如下函数示例当 X 为正数时当 X 为负数时总结 MySQL的TRUNCATE()函数TRUNCATE(X,D) 是MySQL自带的一个系统函数。其中，X是数值，D

2024-10-14 19:49:37

目录方法一：在电脑设置中查看电脑iP地址方法二：通过运行程序查看电脑IP地址方法三：通过浏览器查看电脑IP地址拓展：在自己电脑建立了MYSQL数据库，但是想在其它的电脑进行连接，

2024-10-14 19:49:29

目录概念 Pipeline 底层原理分析 Redis单个命令执行基本步骤 RTT 时间 Redis Pipeline Pipeline实际应用场景数据导入导出数据处理批量操作其他应用场

2024-10-14 19:49:13

修改配置文件1.打开Postgresql配置文件，如：C:\Program Files\PostgreSQL\14\data\postgresql.conf
2.修改如下，如果字段被#注释，则去掉#log_directory = 'log'
log_file

2024-10-14 19:49:02

目录创建分区删除分区分区性能总结说明：分区表，顾名思义，就是一张表根据规则，划分多个区，通过分区，实现一种“逻辑隔离”，这在Saas系统中是非常常见的。本文介绍如何

2024-10-14 19:48:52

目录 1.创建mysql基础配置 2.创建pvc挂载 3.创建工作负载 4.创建服务（创建服务后才能进行外部访问） 5.测试mysql是否能正常访问演示示例使用的是3.4.1，各版本有名字差异功能是

2024-10-14 19:48:36

目录安装步骤 1. 解压安装包 2. 移动解压后的文件夹 3. 创建MySQL用户 4. 设置权限 5. 配置MySQL 6. 设置环境变量 7. 初始化数据库 8. 设置系统服务 9. 设置roo

2024-10-14 19:48:11

目录解决方案 1. 检查是否输入正确的密码 2. 使用“跳过权限表”的方式重置 root 密码 2.1 停止 MySQL 服务 2.2 以跳过权限表模式启动 MySQL 2.3 重

2024-10-14 19:48:03

目录实现演示说明：实际开发中，我们在前端页面上点击了一个按钮，访问了一个接口，这时因为网络波动或者其他原因，页面上没有反应，用户可能会在短时间内再次点击一次或者用户以为没

2024-10-14 19:47:53

发生的错误好吧，当我在 laragon 应用程序中从mysql 5.1.72升级到mysql 8.0.32时，发生了这个错误。当我在 laragon 应用程序中 start all 时，出现的错误是这样的。laragon 中的

2024-09-17 21:32:55

介绍在本实验中，我们将学习和练习索引、视图、备份和恢复。这些概念对于数据库管理员来说非常重要。学习目标创建索引创建视图备份与恢复准备开始之前，我们需要准备好环境

2024-09-17 21:32:18

如何将 SQL 文件导入 MySQL 数据库导入 MySQL 数据库文件的方法：使用 MySQL 客户端打开 MySQL 客户端并连接到目标数据库。使用 SOURCE 命令，后跟要导入的 SQL 文件路径：SOUR

2024-09-17 21:32:00

2018-08-19

2020-03-22

2020-12-17

2020-03-22

2020-10-15

2021-01-28

2020-03-22

2021-01-21

2020-10-28

听说mysql中的join很慢?是你用的姿势不对吧

目录

驱动表与被驱动表

驱动表和被驱动表有什么差异

基于索引的join

join查询中如何选择驱动表

不使用join，执行效率是否会更高

热点内容

免费资源网

在线工具

扫一扫随时看

本站下载频道