来自：互联网

时间：2020-10-09

阅读：

前言

这段时间在维护产品的搜索功能，每次在管理台看到 elasticsearch 这么高效的查询效率我都很好奇他是如何做到的。

<a href=https://www.freexyz.cn/tag/MySQL.html target=_blank class=infotextkey>MySQL</a>索引 VS ElasticSearch索引

这甚至比在我本地使用 MySQL 通过主键的查询速度还快。

为此我搜索了相关资料：

这类问题网上很多答案，大概意思呢如下：

ES 是基于 Lucene 的全文检索引擎，它会对数据进行分词后保存索引，擅长管理大量的索引数据，相对于 MySQL 来说不擅长经常更新数据及关联查询。

说的不是很透彻，没有解析相关的原理；不过既然反复提到了索引，那我们就从索引的角度来对比下两者的差异。

MySQL 索引

先从 MySQL 说起，索引这个词想必大家也是烂熟于心，通常存在于一些查询的场景，是典型的空间换时间的案例。

以下内容以 Innodb 引擎为例。复制代码

常见的数据结构

假设由我们自己来设计 MySQL 的索引，大概会有哪些选择呢？

散列表

首先我们应当想到的是散列表，这是一个非常常见且高效的查询、写入的数据结构，对应到 Java 中就是 HashMap

这个数据结构应该不需要过多介绍了，它的写入效率很高O(1),比如我们要查询 id=3 的数据时，需要将 3 进行哈希运算，然后再这个数组中找到对应的位置即可。

但如果我们想查询 1≤id≤6 这样的区间数据时，散列表就不能很好的满足了，由于它是无序的，所以得将所有数据遍历一遍才能知道哪些数据属于这个区间。

有序数组

有序数组的查询效率也很高，当我们要查询 id=4 的数据时，只需要通过二分查找也能高效定位到数据O(logn)。

同时由于数据也是有序的，所以自然也能支持区间查询；这么看来有序数组适合用做索引咯?

自然是不行，它有另一个重大问题；假设我们插入了 id=2.5 的数据，就得同时将后续的所有数据都移动一位，这个写入效率就会变得非常低。

平衡二叉树

既然有序数组的写入效率不高，那我们就来看看写入效率高的，很容易就能想到二叉树；这里我们以平衡二叉树为例：

由于平衡二叉树的特性：

左节点小于父节点、右节点大于父节点。

所以假设我们要查询 id=11 的数据，只需要查询 10—>12—>11 便能最终找到数据，时间复杂度为O(logn)，同理写入数据时也为O(logn)。

但依然不能很好的支持区间范围查找，假设我们要查询5≤id≤20 的数据时，需要先查询10节点的左子树再查询10节点的右子树最终才能查询到所有数据。

导致这样的查询效率并不高。

跳表

跳表可能不像上边提到的散列表、有序数组、二叉树那样日常见的比较多，但其实 Redis 中的 sort set 就采用了跳表实现。

这里我们简单介绍下跳表实现的数据结构有何优势。

我们都知道即便是对一个有序链表进行查询效率也不高，由于它不能使用数组下标进行二分查找，所以时间复杂度是o(n)

但我们也可以巧妙的优化链表来变相的实现二分查找，如下图：

我们可以为最底层的数据提取出一级索引、二级索引，根据数据量的不同，我们可以提取出 N 级索引。

当我们查询时便可以利用这里的索引变相的实现了二分查找。

假设现在要查询 id=13 的数据，只需要遍历 1—>7—>10—>13 四个节点便可以查询到数据，当数越多时，效率提升会更明显。

同时区间查询也是支持，和刚才的查询单个节点类似，只需要查询到起始节点，然后依次往后遍历（链表有序）到目标节点便能将整个范围的数据查询出来。

同时由于我们在索引上不会存储真正的数据，只是存放一个指针，相对于最底层存放数据的链表来说占用的空间便可以忽略不计了。

平衡二叉树的优化

但其实 MySQL 中的 Innodb 并没有采用跳表，而是使用的一个叫做 B+ 树的数据结构。

这个数据结构不像是二叉树那样大学老师当做基础数据结构经常讲到，由于这类数据结构都是在实际工程中根据需求场景在基础数据结构中演化而来。

比如这里的 B+ 树就可以认为是由平衡二叉树演化而来。

刚才我们提到二叉树的区间查询效率不高，针对这一点便可进行优化：

在原有二叉树的基础上优化后：所有的非叶子都不存放数据，只是作为叶子节点的索引，数据全部都存放在叶子节点。

这样所有叶子节点的数据都是有序存放的，便能很好的支持区间查询。

只需要先通过查询到起始节点的位置，然后在叶子节点中依次往后遍历即可。

当数据量巨大时，很明显索引文件是不能存放于内存中，虽然速度很快但消耗的资源也不小；所以 MySQL 会将索引文件直接存放于磁盘中。

这点和后文提到 elasticsearch 的索引略有不同。

由于索引存放于磁盘中，所以我们要尽可能的减少与磁盘的 IO（磁盘 IO 的效率与内存不在一个数量级）

通过上图可以看出，我们要查询一条数据至少得进行 4 次IO，很明显这个 IO 次数是与树的高度密切相关的，树的高度越低 IO 次数就会越少，同时性能也会越好。

那怎样才能降低树的高度呢？

我们可以尝试把二叉树变为三叉树，这样树的高度就会下降很多，这样查询数据时的 IO 次数自然也会降低，同时查询效率也会提高许多。

这其实就是 B+ 树的由来。

使用索引的一些建议

其实通过上图对 B+树的理解，也能优化日常工作的一些小细节；比如为什么需要最好是有序递增的？

假设我们写入的主键数据是无序的，那么有可能后写入数据的 id 小于之前写入的，这样在维护 B+树 索引时便有可能需要移动已经写好数据。

如果是按照递增写入数据时则不会有这个考虑，每次只需要依次写入即可。

所以我们才会要求数据库主键尽量是趋势递增的，不考虑分表的情况时最合理的就是自增主键。

整体来看思路和跳表类似，只是针对使用场景做了相关的调整（比如数据全部存储于叶子节点）。

ES 索引

MySQL 聊完了，现在来看看 Elasticsearch 是如何来使用索引的。

正排索引

在 ES 中采用的是一种名叫倒排索引的数据结构；在正式讲倒排索引之前先来聊聊和他相反的正排索引。

以上图为例，我们可以通过 doc_id 查询到具体对象的方式称为使用正排索引，其实也能理解为一种散列表。

本质是通过 key 来查找 value。

比如通过 doc_id=4 便能很快查询到 name=jetty wang,age=20 这条数据。

倒排索引

那如果反过来我想查询 name 中包含了 li 的数据有哪些？这样如何高效查询呢？

仅仅通过上文提到的正排索引显然起不到什么作用，只能依次将所有数据遍历后判断名称中是否包含 li ；这样效率十分低下。

但如果我们重新构建一个索引结构：

当要查询 name 中包含 li 的数据时，只需要通过这个索引结构查询到 Posting List 中所包含的数据，再通过映射的方式查询到最终的数据。

这个索引结构其实就是倒排索引。

Term Dictionary

但如何高效的在这个索引结构中查询到 li 呢，结合我们之前的经验，只要我们将 Term 有序排列，便可以使用二叉树搜索树的数据结构在o(logn) 下查询到数据。

将一个文本拆分成一个一个独立Term 的过程其实就是我们常说的分词。

而将所有 Term 合并在一起就是一个 Term Dictionary，也可以叫做单词词典。

英文的分词相对简单，只需要通过空格、标点符号将文本分隔便能拆词，中文则相对复杂，但也有许多开源工具做支持（由于不是本文重点，对分词感兴趣的可以自行搜索）。

当我们的文本量巨大时，分词后的 Term 也会很多，这样一个倒排索引的数据结构如果存放于内存那肯定是不够存的，但如果像 MySQL 那样存放于磁盘，效率也没那么高。

Term Index

所以我们可以选择一个折中的方法，既然无法将整个 Term Dictionary 放入内存中，那我们可以为Term Dictionary 创建一个索引然后放入内存中。

这样便可以高效的查询Term Dictionary ，最后再通过Term Dictionary 查询到 Posting List。

相对于 MySQL 中的 B+树来说也会减少了几次磁盘IO。

这个 Term Index 我们可以使用这样的 Trie树 也就是我们常说的字典树 来存放。

更多关于字典树的内容请查看这里。

如果我们是以 j 开头的 Term 进行搜索，首先第一步就是通过在内存中的 Term Index 查询出以 j 打头的 Term 在 Term Dictionary 字典文件中的哪个位置（这个位置可以是一个文件指针，可能是一个区间范围）。

紧接着在将这个位置区间中的所有 Term 取出，由于已经排好序，便可通过二分查找快速定位到具体位置；这样便可查询出 Posting List。

最终通过 Posting List 中的位置信息便可在原始文件中将目标数据检索出来。

总结

最后我们来总结一下：

通过以上内容可以看出再复杂的产品最终都是基础数据结构组成，只是会对不同应用场景针对性的优化，所以打好数据结构与算法的基础后再看某个新的技术或中间件时才能快速上手，甚至自己就能知道优化方向。

最后画个饼，后续我会尝试按照 ES 倒排索引的思路做一个单机版的搜索引擎，只有自己写一遍才能加深理解。

SQL Server:SELECT TOP 10 * FROM T_USER ORDER BY NEWID()ORACLE:SELECT * FROM (SELECT * FROM T_USER ORDER BY DBMS_RANDOM.RANDOM()) WHERE RONUM <= 10MySQL:SELECT *

2024-10-21 20:47:50

一、limit用法在我们使用查询语句的时候，经常要返回前几条或者中间某几行数据，这个时候怎么办呢？不用担心，mysql已经为我们提供了这样一个功能。SELECT * FROM table LIMIT [off

2024-10-21 20:44:48

目录问题原因解决办法如何设置和查看使用Navicat Premium 12导入mysql的sql文件时，导入失败，出现如下错误：2006 - MySQL server has gone away。mysql出现ERROR : (2006, &

2024-10-21 20:43:22

今天早上启动了 phpstudy 软件中的 MySQL 8.0 数据库时，发现它启动后约过了 3 秒就自行关闭了。接着又自动启动然后再次关闭，似乎陷入了一个“开-闭-开”的循环。这导致我无

2024-10-18 23:15:41

目录

1. 每秒交易量

2. 每分钟交易量

3. 每5分钟交易量

4. 每10分钟交易量

5. 每30分钟交易量

结合 WHERE

2024-10-18 23:15:27

目录 Redis是什么？ Redis的特点依赖配置 redis的配置类（用于格式转换，处理乱码） String（字符串）特点业务场景代码使用案例 List（列表）特点业务场景代码使用案例 S

2024-10-18 23:15:18

目录 Oracle中BLOB、CLOB的读取和写入基于SQL的方式实现CLOB、BLOB的插入与读取 1. 插入大类型数据 2. 读取大类型数据并转换为字符串基于Java方式实现CLOB和B

2024-10-18 23:15:09

目录 dbeaver导出mysql数据库右键表-tools-Dump database 按默认设置总结 dbeaver导出mysql数据库右键表-tools-Dump database按默认设置只需修改输出文件夹我这里把

2024-10-18 23:15:01

目录 DBeaver如何导入excel中的大量数据步骤一：将Excel文件转换为CSV格式步骤二：在DBeaver中创建数据库表（如果尚未创建）步骤三：导入CSV文件到数据库表注意事项总结

2024-10-18 23:14:43

目录一、先清理归档日志使得数据库能够正常连接二、排查问题三、处理问题四、清理后效果最近客户单位的oracle数据库出了问题，经常出现无法连接,报错提示 ORA-00257: arc

2024-10-18 23:14:30

目录函数单行函数字符函数数学函数日期函数流程控制函数分组函数分组查询按单个字段分组在分组前进行条件筛选在分组之后进行条件筛选按多字段分

2024-10-18 23:14:18

目录 1、计算两个时间字符串之间的差值 2、字符串转换成日期/时间类型 3、计算两个日期和时间之间的差值在 SQL Server 中，计算两个时间字符串之间的差值首先将这些字符串转

2024-10-18 23:14:10

目录问题描述原因分析解决方案在Oracle数据库中，DECODE 函数是一个非常实用的条件处理函数，通常用于替代简单的 CASE WHEN 语句。它根据给定的值列表进行匹配，如果匹配成功

2024-10-18 23:14:02

目录描述实践描述删除表大批量数据，这是一个比较少的事件。但在实际的业务开发中或者数据测试也会遇到这种情况。比如定期从日志大表中删除几百万的数据记录；删除表数据的

2024-10-18 23:13:52

目录前言简介概述 DELETE 操作的基本概念常用的 DELETE 方法核心源码解读简单 DELETE 语句批量 DELETE 示例案例分析案例1：使用简单 DELETE 删除用户数据

2024-10-18 23:13:43

目录一、MySQL清空表数据三种方法 1.1 清空表数据：truncate 1.2 删除表：drop 1.3 删除/清空表数据：delete 二、使用原则三、truncate、drop、delete区别 1.操作类型

2024-10-14 19:50:11

目录一、问题描述二、解决方案 1.使用mysqldump命令备份数据库 2.创建目标数据库 3.导入数据到目标数据库三、补充知识 3.1 mysqldump命令介绍 3.2 常用备份命

2024-10-14 19:50:03

目录一、limit深分页为什么会变慢二、优化方案 2.1 通过子查询优化（覆盖索引）回顾B+树结构覆盖索引把条件转移到主键索引树 2.2 INNER JOIN 延迟关联

2024-10-14 19:49:55

目录 MySQL的TRUNCATE()函数规则如下函数示例当 X 为正数时当 X 为负数时总结 MySQL的TRUNCATE()函数TRUNCATE(X,D) 是MySQL自带的一个系统函数。其中，X是数值，D

2024-10-14 19:49:37

目录方法一：在电脑设置中查看电脑iP地址方法二：通过运行程序查看电脑IP地址方法三：通过浏览器查看电脑IP地址拓展：在自己电脑建立了MYSQL数据库，但是想在其它的电脑进行连接，

2024-10-14 19:49:29

目录概念 Pipeline 底层原理分析 Redis单个命令执行基本步骤 RTT 时间 Redis Pipeline Pipeline实际应用场景数据导入导出数据处理批量操作其他应用场

2024-10-14 19:49:13

修改配置文件1.打开Postgresql配置文件，如：C:\Program Files\PostgreSQL\14\data\postgresql.conf
2.修改如下，如果字段被#注释，则去掉#log_directory = 'log'
log_file

2024-10-14 19:49:02

目录创建分区删除分区分区性能总结说明：分区表，顾名思义，就是一张表根据规则，划分多个区，通过分区，实现一种“逻辑隔离”，这在Saas系统中是非常常见的。本文介绍如何

2024-10-14 19:48:52

目录 1.创建mysql基础配置 2.创建pvc挂载 3.创建工作负载 4.创建服务（创建服务后才能进行外部访问） 5.测试mysql是否能正常访问演示示例使用的是3.4.1，各版本有名字差异功能是

2024-10-14 19:48:36

目录安装步骤 1. 解压安装包 2. 移动解压后的文件夹 3. 创建MySQL用户 4. 设置权限 5. 配置MySQL 6. 设置环境变量 7. 初始化数据库 8. 设置系统服务 9. 设置roo

2024-10-14 19:48:11

目录解决方案 1. 检查是否输入正确的密码 2. 使用“跳过权限表”的方式重置 root 密码 2.1 停止 MySQL 服务 2.2 以跳过权限表模式启动 MySQL 2.3 重

2024-10-14 19:48:03

目录实现演示说明：实际开发中，我们在前端页面上点击了一个按钮，访问了一个接口，这时因为网络波动或者其他原因，页面上没有反应，用户可能会在短时间内再次点击一次或者用户以为没

2024-10-14 19:47:53

发生的错误好吧，当我在 laragon 应用程序中从mysql 5.1.72升级到mysql 8.0.32时，发生了这个错误。当我在 laragon 应用程序中 start all 时，出现的错误是这样的。laragon 中的

2024-09-17 21:32:55

介绍在本实验中，我们将学习和练习索引、视图、备份和恢复。这些概念对于数据库管理员来说非常重要。学习目标创建索引创建视图备份与恢复准备开始之前，我们需要准备好环境

2024-09-17 21:32:18

如何将 SQL 文件导入 MySQL 数据库导入 MySQL 数据库文件的方法：使用 MySQL 客户端打开 MySQL 客户端并连接到目标数据库。使用 SOURCE 命令，后跟要导入的 SQL 文件路径：SOUR

2024-09-17 21:32:00

MySQL中 char_length 函数与 length 函数都可以返回字符串的长度mysql> select length('MySQL'), char_length('MySQL');+-----------------+-------------

2020-10-08 20:12:58

索引创建完成后，可以利用 SQL 语句查看已经存在的索引。在 MySQL 中，可以使用 SHOW INDEX 语句查看表中创建的索引。查看索引的语法格式如下：SHOW INDEX FROM <表名> [ FROM <

2020-10-08 20:12:32

查看mysql是否成功启动的方法同时按windows键（就是Windows图标那个键）和R键，打开“运行”窗口，输入 services.msc之后会弹出服务窗口，找到mysql服务此处可看到mysql服

2020-10-08 20:11:20

mysql里中文占多少个字节？1. 一个中文汉字占多少字节与编码有关： UTF8：一个中文汉字＝3个字节 GBK：一个中文汉字＝2个字节utf-8, 英文字母1字节2.varchar(n)能存储几个汉字？varchar

2020-10-08 20:10:57

错误日志（Error Log）是 MySQL 中最常用的一种日志，主要记录 MySQL 服务器启动和停止过程中的信息、服务器在运行过程中发生的故障和异常情况等。删除错误日志在 MySQL 中，可以使

2020-10-08 20:10:34

子查询分类1、按返回结果集分类子查询按返回结果集的不同分为4种：表子查询，行子查询，列子查询和标量子查询。表子查询：返回的结果集是一个行的集合，N行N列（N>=1）。表子查询经常用

2020-10-08 20:10:09

最近一个项目，需要写很多的sql语句。涉及到很多与时间相关的处理，现在做一下简单的总结。1.时间格式：在这个项目中，或许是由不同的人建立的数据库表结构吧，对时间的格式步统一，有

2020-10-08 20:09:51

MySQL 外键约束（FOREIGN KEY）是表的一个特殊字段，经常与主键约束一起使用。对于两个具有关联关系的表而言，相关联字段中主键所在的表就是主表（父表），外键所在的表就是从表（子表）。在

2020-10-08 20:09:11

mysql主键约束主键（PRIMARY KEY）的完整称呼是“主键约束”，是 MySQL 中使用最为频繁的约束。一般情况下，为了便于 DBMS 更快的查找到表中的记录，都会在表中设置一个主

2020-10-08 20:08:34

前言 MySQL索引底层数据结构与算法 MySQL性能优化原理-前篇 MySQL性能优化-实践篇1 MySQL性能优化-实践篇2前面我们讲了MySQL数据库底层的数据结构与算法、MySQL性能优化篇

2020-10-08 20:01:17

2018-08-19

2020-03-22

2020-12-17

2020-03-22

2020-10-15

2021-01-28

2020-03-22

2021-01-21

2020-10-28

MySQL索引 VS ElasticSearch索引

前言

MySQL 索引

常见的数据结构

散列表

有序数组

平衡二叉树

跳表

平衡二叉树的优化

使用索引的一些建议

ES 索引

正排索引

倒排索引

Term Dictionary

Term Index

更多优化

总结

热点内容

免费资源网

在线工具

扫一扫随时看

本站下载频道