时间：2022-10-31

阅读：

模糊查询，如查询姓名包含”晓“的用户，常见的写法为 like "%晓%"，MySQL里面他会全表扫描，数据量少还好，全表扫描也很快，随着数据增加会变慢，上ES又很重。本篇文章就来给大家介绍like模糊匹配查询慢解决之道——MySQL全文索引。

需求

需要模糊匹配查询一个单词

select * from t_phrase where LOCATE('昌',phrase) = 0;

select * from t_chinese_phrase where instr(phrase,'昌') > 0;

select * from t_chinese_phrase where phrase like '%昌%'

explAIn一下看看执行计划

由explain的结果可知，虽然我们给phrase建了索引，但是查询的时候，索引是失效的。

原因： mysql的索引是B+树结构，InnoDB在模糊查询数据时使用 "%xx" 会导致索引失效（此处就不展开讲了）

从查询时长上来看，花费时间：90ms

目前数据量：93230（9.3W）已经需要90ms，这个时间不太能接受，假如数据量增加，这个时间会不断增长。

解决方案：

数据量不大的情况下，使用mysql的全文索引；
数据量比较大或者mysql的全文索引不达预期的情况下，可以考虑使用ES

下面主要是MySQL的全文索引相关.

全文索引介绍

1、发展历史

旧版的MySQL的全文索引只能用在MyISAM存储引擎的char、varchar和text的字段上。
MySQL5.6.24上InnoDB引擎也加入了全文索引。

2、全文索引

全文检索（Full-Text Search） 是将存储于数据库中的整本书或整篇文章中的任意内容信息查找出来的技术。它可以根据需要获得全文中有关章、节、段、词等信息，也可以进行各种统计和分析

3、创建全文索引

若需对大量数据设置全文索引，建议先添加数据再创建索引。

1、创建表时创建全文索引

create table 表名(
字段名1,
字段名2,
字段名3,
字段名4,
FULLTEXT full_index_name (字段名)
)ENGINE=InnoDB;

2、为已有表添加全文索引

create fulltext index 索引名称 on 表名(字段名)；

eg:

create table t_word
(
    id        int unsigned auto_increment comment '自增id' primary key,
    uid       char(32)     not null comment '32位唯一id',
    word      varchar(256) null comment '英文单词',
    translate varchar(256) null
);

create fulltext index full_idx_translate
    on t_word (translate);

create fulltext index full_idx_word
    on t_word (word);

INSERT INTO t_word (id, uid, word, translate) VALUES (1, '9d592499c65648b0a9519206688ef3f9', 'lion', '狮子');
INSERT INTO t_word (id, uid, word, translate) VALUES (2, 'ce26ac4239514bc6af481bcb1d9b67df', 'panda', '熊猫');
INSERT INTO t_word (id, uid, word, translate) VALUES (3, 'a7d6042853c44904b68275daafb44702', 'tiger', '老虎');
INSERT INTO t_word (id, uid, word, translate) VALUES (4, 'f13bd0a8ecea44fc9ade1625eeb4cc3c', 'goat', '山羊');
INSERT INTO t_word (id, uid, word, translate) VALUES (5, '27d5cbfc93a046388d712085e567474f', 'sheep', '绵羊');
INSERT INTO t_word (id, uid, word, translate) VALUES (6, 'ed35df138cf348aa937781be8ee21cbf', 'lamb', '羊羔');
INSERT INTO t_word (id, uid, word, translate) VALUES (7, 'fba5861d9527440990276e999f47ef8f', 'buffalo', '水牛');
INSERT INTO t_word (id, uid, word, translate) VALUES (8, '3a72e76f210841b1939fff0d3d721375', 'bull', '公牛');
INSERT INTO t_word (id, uid, word, translate) VALUES (9, '272e0b28ea7a48248a86f17533bf9943', 'cow', '母牛');
INSERT INTO t_word (id, uid, word, translate) VALUES (10, '47127adface54e418e4c1b9980af6d16', 'calf', '小牛');
INSERT INTO t_word (id, uid, word, translate) VALUES (11, '10592499c65648b0a9519206688ef3f9', 'little lion', '小狮子');
INSERT INTO t_word (id, uid, word, translate) VALUES (12, '1bf095110b634a01bee5b31c5ee7ee0c', 'little cow', '母牛');
INSERT INTO t_word (id, uid, word, translate) VALUES (13, '4813e588cde54c30bd65bfdbb243ad1f', 'little calf', '小小牛');
INSERT INTO t_word (id, uid, word, translate) VALUES (14, '5e377e281ad344048b6938a638b78ccb', 'little bull', '小公牛');
INSERT INTO t_word (id, uid, word, translate) VALUES (15, '2855ad0da2964c7682c178eb8271f13d', 'little buffalo', '小水牛');
INSERT INTO t_word (id, uid, word, translate) VALUES (16, '72f24c9a77644d57a36f3bdf2b8116b0', 'little lamb', '小羊羔');
INSERT INTO t_word (id, uid, word, translate) VALUES (17, '2d592499c65648b0a9519206688ef3f9', 'I''m a big lion', '我是一只大狮子');

3、删除全文索引

alter table 表名 drop index 索引名;

4、全文索引使用

语法

MATCH(col1,col2,...) AGAINST(expr[search_modifier])
search_modifier:
{
    IN NATURAL LANGUAGE MODE
    | IN NATURAL LANGUAGE MODE WITH QUERY EXPANSION
    | IN BOOLEAN MODE
    | WITH QUERY EXPANSION
}

4.1 IN NATURAL LANGUAGE MODE

自然语言模式是MySQL 默认的全文检索模式。自然语言模式不能使用操作符，不能指定关键词必须出现或者必须不能出现等复杂查询。

// 默认是使用 in natural language mode
select * from t_word where match(word) against ('lion');
// 或者 显示写
select * from t_word where match(word) against ('lion' in natural language mode);

结果如下：

4.2 IN BOOLEAN MODE

BOOLEAN模式可以使用操作符，可以支持指定关键词必须出现或者必须不能出现或者关键词的权重高还是低等复杂查询。推荐使用boolean模式

操作者	描述
为空	默认，包含该词
+	包括，这个词必须存在。
-	排除，词不得出现。
>(大于号)	包括，并提高排名值,查询的结果会靠前
<	包括，并降低排名值，查询的结果会靠后
()	将单词分组为子表达式（允许将它们作为一组包括在内，排除在外，排名等等）。
〜	否定单词的排名值。
*	通配符在这个词的结尾。
“”	定义短语（与单个单词列表相对，整个短语匹配以包含或排除）。

示例：

// 默认是使用 in natural language mode
select * from t_word where match(word) against ('lion');
// 或者 显示写
select * from t_word where match(word) against ('lion' in natural language mode);

// 排除包含lion记录、查询出包含cow或者little的记录，提升包含calf单词的排名，降低包含cow记录的排名，查询出以go开头的记录
select * from t_word where match(word) against ('-lion cow little >calf <cow  go*' in boolean mode) ;

好像问题都解决了，但是问题才刚开始

回到最开始的需求，我想模糊搜索

select * from t_word where  match(word) against('lio' in boolean mode);

预期值：把包含lion的都查询出来实际结果：啥都没有。

全匹配查询的时候能查询出来

select * from t_word where  match(translate) against('小水牛' in boolean mode);

只查询部分查询不出来。如：下面只查询 "小水" 或者"水牛" 都没有数据

select * from t_word where  match(translate) against('小水' in boolean mode);

奇怪了，这咋没出来呢？

全文索引默认是只按照空格进行分词的，所以当我完整的单个单词去查询的时候是能查出来的。但是使用部分单词去查询或者使用部分中文去查询时，是查询不出来数据的,像中文需要使用中文分词器进行分词。

中文分词与全文索引

InnoDB默认的全文索引parser非常合适于Latin，因为Latin是通过空格来分词的。但对于像中文，日文和韩文来说，没有这样的分隔符。一个词可以由多个字来组成，所以我们需要用不同的方式来处理。在MySQL 5.7.6中我们能使用一个新的全文索引插件来处理它们：N-gram parser。

什么是N-gram？

在全文索引中，n-gram就是一段文字里面连续的n个字的序列。例如，用n-gram来对“齿轮传动”来进行分词，得到的结果如下：

N=1 : '齿', '轮', '传', '动';
N=2 : '齿轮', '轮传', '传动';
N=3 : '齿轮传', '轮传动';
N=4 : '齿轮传动';

这个上面这个N是怎么去配置的？

查一下目前的值

show variables like '%token%';

参数解析:

innodb_ft_min_token_size
默认3，表示最小3个字符作为一个关键词，增大该值可减少全文索引的大小
innodb_ft_max_token_size
默认84，表示最大84个字符作为一个关键词，限制该值可减少全文索引的大小
ngram_token_size
默认2，表示2个字符作为内置分词解析器的一个关键词,合法取值范围是1-10，如对“abcd”建立全文索引，关键词为’ab’，‘bc’，‘cd’ 当使用ngram分词解析器时，innodb_ft_min_token_size和innodb_ft_max_token_size 无效

修改方式

方式1：在my.cnf中修改/添加参数

[mysqld]ngram_token_size = 1

方式2：修改启动参数

mysqld --ngram_token_size=1复制代码

参数均不可动态修改，修改后需重启MySQL服务，并重新建立全文索引

实际使用

初始化测试数据

这里只提供部分测试数据，我下面sql使用全量数据，数据对不上

create table t_chinese_phrase
(
    id     int unsigned auto_increment comment 'id'
        primary key,
    phrase varchar(32) not null comment '词组'
)
    collate = utf8mb4_general_ci;

INSERT INTO t_chinese_phrase (id, phrase) VALUES (278911, '阿昌族');
INSERT INTO t_chinese_phrase (id, phrase) VALUES (279253, '八一南昌起义');
INSERT INTO t_chinese_phrase (id, phrase) VALUES (282316, '昌明');
INSERT INTO t_chinese_phrase (id, phrase) VALUES (282317, '昌盛');
INSERT INTO t_chinese_phrase (id, phrase) VALUES (282318, '昌言');
INSERT INTO t_chinese_phrase (id, phrase) VALUES (286534, '东昌纸');
INSERT INTO t_chinese_phrase (id, phrase) VALUES (291525, '海昌蓝');
INSERT INTO test.t_chinese_phrase (id, phrase) VALUES (346682, '繁荣昌盛');
INSERT INTO test.t_chinese_phrase (id, phrase) VALUES (282317, '昌盛');
INSERT INTO test.t_chinese_phrase (id, phrase) VALUES (287738, '繁盛');
INSERT INTO test.t_chinese_phrase (id, phrase) VALUES (287736, '繁荣');

添加索引

mysql 全文索引使用倒排索引为 full inverted index
结构：{单词，(单词所在文档的ID，单词在具体文件中的位置)}

添加索引：

alter  table t_chinese_phrase add fulltext ful_phrase (phrase) with parser ngram;

建完索引，我们可以通过查询INFORMATION_SCHEMA.INNODB_FT_INDEX_CACHE和INFORMATION_SCHEMA.INNODB_FT_TABLE_TABLE来查询哪些词在全文索引里面。这是一个非常有用的调试工具。如果我们发现一个包含某个词的文档，没有如我们所期望的那样出现在查询结果中，那么这个词可能是因为某些原因不在全文索引里面。比如，它含有stopword，或者它的大小小于ngram_token_size等等。这个时候我们就可以通过查询这两个表来确认。下面是一个简单的例子：

# test: 库名  t_chinese_phrase： 表名字
SET GLOBAL innodb_ft_aux_table="test/t_chinese_phrase";
# 查询分词情况
SELECT * FROM INFORMATION_SCHEMA.INNODB_FT_INDEX_CACHE;
# 查询分词情况
select * from information_schema.innodb_ft_index_table;

查询结果如下：

因为我们上面设置了分词数是1，所以，可以看到都是按照一个词进行分词的。

字段解析：
FIRST_DOC_ID ：word第一次出现的文档ID
LAST_DOC_ID : word最后一次出现的文档ID
DOC_COUNT ：含有word的文档个数
DOC_ID ：当前文档ID
POSITION : word 当在前文档ID的位置

查询

1、使用自然语言模式 NATURAL LANGUAGE MODE 查询

在自然语言模式（NATURAL LANGUAGE MODE)下，文本的查询被转换为n-gram分词查询的并集。

例如，当ngram_token_size = 1 时，(‘繁荣昌盛’)转换为(‘繁荣昌盛’)。下面一个例子：

SELECT * FROM t_chinese_phrase WHERE MATCH (phrase) AGAINST ('繁荣昌盛' in natural language mode) ;

2、使用布尔模式（BOOLEAN MODE）查询

布尔模式（BOOLEAN MODE）文本查询被转化为n-gram分词的短语查询

例如，当ngram_token_size = 1 时，(‘繁荣昌盛’)转换为(‘”繁荣昌盛“’)。下面一个例子：

SELECT * FROM t_chinese_phrase WHERE MATCH (phrase) AGAINST ('繁荣昌盛' in boolean  mode) ;

实际使用

回到我们最开始的查询需求，看看实际的效果

查询包含了“昌”的数据

SELECT * FROM t_chinese_phrase WHERE MATCH (phrase) AGAINST ('昌' IN boolean  MODE) ;
SELECT * FROM t_chinese_phrase WHERE MATCH (phrase) AGAINST ('昌' ) order by id asc;

可以看到结果：目前“昌”在任意位置都能被查询到。

查询执行计划如下：

耗时31ms（不走索引是90ms），耗时差不多是之前的1/3。

注意点

1、自然语言全文索引创建索引时的字段需与查询的字段保持一致，即MATCH里的字段必须和FULLTEXT里的一模一样；

2、自然语言检索时，检索的关键字在所有数据中不能超过50%（即常见词），则不会检索出结果。可以通过布尔检索查询；

3、在mysql的stopword中的单词检索不出结果。可通过

SELECT * FROM INFORMATION_SCHEMA.INNODB_FT_DEFAULT_STOPWORD

查询所有的stopword。遇到这种情况，有两种解决办法：

（1）stopword一般是mysql自建的，但可以通过设置ft_stopword_file变量为自定义文件，从而自己设置stopword，设置完成后需要重新创建索引。但不建议使用这种方法；

（2）使用布尔索引查询。

4、小于最短长度和大于最长长度的关键词无法查出结果。可以通过设置对应的变量来改变长度限制，修改后需要重新创建索引。

myisam引擎下对应的变量名为ft_min_word_len和ft_max_word_len

innodb引擎下对应的变量名为innodb_ft_min_token_size和innodb_ft_max_token_size

5、MySQL5.7.6之前的版本不支持中文，需使用第三方插件

6、全文索引只能在 InnoDB（MySQL 5.6以后）或 MyISAM 的表上使用，并且只能用于创建 char,varchar,text 类型的列。

MySQL大小写敏感的处理方式及代码示例MySQL是一种常用的关系型数据库管理系统，它在处理大小写敏感的问题时需要特别注意。在MySQL中，默认情况下是大小写不敏感的，即不区分大小

2024-03-15 21:10:08

MySQL触发器的定义与使用方法详解MySQL触发器是一种特殊的存储过程，可以在表发生特定事件时自动执行。触发器可以用于实现数据的自动化处理、数据一致性维护等功能。本文将

2024-03-15 21:09:41

MySQL数据库中外键的作用及用法详解在MySQL数据库中，外键是用来建立表与表之间关联的重要工具，它能够确保数据完整性，并且提供了一种方式来维护表与表之间的关系。本文将详细介

2024-03-15 21:09:25

MySQL UPDATE语句是否会导致表被锁定？MySQL 是一个流行的关系型数据库管理系统，广泛用于各种应用程序中。在数据库操作中，UPDATE 语句用于更新表中的数据。但是，一个常见的问题

2024-03-15 21:09:08

MySQL中的布尔类型是一种非常实用的数据类型，它用于存储逻辑值，只能取两种值：TRUE或FALSE。在MySQL中，布尔类型也被称为BOOL或BOOLEAN，可以用TINYINT(1)来表示。在本文中，我们将深

2024-03-15 21:08:53

如何设计合理的 MySQL 复合主键？在数据库设计中，主键是一项非常重要的概念，它可以帮助我们唯一地标识每一行数据。在 MySQL 中，我们可以选择使用单一主键或者复合主键。复合主键

2024-03-15 21:08:36

MySQL数据库中unique索引的优势及应用场景在MySQL数据库中，unique索引是一种特殊的索引，它可以保证列中的值是唯一的。在实际应用中，unique索引具有许多优势，并且适用于多种场景

2024-03-15 21:08:22

MySQL 时间戳是一个十分重要的数据类型，它可以存储日期、时间或者日期加时间。在实际的开发过程中，合理地使用时间戳可以提高数据库操作的效率，并且方便进行时间相关的查询和计

2024-03-15 21:08:05

MySQL数据库中的unique索引：用法与注意事项MySQL是一种非常流行的开源关系型数据库管理系统，可以用于存储和管理大量的数据。在MySQL中，我们经常会使用索引来提高数据的检索和

2024-03-15 21:07:48

MySQL.proc表是MySQL数据库中存储存储过程和函数信息的系统表，通过深入了解其结构及用途，可以更好地理解存储过程和函数在MySQL中的运行机制，并进行相关的管理和优化。下面将详

2024-03-15 21:07:32

在数据库管理中，触发器是一种强大的工具，能够帮助我们实现数据库操作的自动化。MySQL作为一款广泛应用的开源数据库管理系统，也提供了触发器功能，我们可以利用MySQL触发器来实现

2024-03-15 21:07:14

MYSQL 一个事务在提交的时候能够保证binlog和redo log是同时提交的，并且能在宕机恢复后保持binlog 和redo log的一致性。先来看看什么是redo log 和binlog，以及为什么要保持它

2024-03-15 00:54:55

转载至我的博客 https://www.infrastack.cn ，公众号：架构成长指南在并发一致性控制场景中，我们常常用for update悲观锁来进行一致性的保证，但是如果不了解它的机制，就进行使用，很

2024-03-13 00:03:43

1 介绍AOF（Append Only File）持久化：以独立日志的方式存储了 Redis 服务器的顺序指令序列，并只记录对内存进行修改的指令。
当Redis服务发生雪崩等故障时，可以重启服务并重新执行

2024-03-12 12:07:28

大家好，我是小康，今天我们来聊下 Redis 的几种架构模式，包括主从复制、哨兵和集群模式。前言：设想一下，你的咖啡馆在城市中太受欢迎，导致每天都人满为患。为了缓解这种压力，你决定

2024-03-11 00:01:36

前言:每次你在游戏中看到玩家排行榜，或者在音乐应用中浏览热门歌单，有没有想过这个排行榜是如何做到实时更新的？当然，依靠 Redis 即可做到。在技术领域，我们经常听到「键值存储」

2024-03-11 00:00:34

2024-03-10 23:58:29

Oracle数据库中修改系统日期方法详解在Oracle数据库中，修改系统日期的方法主要涉及到修改NLS_DATE_FORMAT参数和使用SYSDATE函数。本文将详细介绍这两种方法及其具体的代码示

2024-03-09 23:16:03

解决Oracle错误3114的有效方法分享，需要具体代码示例Oracle数据库是常用的企业级关系型数据库管理系统，但在使用过程中经常会遇到各种错误。其中，错误3114是一个比较常见的错误

2024-03-09 23:15:49

解决Oracle中空表无法成功导出的技巧在Oracle数据库中，有时候在导出数据时会遇到空表无法成功导出的问题。这种情况可能会给数据库管理员带来一定的困扰，因为即使表中没有数据

2024-03-09 23:15:34

如何提升Oracle DBA的权限管理技巧在Oracle数据库管理中，权限管理是至关重要的一项工作。作为一名Oracle DBA，掌握权限管理技巧能够有效地保护数据库的安全性，保障数据的完整性

2024-03-09 23:15:18

在Oracle数据库开发中，编写存储过程来判断表是否存在是一项常见的任务。在数据库开发中，存储过程是一段预先编译的代码块，用于实现特定的功能或逻辑。通过编写存储过程来判断表

2024-03-09 23:15:03

在Oracle数据库中，Blob和Clob是两种用于存储大数据类型的数据字段。Blob代表二进制大对象（Binary Large Object），通常用于存储二进制数据，例如图片、音频、视频等；而Clob代表字符

2024-03-09 23:14:46

Sybase和Oracle都是在企业级数据库领域备受青睐的两大数据库管理系统。它们在功能、性能、可靠性等方面都有各自的优势，并且在实际应用中常常被广泛使用。本文将从不同角度来

2024-03-09 23:14:27

Oracle中的LPAD函数是用来在字符串左侧填充特定字符，使字符串达到指定长度的函数。在实际应用中，LPAD函数常用于处理字符串对齐的需求，尤其是在数据库查询结果展示或报表生成过

2024-03-09 23:14:11

Oracle数据库中存储过程是一种特定类型的存储过程，用于在数据库中执行一系列的SQL语句和数据操作。在实际的数据库开发工作中，有时候我们需要判断某个表是否存在于数据库中，这

2024-03-09 23:13:57

Blob和Clob是Oracle数据库中两种常见的数据类型，用于存储大量的二进制数据和字符数据。本文将分析Blob和Clob数据类型的差异，并从各自的优势和劣势进行比较。一、Blob数据类型

2024-03-09 23:13:42

空表导出是数据库管理中常见的操作，但有时候遇到空表导出却遇到了困难，这时候我们需要使用一些特定的策略和技巧来解决问题。在Oracle数据库中，空表导出的困难通常出现在导出后

2024-03-09 23:13:28

Oracle数据库中的LPAD函数是一种用于在字符串左侧填充指定字符的函数，可以帮助我们对字符串进行格式化处理。LPAD函数的语法为：LPAD(要填充的字符串,总长度,填充字符)。接下来

2024-03-09 23:13:13

2018-08-19

2020-03-22

2020-12-17

2020-03-22

2020-10-15

2021-01-28

2020-03-22

2021-01-21

2020-10-28

聊聊MySQL全文索引怎么解决like模糊匹配查询慢

需求

全文索引介绍

1、发展历史

2、全文索引

3、创建全文索引

4、全文索引使用

中文分词与全文索引

什么是N-gram？

这个上面这个N是怎么去配置的？

查一下目前的值

修改方式

实际使用

初始化测试数据

添加索引

查询

1、使用自然语言模式 NATURAL LANGUAGE MODE 查询

2、使用布尔模式（BOOLEAN MODE）查询

实际使用

注意点

热点内容

免费资源网

在线工具

扫一扫随时看

本站下载频道