Mysql大数据量查询优化思路详析

来自：网络

时间：2022-08-08

阅读：

原因分析：
首先说一下日志查询，在Mysql中如果索引加的比较合适，走索引情况下千万级别查询不会超过一秒，Mysql查询的速度和检索的数据条数有关。在Mybatis中，分页查询是先执行Count记录总数，再执行limit a,b 的方式来进行的，而Mysql的Count计数方式是将所有的数据过滤一遍进行累加，因此当日志表数据过千万时，统计一次就是十几秒钟的时间（这里是服务器环境，本地情况下甚至是几分钟）。
limit a,b的方式也一样，Mysql查询时会先一条一条数到第a条，然后向后再数b条作为查询结果，因此当起始行数越来越大时查询同样会变得很慢，也就是当你点第一页时可能一下就查出来了，当你点最后一页的时候可能几十秒才能查出来。
黑名单库查询优化同理，也是需要通过条件优化。
在进行大批量数据落库时，使用的Mybatis批量插入，发现当批次数据超过3000时速度会急剧变慢，这是一个Mybatis娘胎里自带的问题，也需要进行解决。

解决方案：

这里只简单说明优化的几个方向。

1. 千万级别日志查询的优化

首先说下日志查询，重点是优化无条件是分页查询，在无条件时，不使用MyBatis的分页插件，而是自己手写一个分页查询，由于MySql的count耗时过长，我们先优化他。
优化Count：日志表的数据只增，不会出现中间某条删除，所以他的数据可以理解成是连续的，我们可以在内存中直接进行计数，记录count总数，或者给表添加一个自增的ID字段，直接select max(id)就是总数量，这样count查询的效率会提升到毫秒级别。
自定义分页查询：分页查询中使用优化后的count记录总数，然后使用（page - 1）* pageSize + 1公式计算出当前页的最小ID，然后将limit a,b 的Sql语句改为where ID > 最小ID limit b的方式，这样查询就会走索引先将小于最小ID的数据过滤掉，再进行查询，经过第二步和第三步的优化后分页查询效率缩短到了一秒内，并且不会随着页数的增长而变慢。
条件查询：条件查询只能设置合适的索引，另外慎用like '%条件%‘的方式进行匹配查询，这样会导致索引失效全局检索，模糊查询尽量使用like '条件%' 的方式进行最左匹配，也可以使用explain+sql语句的方式来查看sql语句的执行效率，是否走了所有啥的来针对性的优化，加好合适的索引、优化查询语句后通常一千万以内的数据查询效率会在3秒内。

粘出自定义分页查询结果封装：

 // 手动count
                Integer total = logPushService.queryBackCount(resMap);//查询数量
                // 手动查询结果
                List<InterceptInfo> ls = logPushService.queryBackByPage(resMap);
                PageInfo pageInfo = new PageInfo();
                pageInfo.setTotal(total);
                pageInfo.setPageSize(limit);
                pageInfo.setList(ls);
                pageInfo.setPageNum(pn);

2. 几百万黑名单库的查询优化

黑名单库查询优化只能通过加合适的索引和优化SQL语句来优化，百万级别数据松松的在Mysql和Mybatis的承受范围内，这里是由于黑名单库不是使用递增的，有可能会增加也有可能会删除，所以只能使用优化索引和SQL的方式进行优化。
另外，Mybatis框架提供了重写分页查询count统计语句的方法，只需要将count语句命名为查询方法_COUNT即可，例如分页查询的语句方法是query,那么重写的统计方法即为query_COUNT

 <select id="query_COUNT" parameterType="java.util.Map" resultType="java.lang.Long">
        SELECT
        count(0)
        from nms_intercept_info${map.week}
        where 1=1
        <if test="map.id!=null and map.id!='' ">
            AND id>#{map.id}
        </if>
        <if test="map.url!=null and map.url!='' ">
            AND spliturl=#{map.url}
        </if>
        <if test="map.startTime!=null and map.startTime!='' ">
            AND time <![CDATA[>=]]> #{map.startTime}
        </if>
        <if test="map.endTime!=null and map.endTime!='' ">
            AND time <![CDATA[<=]]> #{map.endTime}
        </if>
        <if test="map.type!=null and map.type!='' ">
            AND bigType = #{map.type}
        </if>
    </select>

3. Mybatis批量插入处理问题

Mybatis批量插入语句中的类集合大小不能超过五千，三千是最佳，这是测试出来的结果，考虑到的原因是Mybatis会将类做反射，这个太影响效率，因此批量插入时要注意这个，如果你能够三千三千的批量处理就限制一下，不要让每批数据超过3000，数据量过大时也可以使用异步非阻塞的方式来插入。
异步非阻塞代码（只是步骤样例,存在代码缺失）：

    // 执行全量HMD导入任务的线程池
    public final static ExecutorService importHasPool = Executors.newFixedThreadPool(10);
    public final static CompletionService<DoExcelResult> importHasPoolService = new ExecutorCompletionService<>(importHasPool);
    
   public synchronized DoExcelResult example() {
            // 开始执行导入
            // 写到这里面方法最后会自动关闭
            long startTime = System.currentTimeMillis();
            // 定义一个集合，记录Callable的执行结果,Callable是带返回值的Runable
            List<Future<DoExcelResult>> futures = new ArrayList<>();
            while ((str = reader.readLine()) != null) {
                if (list.size() > 5000) { // 5000插入一次
                    List<String> list1 = CollectionUtil.copyDepth(list);
                    list.clear();
                    // BlackInfoHasImportlCallable是实现了Callable接口的实现类，Callable是带返回值的Runable
                    Future submit = SysThreadPoolCenter.importHasPoolService.submit(new BlackInfoHasImportlCallable(list1, blacklistInfoMapper));
                    futures.add(submit);
                }
            }
            
            // 等待执行结果
            for (Future<DoExcelResult> future : futures) {
                try {
                // 2. futrue.get时会获取返回值，线程没执行完毕就等待等待执行结果
                    DoExcelResult doExcelResult = future.get();
                    result.setSuccessNum(result.getSuccessNum() + doExcelResult.getSuccessNum());
                    result.setContinueNum(result.getContinueNum() + doExcelResult.getContinueNum());
                    result.setErrorNum(result.getErrorNum() + doExcelResult.getErrorNum());
                } catch (Exception e) {
                    log.error(e);
                }
            }
            // 循环结束代表所有线程执行完毕
            result.setTimeCon((System.currentTimeMillis() - startTime)/1000.0);
            BlacklistService.isDoing = false;
        } catch (Exception e) {
            BlacklistService.isDoing = false;
            log.error(e);
        }
        BlacklistService.isDoing = false;
        return result;
    }

限制每批3000条：

 if (ls.size() >= 3000) {
            //每次保存3000
            double sum = Math.ceil(ls.size() / 3000f);
            for (int i = 0; i < sum; i++) {
                total += blacklistDao.saveBatch(ls.subList(i * 3000, ((i + 1) * 3000) > ls.size() ? ls.size() : (i + 1) * 3000));
            }
        } else {
            total = blacklistDao.saveBatch(ls);
        }

如果你数据库用的不是mysql，而是CK或者其他的大数据处理数据库，批量插入可能要求每秒几万条几十万条，这时就不再适合使用Myabtis框架了，建议使用JDBC连接的方式，自己写代码拼接sql语句，再使用jdbc连接执行（使用线程池），效率上会快很多。

MySQL大小写敏感的处理方式及代码示例MySQL是一种常用的关系型数据库管理系统，它在处理大小写敏感的问题时需要特别注意。在MySQL中，默认情况下是大小写不敏感的，即不区分大小

2024-03-15 21:10:08

MySQL触发器的定义与使用方法详解MySQL触发器是一种特殊的存储过程，可以在表发生特定事件时自动执行。触发器可以用于实现数据的自动化处理、数据一致性维护等功能。本文将

2024-03-15 21:09:41

MySQL数据库中外键的作用及用法详解在MySQL数据库中，外键是用来建立表与表之间关联的重要工具，它能够确保数据完整性，并且提供了一种方式来维护表与表之间的关系。本文将详细介

2024-03-15 21:09:25

MySQL UPDATE语句是否会导致表被锁定？MySQL 是一个流行的关系型数据库管理系统，广泛用于各种应用程序中。在数据库操作中，UPDATE 语句用于更新表中的数据。但是，一个常见的问题

2024-03-15 21:09:08

MySQL中的布尔类型是一种非常实用的数据类型，它用于存储逻辑值，只能取两种值：TRUE或FALSE。在MySQL中，布尔类型也被称为BOOL或BOOLEAN，可以用TINYINT(1)来表示。在本文中，我们将深

2024-03-15 21:08:53

如何设计合理的 MySQL 复合主键？在数据库设计中，主键是一项非常重要的概念，它可以帮助我们唯一地标识每一行数据。在 MySQL 中，我们可以选择使用单一主键或者复合主键。复合主键

2024-03-15 21:08:36

MySQL数据库中unique索引的优势及应用场景在MySQL数据库中，unique索引是一种特殊的索引，它可以保证列中的值是唯一的。在实际应用中，unique索引具有许多优势，并且适用于多种场景

2024-03-15 21:08:22

MySQL 时间戳是一个十分重要的数据类型，它可以存储日期、时间或者日期加时间。在实际的开发过程中，合理地使用时间戳可以提高数据库操作的效率，并且方便进行时间相关的查询和计

2024-03-15 21:08:05

MySQL数据库中的unique索引：用法与注意事项MySQL是一种非常流行的开源关系型数据库管理系统，可以用于存储和管理大量的数据。在MySQL中，我们经常会使用索引来提高数据的检索和

2024-03-15 21:07:48

MySQL.proc表是MySQL数据库中存储存储过程和函数信息的系统表，通过深入了解其结构及用途，可以更好地理解存储过程和函数在MySQL中的运行机制，并进行相关的管理和优化。下面将详

2024-03-15 21:07:32

在数据库管理中，触发器是一种强大的工具，能够帮助我们实现数据库操作的自动化。MySQL作为一款广泛应用的开源数据库管理系统，也提供了触发器功能，我们可以利用MySQL触发器来实现

2024-03-15 21:07:14

MYSQL 一个事务在提交的时候能够保证binlog和redo log是同时提交的，并且能在宕机恢复后保持binlog 和redo log的一致性。先来看看什么是redo log 和binlog，以及为什么要保持它

2024-03-15 00:54:55

转载至我的博客 https://www.infrastack.cn ，公众号：架构成长指南在并发一致性控制场景中，我们常常用for update悲观锁来进行一致性的保证，但是如果不了解它的机制，就进行使用，很

2024-03-13 00:03:43

1 介绍AOF（Append Only File）持久化：以独立日志的方式存储了 Redis 服务器的顺序指令序列，并只记录对内存进行修改的指令。
当Redis服务发生雪崩等故障时，可以重启服务并重新执行

2024-03-12 12:07:28

大家好，我是小康，今天我们来聊下 Redis 的几种架构模式，包括主从复制、哨兵和集群模式。前言：设想一下，你的咖啡馆在城市中太受欢迎，导致每天都人满为患。为了缓解这种压力，你决定

2024-03-11 00:01:36

前言:每次你在游戏中看到玩家排行榜，或者在音乐应用中浏览热门歌单，有没有想过这个排行榜是如何做到实时更新的？当然，依靠 Redis 即可做到。在技术领域，我们经常听到「键值存储」

2024-03-11 00:00:34

2024-03-10 23:58:29

Oracle数据库中修改系统日期方法详解在Oracle数据库中，修改系统日期的方法主要涉及到修改NLS_DATE_FORMAT参数和使用SYSDATE函数。本文将详细介绍这两种方法及其具体的代码示

2024-03-09 23:16:03

解决Oracle错误3114的有效方法分享，需要具体代码示例Oracle数据库是常用的企业级关系型数据库管理系统，但在使用过程中经常会遇到各种错误。其中，错误3114是一个比较常见的错误

2024-03-09 23:15:49

解决Oracle中空表无法成功导出的技巧在Oracle数据库中，有时候在导出数据时会遇到空表无法成功导出的问题。这种情况可能会给数据库管理员带来一定的困扰，因为即使表中没有数据

2024-03-09 23:15:34

如何提升Oracle DBA的权限管理技巧在Oracle数据库管理中，权限管理是至关重要的一项工作。作为一名Oracle DBA，掌握权限管理技巧能够有效地保护数据库的安全性，保障数据的完整性

2024-03-09 23:15:18

在Oracle数据库开发中，编写存储过程来判断表是否存在是一项常见的任务。在数据库开发中，存储过程是一段预先编译的代码块，用于实现特定的功能或逻辑。通过编写存储过程来判断表

2024-03-09 23:15:03

在Oracle数据库中，Blob和Clob是两种用于存储大数据类型的数据字段。Blob代表二进制大对象（Binary Large Object），通常用于存储二进制数据，例如图片、音频、视频等；而Clob代表字符

2024-03-09 23:14:46

Sybase和Oracle都是在企业级数据库领域备受青睐的两大数据库管理系统。它们在功能、性能、可靠性等方面都有各自的优势，并且在实际应用中常常被广泛使用。本文将从不同角度来

2024-03-09 23:14:27

Oracle中的LPAD函数是用来在字符串左侧填充特定字符，使字符串达到指定长度的函数。在实际应用中，LPAD函数常用于处理字符串对齐的需求，尤其是在数据库查询结果展示或报表生成过

2024-03-09 23:14:11

Oracle数据库中存储过程是一种特定类型的存储过程，用于在数据库中执行一系列的SQL语句和数据操作。在实际的数据库开发工作中，有时候我们需要判断某个表是否存在于数据库中，这

2024-03-09 23:13:57

Blob和Clob是Oracle数据库中两种常见的数据类型，用于存储大量的二进制数据和字符数据。本文将分析Blob和Clob数据类型的差异，并从各自的优势和劣势进行比较。一、Blob数据类型

2024-03-09 23:13:42

空表导出是数据库管理中常见的操作，但有时候遇到空表导出却遇到了困难，这时候我们需要使用一些特定的策略和技巧来解决问题。在Oracle数据库中，空表导出的困难通常出现在导出后

2024-03-09 23:13:28

Oracle数据库中的LPAD函数是一种用于在字符串左侧填充指定字符的函数，可以帮助我们对字符串进行格式化处理。LPAD函数的语法为：LPAD(要填充的字符串,总长度,填充字符)。接下来

2024-03-09 23:13:13

2018-08-19

2020-03-22

2020-12-17

2020-03-22

2020-10-15

2021-01-28

2020-03-22

2021-01-21

2020-10-28

Mysql大数据量查询优化思路详析

目录

1. 千万级别日志查询的优化

2. 几百万黑名单库的查询优化

3. Mybatis批量插入处理问题

MySQL大小写敏感的处理方式

MySQL触发器的定义与使用方法详解

MySQL触发器的定义与使用方法详解

MySQL数据库中外键的作用及用法详解

MySQL UPDATE语句是否会导致表被锁定？

深入理解MySQL中的布尔类型

如何设计合理的 MySQL 复合主键？

MySQL数据库中unique索引的优势及应用场景

理解MySQL时间戳：功能、特性与应用场景

MySQL数据库中的unique索引：用法与注意事项

深入解析MySQL.proc表的结构及用途

如何利用MySQL触发器实现数据库操作自动化

MYSQL 是如何保证binlog 和redo log同时提交的？

mysql for update是锁表还是锁行

Redis稳定性之战：AOF日志支撑数据持久化

Redis 架构深入：主从复制、哨兵到集群

全面解析 Redis 持久化：RDB、AOF与混合持久化

Redis 常见数据类型(对象类型)和应用案列

Oracle数据库中修改系统日期方法详解

解决Oracle错误3114的有效方法分享

解决Oracle中空表无法成功导出的技巧

如何提升Oracle DBA的权限管理技巧

Oracle数据库开发：编写存储过程判断表是否存在

Oracle数据库中Blob和Clob的区别及使用场景详解

从不同角度看Sybase和Oracle数据库的异同

Oracle LPAD函数实例演示：学会利用LPAD函数处理字符串对齐

Oracle存储过程：判断表是否存在的实现方法

Oracle数据库中Blob和Clob数据类型的差异及优劣势分析

Oracle数据库中空表导出遇到困难时的应对策略

Oracle LPAD函数示例：如何在字符串左侧填充指定字符

热点内容

免费资源网

在线工具

扫一扫随时看

本站下载频道