Apache Hudi性能提升三倍的查询优化

来自：网络

时间：2023-01-06

阅读：

1. 背景

Amazon EMR 团队最近发表了一篇很不错的文章展示了对数据进行聚簇是如何提高查询性能的，为了更好地了解发生了什么以及它与空间填充曲线的关系，让我们仔细研究该文章的设置。

文章中比较了 2 个 Apache Hudi 表（均来自 Amazon Reviews 数据集）：

未聚簇的 amazon_reviews 表（即数据尚未按任何特定键重新排序）

amazon_reviews_clustered 聚簇表。当数据被聚簇后，数据按字典顺序排列（这里我们将这种排序称为线性排序），排序列为star_rating、total_votes两列（见下图）

为了展示查询性能的改进，对这两个表执行以下查询：

这里要指出的重要考虑因素是查询指定了排序的两个列（star_rating 和 total_votes）。但不幸的是这是线性/词典排序的一个关键限制，如果添加更多列，排序的价值会会随之减少。

从上图可以看到，对于按字典顺序排列的 3 元组整数，只有第一列能够对所有具有相同值的记录具有关键的局部性属性：例如所有记录都具有以“开头的值” 1"、"2"、"3"（在第一列中）很好地聚簇在一起。但是如果尝试在第三列中查找所有值为"5"的值，会发现这些值现在分散在所有地方，根本没有局部性，过滤效果很差。

提高查询性能的关键因素是局部性：它使查询能够显着减少搜索空间和需要扫描、解析等的文件数量。

但是这是否意味着如果我们按表排序的列的第一个（或更准确地说是前缀）以外的任何内容进行过滤，我们的查询就注定要进行全面扫描？不完全是，局部性也是空间填充曲线在枚举多维空间时启用的属性（我们表中的记录可以表示为 N 维空间中的点，其中 N 是我们表中的列数）

那么它是如何工作的？我们以 Z 曲线为例：拟合二维平面的 Z 阶曲线如下所示：

可以看到按照路径，不是简单地先按一个坐标 ("x") 排序，然后再按另一个坐标排序，它实际上是在对它们进行排序，就好像这些坐标的位已交织成单个值一样：

在线性排序的情况下局部性仅使用第一列相比，该方法的局部性使用到所有列。

以类似的方式，希尔伯特曲线允许将 N 维空间中的点（我们表中的行）映射到一维曲线上，基本上对它们进行排序，同时仍然保留局部性的关键属性，在此处阅读有关希尔伯特曲线的更多详细信息，到目前为止我们的实验表明，使用希尔伯特曲线对数据进行排序会有更好的聚簇和性能结果。

现在让我们来看看它的实际效果！

2. 设置

我们将再次使用 Amazon Reviews 数据集，但这次我们将使用 Hudi 按 product_id、customer_id 列元组进行 Z-Order排序，而不是聚簇或线性排序。

数据集不需要特别的准备，可以直接从 S3 中以 Parquet 格式下载并将其直接用作 Spark 将其摄取到 Hudi 表。

启动spark-shell

./bin/spark-shell --master 'local[4]' --driver-memory 8G --executor-memory 8G \

  --jars ../../packaging/hudi-spark-bundle/target/hudi-spark3-bundle_2.12-0.10.0.jar \

  --packages org.apache.spark:spark-avro_2.12:2.4.4 \

  --conf 'spark.serializer=org.apache.spark.serializer.KryoSerializer'

导入Hudi表

import org.apache.hadoop.fs.{FileStatus, Path}
import scala.collection.JavaConversions._
import org.apache.spark.sql.SaveMode._
import org.apache.hudi.{DataSourceReadOptions, DataSourceWriteOptions}
import org.apache.hudi.DataSourceWriteOptions._
import org.apache.hudi.common.fs.FSUtils
import org.apache.hudi.common.table.HoodieTableMetaClient
import org.apache.hudi.common.util.ClusteringUtils
import org.apache.hudi.config.HoodieClusteringConfig
import org.apache.hudi.config.HoodieWriteConfig._
import org.apache.spark.sql.DataFrame
import java.util.stream.Collectors
val layoutOptStrategy = "z-order"; // OR "hilbert"
val inputPath = s"file:///${System.getProperty("user.home")}/datasets/amazon_reviews_parquet"
val tableName = s"amazon_reviews_${layoutOptStrategy}"
val outputPath = s"file:///tmp/hudi/$tableName"
def safeTableName(s: String) = s.replace('-', '_')
val commonOpts =
  Map(
    "hoodie.compact.inline" -> "false",
    "hoodie.bulk_insert.shuffle.parallelism" -> "10"
  )
////////////////////////////////////////////////////////////////
// Writing to Hudi
////////////////////////////////////////////////////////////////
val df = spark.read.parquet(inputPath)
df.write.format("hudi")
  .option(DataSourceWriteOptions.TABLE_TYPE.key(), COW_TABLE_TYPE_OPT_VAL)
  .option("hoodie.table.name", tableName)
  .option(PRECOMBINE_FIELD.key(), "review_id")
  .option(RECORDKEY_FIELD.key(), "review_id")
  .option(DataSourceWriteOptions.PARTITIONPATH_FIELD.key(), "product_category")
  .option("hoodie.clustering.inline", "true")
  .option("hoodie.clustering.inline.max.commits", "1")
  // NOTE: Small file limit is intentionally kept _ABOVE_ target file-size max threshold for Clustering,
  // to force re-clustering
  .option("hoodie.clustering.plan.strategy.small.file.limit", String.valueOf(1024 * 1024 * 1024)) // 1Gb
  .option("hoodie.clustering.plan.strategy.target.file.max.bytes", String.valueOf(128 * 1024 * 1024)) // 128Mb
  // NOTE: We're increasing cap on number of file-groups produced as part of the Clustering run to be able to accommodate for the 
  // whole dataset (~33Gb)
  .option("hoodie.clustering.plan.strategy.max.num.groups", String.valueOf(4096))
  .option(HoodieClusteringConfig.LAYOUT_OPTIMIZE_ENABLE.key, "true")
  .option(HoodieClusteringConfig.LAYOUT_OPTIMIZE_STRATEGY.key, layoutOptStrategy)
  .option(HoodieClusteringConfig.PLAN_STRATEGY_SORT_COLUMNS.key, "product_id,customer_id")
  .option(DataSourceWriteOptions.OPERATION.key(), DataSourceWriteOptions.BULK_INSERT_OPERATION_OPT_VAL)
  .option(BULK_INSERT_SORT_MODE.key(), "NONE")
  .options(commonOpts)
  .mode(ErrorIfExists)

3. 测试

每个单独的测试请在单独的 spark-shell 中运行，以避免缓存影响测试结果。

////////////////////////////////////////////////////////////////
// Reading
///////////////////////////////////////////////////////////////

// Temp Table w/ Data Skipping DISABLED
val readDf: DataFrame =
  spark.read.option(DataSourceReadOptions.ENABLE_DATA_SKIPPING.key(), "false").format("hudi").load(outputPath)

val rawSnapshotTableName = safeTableName(s"${tableName}_sql_snapshot")

readDf.createOrReplaceTempView(rawSnapshotTableName)


// Temp Table w/ Data Skipping ENABLED
val readDfSkip: DataFrame =
  spark.read.option(DataSourceReadOptions.ENABLE_DATA_SKIPPING.key(), "true").format("hudi").load(outputPath)

val dataSkippingSnapshotTableName = safeTableName(s"${tableName}_sql_snapshot_skipping")

readDfSkip.createOrReplaceTempView(dataSkippingSnapshotTableName)

// Query 1: Total votes by product_category, for 6 months
def runQuery1(tableName: String) = {
  // Query 1: Total votes by product_category, for 6 months
  spark.sql(s"SELECT sum(total_votes), product_category FROM $tableName WHERE review_date > '2013-12-15' AND review_date < '2014-06-01' GROUP BY product_category").show()
}

// Query 2: Average star rating by product_id, for some product
def runQuery2(tableName: String) = {
  spark.sql(s"SELECT avg(star_rating), product_id FROM $tableName WHERE product_id in ('B0184XC75U') GROUP BY product_id").show()
}

// Query 3: Count number of reviews by customer_id for some 5 customers
def runQuery3(tableName: String) = {
  spark.sql(s"SELECT count(*) as num_reviews, customer_id FROM $tableName WHERE customer_id in ('53096570','10046284','53096576','10000196','21700145') GROUP BY customer_id").show()
}

//
// Query 1: Is a "wide" query and hence it's expected to touch a lot of files
//
scala> runQuery1(rawSnapshotTableName)
+----------------+--------------------+
|sum(total_votes)|    product_category|
+----------------+--------------------+
|         1050944|                  PC|
|          867794|             Kitchen|
|         1167489|                Home|
|          927531|            Wireless|
|            6861|               Video|
|           39602| Digital_Video_Games|
|          954924|Digital_Video_Dow...|
|           81876|             Luggage|
|          320536|         Video_Games|
|          817679|              Sports|
|           11451|  Mobile_Electronics|
|          228739|  Home_Entertainment|
|         3769269|Digital_Ebook_Pur...|
|          252273|                Baby|
|          735042|             Apparel|
|           49101|    Major_Appliances|
|          484732|             Grocery|
|          285682|               Tools|
|          459980|         Electronics|
|          454258|            Outdoors|
+----------------+--------------------+
only showing top 20 rows

scala> runQuery1(dataSkippingSnapshotTableName)
+----------------+--------------------+
|sum(total_votes)|    product_category|
+----------------+--------------------+
|         1050944|                  PC|
|          867794|             Kitchen|
|         1167489|                Home|
|          927531|            Wireless|
|            6861|               Video|
|           39602| Digital_Video_Games|
|          954924|Digital_Video_Dow...|
|           81876|             Luggage|
|          320536|         Video_Games|
|          817679|              Sports|
|           11451|  Mobile_Electronics|
|          228739|  Home_Entertainment|
|         3769269|Digital_Ebook_Pur...|
|          252273|                Baby|
|          735042|             Apparel|
|           49101|    Major_Appliances|
|          484732|             Grocery|
|          285682|               Tools|
|          459980|         Electronics|
|          454258|            Outdoors|
+----------------+--------------------+
only showing top 20 rows

//
// Query 2: Is a "pointwise" query and hence it's expected that data-skipping should substantially reduce number 
// of files scanned (as compared to Baseline)
//
// NOTE: That Linear Ordering (as compared to Space-curve based on) will have similar effect on performance reducing
// total # of Parquet files scanned, since we're querying on the prefix of the ordering key
//
scala> runQuery2(rawSnapshotTableName)
+----------------+----------+
|avg(star_rating)|product_id|
+----------------+----------+
|             1.0|B0184XC75U|
+----------------+----------+


scala> runQuery2(dataSkippingSnapshotTableName)
+----------------+----------+
|avg(star_rating)|product_id|
+----------------+----------+
|             1.0|B0184XC75U|
+----------------+----------+

//
// Query 3: Similar to Q2, is a "pointwise" query, but querying other part of the ordering-key (product_id, customer_id)
// and hence it's expected that data-skipping should substantially reduce number of files scanned (as compared to Baseline, Linear Ordering).
//
// NOTE: That Linear Ordering (as compared to Space-curve based on) will _NOT_ have similar effect on performance reducing
// total # of Parquet files scanned, since we're NOT querying on the prefix of the ordering key
//
scala> runQuery3(rawSnapshotTableName)
+-----------+-----------+
|num_reviews|customer_id|
+-----------+-----------+
|         50|   53096570|
|          3|   53096576|
|         25|   10046284|
|          1|   10000196|
|         14|   21700145|
+-----------+-----------+

scala> runQuery3(dataSkippingSnapshotTableName)
+-----------+-----------+
|num_reviews|customer_id|
+-----------+-----------+
|         50|   53096570|
|          3|   53096576|
|         25|   10046284|
|          1|   10000196|
|         14|   21700145|
+-----------+-----------+

4. 结果

我们总结了以下的测试结果

可以看到多列线性排序对于按列（Q2、Q3）以外的列进行过滤的查询不是很有效，这与空间填充曲线（Z-order 和 Hilbert）形成了非常明显的对比，后者将查询时间加快多达 3倍。值得注意的是性能提升在很大程度上取决于基础数据和查询，在我们内部数据的基准测试中，能够实现超过 11倍 的查询性能改进！

5. 总结

Apache Hudi v0.10 为开源带来了新的布局优化功能 Z-order 和 Hilbert。使用这些行业领先的布局优化技术可以为用户查询带来显着的性能提升和成本节约！

以上就是Apache Hudi性能提升三倍的查询优化的详细内容，更多关于Apache Hudi查询优化的资料请关注其它相关文章！

丢失数据的本质在本文开始前，首先明白一个点，平时我们说的组件数据不丢失究竟是在指什么，如果你往ES写入数据，ES返回给你写入错误，这个不算数据丢失。如果你往ES写入数据，ES返回给

2024-03-13 00:00:59

引言在网络环境中，有时候我们需要让局域网内的电脑访问外网，但是由于网络策略或其他原因，直接访问外网是不可行的。这时候，可以借助 Nginx 来搭建一个正向代理服务器，实现局域网

2024-03-12 23:58:37

netcat 命令介绍及使用示例nc（netcat）是一个强大的网络工具，它可以用于读取和写入数据流，支持 TCP 和 UDP 协议。它常被用于网络调试和网络服务的创建。一、安装方法centos 中，执

2024-03-08 22:33:26

接触过 Linux 的小伙伴们都知道在 Linux （或者说类 Unix）中，有三种类型的用户：超级用户（UID 为 0）：即 root 用户，拥有最高权限。系统用户（UID 为 1~999）：系统内建用户，用于运行系统服

2024-03-01 20:34:50

1 背景说明在做系统集群部署时,涉及到两个或多个服务器之间文件同步.在软件层面linux服务环境找到以下两种同步方式利用linux NFS功能将网络共享文件挂载成本地目录采用文

2024-03-01 11:54:51

这篇文章主要介绍了 Docker 如何利用 Linux 的 Control Groups（cgroups）实现容器的资源隔离和管理。最后通过简单 Demo 演示了如何使用 Go 和 cgroups 交互。如果你对云原生技

2024-02-26 22:19:08

通过这篇文章你可以了解到 Docker 容器的核心实现原理，包括 Namespace、Cgroups、Rootfs 等三个核心功能。如果你对云原生技术充满好奇，想要深入了解更多相关的文章和资讯，欢迎

2024-02-26 22:18:00

本文为从零开始写 Docker 系列第二篇，主要在 mydocker run 命令基础上优化参数传递方式，改为使用 runC 同款的匿名管道传递参数。完整代码见：https://github.com/lixd/mydocker

2024-02-26 22:17:36

本文为从零开始写 Docker 系列第一篇，主要实现 mydocker run 命令，构造了一个具有基本的 Namespace 隔离的简单容器。如果你对云原生技术充满好奇，想要深入了解更多相关的文章

2024-02-26 22:17:04

哈喽大家好，我是咸鱼。之前写过两篇关于 SSL 过期巡检脚本的文章： SSL 证书过期巡检脚本 SSL 证书过期巡检脚本(Python 版)这两篇文章都是讲如何通过脚本去自动检测 SSL 过期

2024-02-26 22:09:11

why 为什么要搭建此开发环境? 在linux环境下开发可以利用shell命令实现对文件的批处理伟大的程序员应该都用类unix系统! 可以实现对底层编译技术的了解,以便于更好的掌握嵌

2024-02-07 19:09:41

简介Nginx是一个高性能的HTTP和反向代理web服务器，同时也提供了IMAP/POP3/SMTP服务。其特点是占有内存少，并发能力强，在同类型的网页服务器中表现较好。此外，Nginx也可以作为一

2024-01-30 20:44:23

虚拟主机是一种特殊的软硬件技术，它可以将网络上的每一台计算机分成多个虚拟主机，每个虚拟主机可以独立对外提供www服务，这样就可以实现一台主机对外提供多个web服务，每个虚拟主

2024-01-30 20:43:52

nginx进程结构linux 信号量管理机制[root@VM-8-17-centos nginx]# kill -l 1) SIGHUP 2) SIGINT 3) SIGQUIT 4) SIGILL 5) SIGTRAP 6) SIGABRT

2024-01-30 20:42:44

本站的环境搭建用的军哥的 LNMP PHP 版本是 7.3.33 想用 PHP 8.0 但是有些客观的原因存在暂时无法使用。今天事情不多就把 LNMP PHP 的版本升级一下，把 PHP 升级到 7.4.29 如

2024-01-28 21:29:42

在我内网的 HomeLab 上部署 NextCloud 测试用。在部署的过程中需要用到 PHP 的 smbclient 这个扩展，就是在 NextCloud 上挂载我群晖的 SMB 共享作为存储。已经部署了 LNMP 环

2024-01-28 21:27:59

本篇教程是教大家如何使用群晖的 Active Backup for Business 套件来备份网站已经打包的压缩文件或者其他文件。无论你的网站环境是 LNMP 还是使用的宝塔，都可以使用这个教程

2024-01-28 21:23:05

Kickstart 是什么？kickstart是一个定义了Linux安装过程的配置文件，比如要在系统中使用的时区、如何对驱动器进行分区、或者应该安装哪些软件包。有了这个文件可以解放双手，让Li

2024-01-28 21:21:48

LNMP 的网站备份是压缩格式，但是数据库不是压缩格式。今天这篇文章是教大家如何让数据库备份为压缩格式。此方法来源于 LNMP 官方论坛。有需要的童鞋可以照着修改就可以了。

2024-01-28 21:21:00

Linux Shell 脚本入门教程Linux Shell 脚本是一种强大的工具，它允许您自动化日常任务和复杂操作。在本教程中，我们将逐步介绍几个实用的 Shell 脚本示例。每个示例都将详细说

2024-01-28 15:48:16

Linux操作系统具有多种安全策略，以下是其中一些常见的安全策略：访问控制：使用权限和访问控制列表（ACL）来限制用户对文件和目录的访问权限。可以使用chmod、chown等命令来设置文

2024-01-24 15:28:17

公司的一个商城项目，然后配置完参数，本来应该可以跑起来的，最近做了一次服务器迁移，打开后台发现浏览器提示重定向次数过多追踪代码调试，发现是$_SERVER['PHP_SELF']的值

2024-01-24 15:28:04

分布式架构是一种将系统拆分为多个独立的组件或服务，并在不同的计算节点上部署这些组件或服务的架构方式。它可以提供高性能和可用性的好处。下面我将详细介绍分布式架构在高

2024-01-24 15:27:42

将服务从 HTTP 变为 HTTPS，需要进行 SSL 证书的配置。需要完成一下步骤：获取 SSL 证书安装 SSL 证书配置 Nginx 支持 HTTPS 重启 Nginx HTTP 到 HTTPS 的重定向（可选）1. 获取

2024-01-24 15:27:26

总结/朱季谦在日常开发或者编程当中，经常需要用到redis集群，若是按照传统的方式，一个机器一个机器搭建，难免过于繁琐，故而可以通过dock er-compose编排方式，快速搭建。我在搭建过

2024-01-24 15:26:59

转载请注明出处：香吧香　　EOF（End of File）在Shell中通常用于指示输入的结束，并在脚本或命令中进行多行输入。它允许用户指定一个特定的分界符来表示输入的结束，通常用于创建临

2024-01-24 15:26:27

Prometheus 是一个时序数据库，存数据exporter是收集器，来收集被监控的数据，想要监控不同的内容，就使用不同的exporter，这个exporter应该放在被测服务器上，再把exporter和Prometheu

2024-01-24 15:25:59

公众号「架构成长指南」，专注于生产实践、云原生、分布式系统、大数据技术分享前言K8s本身不包含内置的监控工具，所以市场上有不少这样监控工具来填补这一空白，但是没有一个监

2024-01-24 15:25:39

在深入理解 Docker 核心原理：Namespace、Cgroups 和 Rootfs 一文中我们分析了 Docker 是由三大核心技术实现的。今天就一起分析 Docker 三大核心技术之一的 Linux Namespace

2024-01-24 15:25:18

前言linux以及嵌入式一些代码，我们看到core_initcall、device_initcall等等需要链接器分配各个section，并且在启动该模块时候执行。下面我们详细追溯一下执行过程。作者：良知犹

2024-01-24 15:24:55

2020-07-31

2019-11-21

2019-08-07

2018-09-24

2020-03-22

2019-02-16

2019-11-17

2018-10-07

2018-10-04

Apache Hudi性能提升三倍的查询优化

目录

1. 背景

2. 设置

3. 测试

4. 结果

5. 总结

热点内容

免费资源网

在线工具

扫一扫随时看

本站下载频道