Apache Hudi基于华米科技应用湖仓一体化改造

来自：网络

时间：2023-01-06

阅读：

1. 应用背景及痛点介绍

华米科技是一家基于云的健康服务提供商，拥有全球领先的智能可穿戴技术。在华米科技，数据建设主要围绕两类数据：设备数据和APP数据，这些数据存在延迟上传、更新频率高且广、可删除等特性，基于这些特性，前期数仓ETL主要采取历史全量+增量模式来每日更新数据。随着业务的持续发展，现有数仓基础架构已经难以较好适应数据量的不断增长，带来的显著问题就是成本的不断增长和产出效率的降低。

针对数仓现有基础架构存在的问题，我们分析了目前影响成本和效率的主要因素如下：

更新模式过重，存在较多数据的冗余更新增量数据的分布存在长尾形态，故每日数仓更新需要加载全量历史数据来做增量数据的整合更新，整个更新过程存在大量历史数据的冗余读取与重写，带来的过多的成本浪费，同时影响了更新效率；
回溯成本高，多份全量存储带来的存储浪费，数仓设计中为了保证用户可以访问数据某个时间段的历史状态，会将全量数据按照更新日期留存多份，故大量未变化的历史冷数据会被重复存储多份，带来存储浪费；

为了解决上述问题，保证数仓的降本提效目标，我们决定引入数据湖来重构数仓架构，架构如下：

业务数据源实时接入Kafka，Flink接Kafka构建ODS实时增量数据层，实时ODS增量层主要作用有两方面：
- 依赖ODS实时增量数据（保留原始格式，不做清洗转化）每日离线入湖来构建ODS层离线湖仓，ODS层数据后续作为业务数据的备份、满足DWD层全量数据重做需求；
- 对ODS实时增量数据进行清洗、转换，编码后，每日增量数据离线写入DWD层，构建DWD层离线湖仓；
DWS层定义为主题公共宽表层，主要是对DWD层和DIM维度层各表信息，根据业务需求做多表关联转换整合，为业务和分析人员提供更易用的模型数据
OLAP层会提供强大的数据快速查询能力，作为对外的统一查询入口，用户直接通过OLAP引擎来即席查询分析湖仓中所有的表数据
ADS层会依赖其他各层数据来对业务提供定制化的数据服务

2. 技术方案选型

	Hudi	Iceberg	Delta
引擎支持	Spark、Flink	Spark、Flink	Spark
原子语义	Delete/Update/Merge	Insert/Merge	Delete/Update/Merge
流式写入	支持	支持	支持
文件格式	Avro、Parquet、ORC	Avro、Parquet、ORC	Parquet
MOR能力	支持	不支持	不支持
Schema Evolution	支持	支持	支持
Cleanup能力	自动	手动	手动
Compaction	自动/手动	手动	手动
小文件管理	自动	手动	手动

基于上述我们比较关心的指标进行对比。Hudi可以很好的在任务执行过程中进行小文件合并，大大降低了文件治理的复杂度，依据业务场景所需要的原子语义、小文件管理复杂度以及社区活跃度等方面综合考量，我们选择Hudi来进行湖仓一体化改造。

3. 问题与解决方案

3.1.增量数据字段对齐问题

华米数据云端由于业务原因会产生表Schema变更需求，从而避免因Schema变更而重做历史Base数据带来的高额计算成本。但由于新增产生的数据实体字段相对位置的乱序问题，导致入湖同步Hive的过程中产生异常。针对该问题，华米大数据团队也在和社区联动，解决数据字段对齐问题。在社区支持更完善的Schema Evolution之前，当前华米大数据团队的解决方案为：根据历史Base数据的Schema顺序重新对增量数据Schema顺序做编排，然后统一增量入湖。具体处理流程如下图所示：历史Base数据的Schema顺序为{id, fdata, tag, uid}，增量数据的Schema{id, fdata, extract, tag, uid}，可见新增extract字段顺序打乱了原先历史Base数据的Schema，可以根据所读取的历史数据Schema顺序对新增数据进行调整：

将{id, fdata, extract, tag, uid}变更为{id, fdata, tag, uid, extract}，然后调用Schema Evolution给历史Base数据的Schema添加一个extract字段，最终将调整后的增量数据写入历史Base。

3.2 全球存储兼容性问题

华米大数据存储涉及多种存储（HDFS，S3，KS3），华米大数据团队新增对KS3存储的支持并合入社区代码，在Hudi0.9版本后可以支持KS3存储。

3.3 云主机时区统一问题

由于华米全球各个数据中心采用按需方式进行节点扩容，申请得到的云主机可能会出现节点时区不一致，从而会造成commit失败，我们对Hudi源码进行了改造，在hudi源码中统一了Timeline的时区（UTC）时间来保证时区统一，避免commitTime回溯导致的Commit失败。

3.4 升级新版本问题

在Hudi0.9升级到0.10版本中，会发现出现版本因version不一致造成的数据更新失败问题。出现的不一致问题已经反馈至社区，社区相关同学正在解决，现在我们暂时使用重建元数据表（直接删除metadata目标）来解决该问题，再次执行作业时，Hudi会自动重新构建元数据表。

3.5 多分区Upsert性能问题

Hudi on Spark需要根据增量数据所在的分区采集文件的索引文件，更新分区过多的情况下，性能较差。针对这一问题，目前我们通过两个层面来进行处理：

推进上游进行数据治理，尽可能控制延迟数据，重复数据的上传
代码层进行优化，设定时间范围开关，控制每日入湖的数据在设定时间范围内，避免延迟较久的极少量数据入湖降低表每日更新性能；对于延迟较久的数据汇集后定期入湖，从而降低整体任务性能开销

3.6 数据特性适应问题

从数据入湖的性能测试中来看，Hudi性能跟数据组织的策略有较大的关系，具体体现在以下几个方面：

联合主键多字段的顺序决定了Hudi中的数据排序，影响了后续数据入湖等性能；主键字段的顺序决定了hudi中数据的组织方式，排序靠近的数据会集中分布在一起，可利用这个排序特性结合更新数据的分布特性，以尽可能减少入湖命中的base文件数据，提升入湖性能；
数据湖中文件块记录条数与布隆过滤器参数的适应关系，影响了索引构建的性能；在使用布隆过滤器时，官方给出的默认存储在布隆过滤器中的条目数为6万(假设maxParquetFileSize为128MB，averageRecordSize为1024)，如果数据较为稀疏或者数据可压缩性比较高的话，每个文件块可能会存储的记录数远大于6万，从而导致每次索引查找过程中会扫描更多的base文件，非常影响性能，建议根据业务数据的特性适当调整该值，入湖性能应该会有较好的提升；

4. 上线收益

从业务场景和分析需求出发，我们主要对比了实时数据湖模式和离线数据湖模式的成本与收益，实时成本远高于离线模式。鉴于目前业务实时需求并不是很高，故华米数仓在引入数据湖时暂采取Hudi + Spark离线更新模式来构建湖仓ODS原始层和DWD明细层，从测试对比和上线情况来看，收益总结如下：

4.1 成本方面

引入Hudi数据湖技术后，数据仓库整体成本有一定程度的下降，预计会降低1/4~1/3的费用。主要在于利用Hudi数据湖提供的技术能力，可以较好的解决应用背景部分阐述的两大痛点，节约数仓Merge更新与存储两部分的费用开销。

4.2 效率方面

Hudi利用索引更新机制避免了每次全量更新表数据，使得数仓表每次更新避免了大量的冗余数据的读取与写入操作，故而表的更新效率有了一定的提升。从我们数仓+BI报表整体链条层面来看，整体报表产出时间会有一定程度的提前。

4.3 稳定性层面

程序稳定性层面暂时没有详细评估，结合实际场景说下目前情况：

中大表更新引入Hudi会相对较为稳定。基于Aws Spot Instance机制，对于数据量过大的表，每次全量shuffle的数据量过大，会导致拉取数据的时间过长，Spot机器掉线，程序重试甚至失败，或者内存原因导致的fetch失败，造成任务的不稳定。引入Hudi后，可以很大程度减少每次shuffle的数据量，有效缓解这一问题；
Hudi的Metadata表机制功能稳定性待继续完善，开启后影响程序稳定性。考虑提升程序性能，前期开启了Metadata表，程序运行一段时间后会出现报错，影响错误已经反馈给社区，暂时关闭该功能，待稳定后再开启；

4.4 查询性能层面

Hudi写入文件时根据主键字段排序后写入，每个Parquet文件中记录是按照主键字段排序，在使用Hive或者Spark查询时，可以很好的利用Parquet谓词下推特性，快速过滤掉无效数据，相对之前的数仓表，有更好的查询效率。

5. 总结与展望

从数据湖上线和测试过程来看，目前数据湖能解决我们的一些数仓痛点，但是依然存在一些问题。

总结如下

Hudi on Spark 布隆过滤器查找与构建索引过程性能尚待提升，由于华米数据分布特性（更新频率多，范围广），现阶段部分大表的更新性能提升有待加强；
Metadata表的使用是为了提升整体入湖性能，但目前由于稳定性问题暂时关闭，后续会持续关注社区Metadata表的改进；
更新数据分布特性的研究至关重要，决定着如何组织数据湖中的数据分布，较大影响着任务性能，这块需要后续做进一步优化；

展望如下

利用Flink + Hudi技术栈搭建实时数仓，构建kafka -> ods -> dwd -> olap的实时数据链条，满足业务近实时需求
索引优化方案 -> HBase构建二级索引

以上就是Apache Hudi基于华米科技应用湖仓一体化改造的详细内容，更多关于Apache Hudi华米科技应用改造的资料请关注其它相关文章！

丢失数据的本质在本文开始前，首先明白一个点，平时我们说的组件数据不丢失究竟是在指什么，如果你往ES写入数据，ES返回给你写入错误，这个不算数据丢失。如果你往ES写入数据，ES返回给

2024-03-13 00:00:59

引言在网络环境中，有时候我们需要让局域网内的电脑访问外网，但是由于网络策略或其他原因，直接访问外网是不可行的。这时候，可以借助 Nginx 来搭建一个正向代理服务器，实现局域网

2024-03-12 23:58:37

netcat 命令介绍及使用示例nc（netcat）是一个强大的网络工具，它可以用于读取和写入数据流，支持 TCP 和 UDP 协议。它常被用于网络调试和网络服务的创建。一、安装方法centos 中，执

2024-03-08 22:33:26

接触过 Linux 的小伙伴们都知道在 Linux （或者说类 Unix）中，有三种类型的用户：超级用户（UID 为 0）：即 root 用户，拥有最高权限。系统用户（UID 为 1~999）：系统内建用户，用于运行系统服

2024-03-01 20:34:50

1 背景说明在做系统集群部署时,涉及到两个或多个服务器之间文件同步.在软件层面linux服务环境找到以下两种同步方式利用linux NFS功能将网络共享文件挂载成本地目录采用文

2024-03-01 11:54:51

这篇文章主要介绍了 Docker 如何利用 Linux 的 Control Groups（cgroups）实现容器的资源隔离和管理。最后通过简单 Demo 演示了如何使用 Go 和 cgroups 交互。如果你对云原生技

2024-02-26 22:19:08

通过这篇文章你可以了解到 Docker 容器的核心实现原理，包括 Namespace、Cgroups、Rootfs 等三个核心功能。如果你对云原生技术充满好奇，想要深入了解更多相关的文章和资讯，欢迎

2024-02-26 22:18:00

本文为从零开始写 Docker 系列第二篇，主要在 mydocker run 命令基础上优化参数传递方式，改为使用 runC 同款的匿名管道传递参数。完整代码见：https://github.com/lixd/mydocker

2024-02-26 22:17:36

本文为从零开始写 Docker 系列第一篇，主要实现 mydocker run 命令，构造了一个具有基本的 Namespace 隔离的简单容器。如果你对云原生技术充满好奇，想要深入了解更多相关的文章

2024-02-26 22:17:04

哈喽大家好，我是咸鱼。之前写过两篇关于 SSL 过期巡检脚本的文章： SSL 证书过期巡检脚本 SSL 证书过期巡检脚本(Python 版)这两篇文章都是讲如何通过脚本去自动检测 SSL 过期

2024-02-26 22:09:11

why 为什么要搭建此开发环境? 在linux环境下开发可以利用shell命令实现对文件的批处理伟大的程序员应该都用类unix系统! 可以实现对底层编译技术的了解,以便于更好的掌握嵌

2024-02-07 19:09:41

简介Nginx是一个高性能的HTTP和反向代理web服务器，同时也提供了IMAP/POP3/SMTP服务。其特点是占有内存少，并发能力强，在同类型的网页服务器中表现较好。此外，Nginx也可以作为一

2024-01-30 20:44:23

虚拟主机是一种特殊的软硬件技术，它可以将网络上的每一台计算机分成多个虚拟主机，每个虚拟主机可以独立对外提供www服务，这样就可以实现一台主机对外提供多个web服务，每个虚拟主

2024-01-30 20:43:52

nginx进程结构linux 信号量管理机制[root@VM-8-17-centos nginx]# kill -l 1) SIGHUP 2) SIGINT 3) SIGQUIT 4) SIGILL 5) SIGTRAP 6) SIGABRT

2024-01-30 20:42:44

本站的环境搭建用的军哥的 LNMP PHP 版本是 7.3.33 想用 PHP 8.0 但是有些客观的原因存在暂时无法使用。今天事情不多就把 LNMP PHP 的版本升级一下，把 PHP 升级到 7.4.29 如

2024-01-28 21:29:42

在我内网的 HomeLab 上部署 NextCloud 测试用。在部署的过程中需要用到 PHP 的 smbclient 这个扩展，就是在 NextCloud 上挂载我群晖的 SMB 共享作为存储。已经部署了 LNMP 环

2024-01-28 21:27:59

本篇教程是教大家如何使用群晖的 Active Backup for Business 套件来备份网站已经打包的压缩文件或者其他文件。无论你的网站环境是 LNMP 还是使用的宝塔，都可以使用这个教程

2024-01-28 21:23:05

Kickstart 是什么？kickstart是一个定义了Linux安装过程的配置文件，比如要在系统中使用的时区、如何对驱动器进行分区、或者应该安装哪些软件包。有了这个文件可以解放双手，让Li

2024-01-28 21:21:48

LNMP 的网站备份是压缩格式，但是数据库不是压缩格式。今天这篇文章是教大家如何让数据库备份为压缩格式。此方法来源于 LNMP 官方论坛。有需要的童鞋可以照着修改就可以了。

2024-01-28 21:21:00

Linux Shell 脚本入门教程Linux Shell 脚本是一种强大的工具，它允许您自动化日常任务和复杂操作。在本教程中，我们将逐步介绍几个实用的 Shell 脚本示例。每个示例都将详细说

2024-01-28 15:48:16

Linux操作系统具有多种安全策略，以下是其中一些常见的安全策略：访问控制：使用权限和访问控制列表（ACL）来限制用户对文件和目录的访问权限。可以使用chmod、chown等命令来设置文

2024-01-24 15:28:17

公司的一个商城项目，然后配置完参数，本来应该可以跑起来的，最近做了一次服务器迁移，打开后台发现浏览器提示重定向次数过多追踪代码调试，发现是$_SERVER['PHP_SELF']的值

2024-01-24 15:28:04

分布式架构是一种将系统拆分为多个独立的组件或服务，并在不同的计算节点上部署这些组件或服务的架构方式。它可以提供高性能和可用性的好处。下面我将详细介绍分布式架构在高

2024-01-24 15:27:42

将服务从 HTTP 变为 HTTPS，需要进行 SSL 证书的配置。需要完成一下步骤：获取 SSL 证书安装 SSL 证书配置 Nginx 支持 HTTPS 重启 Nginx HTTP 到 HTTPS 的重定向（可选）1. 获取

2024-01-24 15:27:26

总结/朱季谦在日常开发或者编程当中，经常需要用到redis集群，若是按照传统的方式，一个机器一个机器搭建，难免过于繁琐，故而可以通过dock er-compose编排方式，快速搭建。我在搭建过

2024-01-24 15:26:59

转载请注明出处：香吧香　　EOF（End of File）在Shell中通常用于指示输入的结束，并在脚本或命令中进行多行输入。它允许用户指定一个特定的分界符来表示输入的结束，通常用于创建临

2024-01-24 15:26:27

Prometheus 是一个时序数据库，存数据exporter是收集器，来收集被监控的数据，想要监控不同的内容，就使用不同的exporter，这个exporter应该放在被测服务器上，再把exporter和Prometheu

2024-01-24 15:25:59

公众号「架构成长指南」，专注于生产实践、云原生、分布式系统、大数据技术分享前言K8s本身不包含内置的监控工具，所以市场上有不少这样监控工具来填补这一空白，但是没有一个监

2024-01-24 15:25:39

在深入理解 Docker 核心原理：Namespace、Cgroups 和 Rootfs 一文中我们分析了 Docker 是由三大核心技术实现的。今天就一起分析 Docker 三大核心技术之一的 Linux Namespace

2024-01-24 15:25:18

前言linux以及嵌入式一些代码，我们看到core_initcall、device_initcall等等需要链接器分配各个section，并且在启动该模块时候执行。下面我们详细追溯一下执行过程。作者：良知犹

2024-01-24 15:24:55

2020-07-31

2019-11-21

2019-08-07

2018-09-24

2020-03-22

2019-02-16

2019-11-17

2018-10-07

2018-10-04