基于 Apache Hudi 極致查詢優(yōu)化的探索實(shí)踐 _生活百科

摘要：本文主要介紹 Presto 如何更好的利用 Hudi 的數(shù)據(jù)布局、索引信息來加速點(diǎn)查性能。

本文分享自華為云社區(qū)《華為云基于 Apache Hudi 極致查詢優(yōu)化的探索實(shí)踐!》，作者：FI_mengtao 。
背景湖倉一體（LakeHouse）是一種新的開放式架構(gòu)，它結(jié)合了數(shù)據(jù)湖和數(shù)據(jù)倉庫的最佳元素，是當(dāng)下大數(shù)據(jù)領(lǐng)域的重要發(fā)展方向。
華為云早在2020年就開始著手相關(guān)技術(shù)的預(yù)研，并落地在華為云 FusionInsight MRS智能數(shù)據(jù)湖解決方案中。
目前主流的三大數(shù)據(jù)湖組件 Apache Hudi、Iceberg、Delta各有優(yōu)點(diǎn)，業(yè)界也在不斷探索選擇適合自己的方案。
華為湖倉一體架構(gòu)核心基座是 Apache Hudi，所有入湖數(shù)據(jù)都通過 Apache Hudi 承載，對(duì)外通過 HetuEngine（Presto增強(qiáng)版）引擎承擔(dān)一站式SQL分析角色，因此如何更好的結(jié)合 Presto 和 Hudi 使其查詢效率接近專業(yè)的分布式數(shù)倉意義重大。查詢性能優(yōu)化是個(gè)很大的課題，包括索引、數(shù)據(jù)布局、預(yù)聚合、統(tǒng)計(jì)信息、引擎 Runtime優(yōu)化等等。本文主要介紹 Presto 如何更好的利用 Hudi 的數(shù)據(jù)布局、索引信息來加速點(diǎn)查性能。預(yù)聚合和統(tǒng)計(jì)信息我們將在后續(xù)分享。
數(shù)據(jù)布局優(yōu)化大數(shù)據(jù)分析的點(diǎn)查場(chǎng)景一般都會(huì)帶有過濾條件，對(duì)于這種類型查詢，如果目標(biāo)結(jié)果集很小，理論上我們可以通過一定手段在讀取表數(shù)據(jù)時(shí)大量跳過不相干數(shù)據(jù)，只讀取很小的數(shù)據(jù)集，進(jìn)而顯著的提升查詢效率。我們可以把上述技術(shù)稱之為 DataSkipping 。
好的數(shù)據(jù)布局可以使相關(guān)數(shù)據(jù)更加緊湊（當(dāng)然小文件問題也一并處理掉了）是實(shí)現(xiàn) DataSkipping的關(guān)鍵一步。日常工作中合理設(shè)置分區(qū)字段、數(shù)據(jù)排序都屬于數(shù)據(jù)布局優(yōu)化。當(dāng)前主流的查詢引擎 Presto/Spark 都可以對(duì)Parquet文件做 Rowgroup 級(jí)別過濾，最新版本甚至支持 Page 級(jí)別的過濾；選取合適的數(shù)據(jù)布局方式可以使引擎在讀取上述文件可以利用列的統(tǒng)計(jì)信息輕易過濾掉大量 Rowgroup/Page，進(jìn)而減少IO 。
那么是不是 DataSkipping僅僅依賴數(shù)據(jù)布局就好了？其實(shí)不然。上述過濾還是要打開表里每一個(gè)文件才能完成過濾，因此過濾效果有限，數(shù)據(jù)布局優(yōu)化配合 FileSkipping才能更好的發(fā)揮效果。
當(dāng)我們完成數(shù)據(jù)布局后，對(duì)每個(gè)文件的相關(guān)列收集統(tǒng)計(jì)信息，下圖給個(gè)簡(jiǎn)單的示例，數(shù)據(jù)經(jīng)過排序后寫入表中生成三個(gè)文件，指定點(diǎn)查 where a < 10 下圖可以清楚的看出 a < 10的結(jié)果集只存在于 parquet1文件中，parquet2/parquet3 中 a 的最小值都比10大，顯然不可能存在結(jié)果集，所以直接裁剪掉 parquet2和 parquet3即可。

文章插圖
這就是一個(gè)簡(jiǎn)單 FileSkipping，F(xiàn)ileSkipping的目的在于盡最大可能裁剪掉不需要的文件，減少掃描IO，實(shí)現(xiàn) FileSkipping有很多種方式，例如
min-max統(tǒng)計(jì)信息過濾、BloomFilter、Bitmap、二級(jí)索引等等，每種方式都各有優(yōu)缺點(diǎn)，其中 min-max 統(tǒng)計(jì)信息過濾最為常見，也是 Hudi/Iceberg/DeltaLake 默認(rèn)提供的實(shí)現(xiàn)方式。
Apache Hudi核心能力ClusteringHudi早在 0.7.0 版本就已經(jīng)提供了 Clustering 優(yōu)化數(shù)據(jù)布局，0.10.0 版本隨著 Z-Order/Hilbert高階聚類算法加入，Hudi的數(shù)據(jù)布局優(yōu)化日趨強(qiáng)大，Hudi 當(dāng)前提供以下三種不同的聚類方式，針對(duì)不同的點(diǎn)查場(chǎng)景，可以根據(jù)具體的過濾條件選擇不同的策略

文章插圖
關(guān)于 Z-Order、Hilbert 具體原理可以查閱相關(guān)Wiki，https://en.wikipedia.org/wiki/Z-order 本文不再詳細(xì)贅述。
Metadata Table(MDT)Metadata Table(MDT)：Hudi的元數(shù)據(jù)信息表，是一個(gè)自管理的 Hudi MoR表，位于 Hudi 表的 .hoodie目錄，開啟后用戶無感知。同樣的 Hudi 很早就支持 MDT，經(jīng)過不斷迭代 0.12版本 MDT 已經(jīng)成熟，當(dāng)前 MDT 表已經(jīng)具備如下能力