奕剑听雨
Spark 集成Hudi Spark 集成Hudi
Hudi 支持Spark 版本 Hudi Supported Spark 3 version 0.12.x 3.3.x,3.2.x,3.1.x 0.11.x 3.2.x(default build, Spark bundle
2022-12-15
Apache Hudi项目编译 Apache Hudi项目编译
前置环境 环境 版本 java 1.8.0_271 maven 3.8.5 scala 2.12 拉取Hudi源码git clone https://github.com/apache/hudi.git 使用IDEA
2022-08-09
Apache Hudi快速体验 Apache Hudi快速体验
通过官方提供的样例我们可以构建docker镜像前提是已经安装了docker 和docker-compose # 下载docker-compose sudo curl -L "https://github.com/docker/compose
2022-08-06
Apache Hudi 核心概念 Apache Hudi 核心概念
Hudi简介Apache Hudi 在 HDFS 的数据集上提供了插入更新和增量拉取的功能。 一般来说,我们会将大量数据存储到 HDFS,新数据增量写入,而旧数据很少有改动,特别是在经过数据清洗,放入数据仓库的场景。而且在数据仓库如 hiv
2022-07-06
Apache Hudi简介与初识 Apache Hudi简介与初识
数据仓库数据仓库是一个用于存储、分析、报告的数据系统,目的是构建面向分析的集成化数据环境,分析结果为企业提供决策支持。数据仓库本身不生产数据,也不消费数据。而是按照一定的方法论,将企业的业务需求划分为不同的层次,根据分层思想理论上可以分为三
2022-03-17