菜鸟清风

Hudi简介Apache Hudi 在 HDFS 的数据集上提供了插入更新和增量拉取的功能。一般来说，我们会将大量数据存储到 HDFS，新数据增量写入，而旧数据很少有改动，特别是在经过数据清洗，放入数据仓库的场景。而且在数据仓库如 hiv

2022-07-06 Hudi

Hudi

数据仓库数据仓库是一个用于存储、分析、报告的数据系统，目的是构建面向分析的集成化数据环境，分析结果为企业提供决策支持。数据仓库本身不生产数据，也不消费数据。而是按照一定的方法论，将企业的业务需求划分为不同的层次，根据分层思想理论上可以分为三

2022-03-17 Hudi

Hudi

复杂事件处理(CEP)是一种基于流处理，将系统数据看作不同类型事件，通过分析事件之间的联系，简历不同的事件关系系列库，并利用过滤，关联、聚合等技术，最终由简单事件产生高级事件，通过规则模式的方式对重要信息进行追踪分析，从实时数据中发掘有价值

2021-11-29 大数据

Flink

监控指标Flink任务提交得集群后，需要对任务进行有效监控，对Flink得监控指标可以分为系统指标和用户指标。Flink 提供的 Metrics 可以在 Flink 内部收集一些指标，通过这些指标让开发人员更好地理解作业或集群的状态。由于集

2021-11-14 大数据

Flink

关于窗口这里不在展开论述，之前已经写到过了，本文重点关注SQL如何实现Flink Window的效果。本次使用的kafka数据JSON格式如下: "{\"Id\":9990,\"Name\":\"Nmae_9990\",\"Ope

2021-09-04 大数据

Flink

Flink 为日期和时间提供了丰富的数据类型，包括 DATE， TIME， TIMESTAMP， TIMESTAMP_LTZ， INTERVAL YEAR TO MONTH， INTERVAL DAY TO SECOND ，对多种时间类型

2021-08-26 大数据

Flink

简介FlinkTable API和DataStream相似，有相同的编程模型，需要构建相应的TableEnviroment环境，才能够使用相应API。开发环境使用Table需要引入相关的依赖这里以Flink 1.13.2为例,所需部分依赖

2021-08-25 大数据

Flink

开源生态系统多个系统都在尝试多种方式来解决容错问题。容错机制的设计将对框架设计预计编程模型都有深远的影响，导致难以在现有的流式框架上类似插件机制一样扩展实现不一样的容错策略。因此，流式计算内框架时，容错策略非常重要。我们讨论一下其他的流式计

2020-11-25 大数据

Flink

简介复杂事件处理（Complex Event Process，简称CEP）用来检测无尽数据流中的复杂模式，拥有从不同的数据行中辨识查找模式的能力。模式匹配是复杂事件处理的一个强大援助。包括受一系列事件驱动的各种业务流程，例如在安全应用中侦

2020-11-19 大数据

Flink