奕剑听雨
Flink运行架构 Flink运行架构
组件JobManager 控制一个应用程序执行的主进程,每个应用程序都会被一个不同的JobManager所控制。 JobManager会先接收到应用程序,应用程序包括:作业图(JobGraph)、逻辑数据流图和打包的所有类库和其他资源的Ja
2020-05-02
Flink初识 Flink初识
简介Flink起源于2010~2014的柏林工业大学、柏林洪堡大学、哈索·普拉特纳研究所联名发起的Stratosphere项目,该项目于2014年捐赠给了Apache软件基金会。2014年12月成为Apache软件基金会的顶级项目。 在德语
2020-01-21
Spark内核解析3 Spark内核解析3
步骤橙色:提交用户Spark程序 用户提交一个Spark程序,主要的流程如下所示: 用户spark-submit脚本提交一个Spark程序,会创建一个ClientEndpoint对象,该对象负责与Master通信交互 ClientEndp
2019-06-10
Spark内核解析2 Spark内核解析2
Master启动时首先创一个RpcEnv对象,负责管理所有通信逻辑Master通过RpcEnv对象创建一个Endpoint,Master就是一个Endpoint,Worker可以与其进行通信Worker启动时也是创一个RpcEnv对象Wo
2019-06-09
Spark内核解析1 Spark内核解析1
概述Spark 内核泛指 Spark 的核心运行机制,包括 Spark 核心组件的运行机制、Spark 任务调度机制、Spark 内存管理机制、Spark 核心功能的运行原理。 核心组件DriverSpark 驱动器节点,用于执行 Spar
2019-06-09
Spark之GraphX Spark之GraphX
GraphX 是 Spark 图表和图形并行计算的新组件。GraphX 延伸 Spark RDD 通过引入新的图形的抽象:计算与连接到每个顶点和边缘性的向量。以支持图形计算,GraphX 公开了一组基本的操作符(例如 subgraph,
2019-06-08
Spark之StructuredStreaming Spark之StructuredStreaming
简介 Structured Streaming是Spark2.0版本提出的新的实时流框架,是一种基于Spark SQL引擎的可扩展且容错的流处理引擎。在内部,默认情况下,结构化流式查询使用微批处理引擎进行处理,该引擎将数据流作为一系列小批量
2019-06-07
Spark之SparkStreaming的DStream操作 Spark之SparkStreaming的DStream操作
转换DStream上的原语分为Transformations(转换)和Output Operations(输出)两种,此外转换操作中还有一些比较特殊的原语,如:updateStateByKey()、transform()以及各种Window
2019-06-06
Spark之SparkStreaming数据源 Spark之SparkStreaming数据源
DStreams输入 Spark Streaming原生支持一些不同的数据源。一些“核心”数据源已经被打包到Spark Streaming 的 Maven 工件中,而其他的一些则可以通过 spark-streaming-kafka 等附加工
2019-06-05
4 / 18