奕剑听雨
06
10
Spark内核解析3 Spark内核解析3
步骤橙色:提交用户Spark程序 用户提交一个Spark程序,主要的流程如下所示: 用户spark-submit脚本提交一个Spark程序,会创建一个ClientEndpoint对象,该对象负责与Master通信交互 ClientEndp
2019-06-10
09
Spark内核解析2 Spark内核解析2
Master启动时首先创一个RpcEnv对象,负责管理所有通信逻辑Master通过RpcEnv对象创建一个Endpoint,Master就是一个Endpoint,Worker可以与其进行通信Worker启动时也是创一个RpcEnv对象Wo
2019-06-09
09
Spark内核解析1 Spark内核解析1
概述Spark 内核泛指 Spark 的核心运行机制,包括 Spark 核心组件的运行机制、Spark 任务调度机制、Spark 内存管理机制、Spark 核心功能的运行原理。 核心组件DriverSpark 驱动器节点,用于执行 Spar
2019-06-09
08
Spark之GraphX Spark之GraphX
GraphX 是 Spark 图表和图形并行计算的新组件。GraphX 延伸 Spark RDD 通过引入新的图形的抽象:计算与连接到每个顶点和边缘性的向量。以支持图形计算,GraphX 公开了一组基本的操作符(例如 subgraph,
2019-06-08
07
Spark之StructuredStreaming Spark之StructuredStreaming
简介 Structured Streaming是Spark2.0版本提出的新的实时流框架,是一种基于Spark SQL引擎的可扩展且容错的流处理引擎。在内部,默认情况下,结构化流式查询使用微批处理引擎进行处理,该引擎将数据流作为一系列小批量
2019-06-07
06
05
Spark之SparkStreaming数据源 Spark之SparkStreaming数据源
DStreams输入 Spark Streaming原生支持一些不同的数据源。一些“核心”数据源已经被打包到Spark Streaming 的 Maven 工件中,而其他的一些则可以通过 spark-streaming-kafka 等附加工
2019-06-05
03
01