奕剑听雨
Spark内核解析2 Spark内核解析2
Master启动时首先创一个RpcEnv对象,负责管理所有通信逻辑Master通过RpcEnv对象创建一个Endpoint,Master就是一个Endpoint,Worker可以与其进行通信Worker启动时也是创一个RpcEnv对象Wo
2019-06-09
Spark内核解析1 Spark内核解析1
概述Spark 内核泛指 Spark 的核心运行机制,包括 Spark 核心组件的运行机制、Spark 任务调度机制、Spark 内存管理机制、Spark 核心功能的运行原理。 核心组件DriverSpark 驱动器节点,用于执行 Spar
2019-06-09
Spark之GraphX Spark之GraphX
GraphX 是 Spark 图表和图形并行计算的新组件。GraphX 延伸 Spark RDD 通过引入新的图形的抽象:计算与连接到每个顶点和边缘性的向量。以支持图形计算,GraphX 公开了一组基本的操作符(例如 subgraph,
2019-06-08
Spark之StructuredStreaming Spark之StructuredStreaming
简介 Structured Streaming是Spark2.0版本提出的新的实时流框架,是一种基于Spark SQL引擎的可扩展且容错的流处理引擎。在内部,默认情况下,结构化流式查询使用微批处理引擎进行处理,该引擎将数据流作为一系列小批量
2019-06-07
Spark之SparkStreaming的DStream操作 Spark之SparkStreaming的DStream操作
转换DStream上的原语分为Transformations(转换)和Output Operations(输出)两种,此外转换操作中还有一些比较特殊的原语,如:updateStateByKey()、transform()以及各种Window
2019-06-06
Spark之SparkStreaming数据源 Spark之SparkStreaming数据源
DStreams输入 Spark Streaming原生支持一些不同的数据源。一些“核心”数据源已经被打包到Spark Streaming 的 Maven 工件中,而其他的一些则可以通过 spark-streaming-kafka 等附加工
2019-06-05
Spark之SparkStreaming理论篇 Spark之SparkStreaming理论篇
SparkStreaming的相关理论学习: <The rest of contents | 余下全文> 简介Spark Streaming用于流式数据的处理。Spark Streaming有高吞吐量和容错能力强等特点。Sp
2019-06-03
Spark之SparkSQL数据源 Spark之SparkSQL数据源
SparkSQL数据源:parquet Json Mysql Hive: <The rest of contents | 余下全文> SparkSQL数据源手动指定选项Spark SQL的DataFrame接口支持多种数据
2019-06-01
Spark之SparkSQL实战 Spark之SparkSQL实战
DataFrames 基本操作和 DSL SQL风格 UDF函数 以及数据源: <The rest of contents | 余下全文> SparkSQL查询Json数据准备 {"name":"Michael"} {"na
2019-05-30
Spark之SparkSQL理论篇 Spark之SparkSQL理论篇
Spark SQL 理论学习: <The rest of contents | 余下全文> 简介 Spark SQL是Spark用来处理结构化数据的一个模块,它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询
2019-05-30
3 / 7