奕剑听雨
Spark之SparkStreaming理论篇 Spark之SparkStreaming理论篇
SparkStreaming的相关理论学习: <The rest of contents | 余下全文> 简介Spark Streaming用于流式数据的处理。Spark Streaming有高吞吐量和容错能力强等特点。Sp
2019-06-03
Spark之SparkSQL数据源 Spark之SparkSQL数据源
SparkSQL数据源:parquet Json Mysql Hive: <The rest of contents | 余下全文> SparkSQL数据源手动指定选项Spark SQL的DataFrame接口支持多种数据
2019-06-01
Spark之SparkSQL实战 Spark之SparkSQL实战
DataFrames 基本操作和 DSL SQL风格 UDF函数 以及数据源: <The rest of contents | 余下全文> SparkSQL查询Json数据准备 {"name":"Michael"} {"na
2019-05-30
Spark之SparkSQL理论篇 Spark之SparkSQL理论篇
Spark SQL 理论学习: <The rest of contents | 余下全文> 简介 Spark SQL是Spark用来处理结构化数据的一个模块,它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询
2019-05-30
Spark之RDD实战篇3 Spark之RDD实战篇3
键值对RDDSpark 为包含键值对类型的 RDD 提供了一些专有的操作 在PairRDDFunctions专门进行了定义。这些 RDD 被称为 pair RDD。有很多种方式创建pair RDD,在输入输出章节会讲解。一般如果从一个普通的
2019-05-29
Spark之RDD实战2 Spark之RDD实战2
依赖: RDD和它依赖的父RDD(s)的关系有两种不同的类型,即窄依赖(narrow dependency)和宽依赖(wide dependency)。 窄依赖窄依赖指的是每一个父RDD的Partition最多被子RDD的一个Partit
2019-05-28
Spark之RDD实战篇 Spark之RDD实战篇
RDD编程在Spark中,RDD被表示为对象,通过对象上的方法调用来对RDD进行转换。经过一系列的transformations定义RDD之后,就可以调用action触发RDD的计算,action可以是向应用程序返回结果(count, co
2019-05-27
Spark之RDD理论篇 Spark之RDD理论篇
RDD与MapReduceSpark的编程模型是弹性分布式数据集(Resilient Distributed Dataset,RDD),它是MapReduce的扩展和延申,解决了MapReduce的缺陷:在并行计算阶段高效地进行数据共享.运
2019-05-27
Spark生态圈及安装 Spark生态圈及安装
Spark 2009年由马泰·扎哈里亚在加州伯克利分校的AMPLab实现开发的子项目,经过开源捐给了Apache基金会,最后成为了我们熟悉的Apache Spark,Spark式式由Scala语言实现的专门为大规模数据处理而设计的快速通用的
2019-05-26
5 / 18