奕剑听雨
Spark之RDD实战篇3 Spark之RDD实战篇3
键值对RDDSpark 为包含键值对类型的 RDD 提供了一些专有的操作 在PairRDDFunctions专门进行了定义。这些 RDD 被称为 pair RDD。有很多种方式创建pair RDD,在输入输出章节会讲解。一般如果从一个普通的
2019-05-29
Spark之RDD实战2 Spark之RDD实战2
依赖: RDD和它依赖的父RDD(s)的关系有两种不同的类型,即窄依赖(narrow dependency)和宽依赖(wide dependency)。 窄依赖窄依赖指的是每一个父RDD的Partition最多被子RDD的一个Partit
2019-05-28
Spark之RDD实战篇 Spark之RDD实战篇
RDD编程在Spark中,RDD被表示为对象,通过对象上的方法调用来对RDD进行转换。经过一系列的transformations定义RDD之后,就可以调用action触发RDD的计算,action可以是向应用程序返回结果(count, co
2019-05-27
Spark之RDD理论篇 Spark之RDD理论篇
RDD与MapReduceSpark的编程模型是弹性分布式数据集(Resilient Distributed Dataset,RDD),它是MapReduce的扩展和延申,解决了MapReduce的缺陷:在并行计算阶段高效地进行数据共享.运
2019-05-27
Spark生态圈及安装 Spark生态圈及安装
Spark 2009年由马泰·扎哈里亚在加州伯克利分校的AMPLab实现开发的子项目,经过开源捐给了Apache基金会,最后成为了我们熟悉的Apache Spark,Spark式式由Scala语言实现的专门为大规模数据处理而设计的快速通用的
2019-05-26
Hive调优 Hive调优
http://hphblog.cn/2018/12/20/Hadoop%E7%9A%84IO%E6%93%8D%E4%BD%9C/#%E5%8E%8B%E7%BC%A9) Hive支持的存储数的格式主要有:TEXTFILE 、SEQUENC
2019-01-18
Hive查询 Hive查询
查询语法[WITH CommonTableExpression (, CommonTableExpression)*] (Note: Only available starting with Hive 0.13.0) SELECT
2019-01-17
Hive数据据类型 DDL DML Hive数据据类型 DDL DML
基本数据类型 Hive数据类型 Java数据类型 长度 例子 TINYINT byte 1byte有符号整数 20 SMALINT short 2byte有符号整数 20 INT int 4byte有符号整数 20 B
2019-01-16
KafkaAPI实战 KafkaAPI实战
Kafka有两套API: 过时的API 和新API 准备工作 <dependencies> <dependency> <groupId>org.apache.kafka</g
2019-01-15
oozie oozie
简介Oozie英文翻译为:驯象人。一个基于工作流引擎的开源框架,由Cloudera公司贡献给Apache,提供对HadoopMapreduce、Pig Jobs的任务调度与协调。Oozie需要部署到Java Servlet容器中运行。主要用
2019-01-10
4 / 7