奕剑听雨
MapReduce源码刨析 MapReduce源码刨析
Mapmap函数是对一些独立元素组成的概念列表(如单词计数中每行数据形成的列表)的每一个元素进行指定的操作(如把每行数据拆分成不同单词,并把每个单词计数为1),用户可以自定义一个把数据拆分成不同单词并把单词计数为1的映射map函数),事实上
2018-12-25
MapReduce的工作机制 MapReduce的工作机制
框架Hadoop2.x引入了一种新的执行机制MapRedcue 2。这种新的机制建议在Yarn的系统上,目前用于执行的框架可以通过mapreduce.framework.name属性进行设置,值“local“表示本地作业运行器,“class
2018-12-24
MapReduce入门和优化方案 MapReduce入门和优化方案
Mapreduce概述Mapreduce式谷歌开源的一项重要技术,是一个编程模型,用来进行大数据量的计算,对于大数据量的计算通常采用的处理方式式并行计算,对于许多开发者来说,自己完全实现一个并行计算程序难度太大.而MapReduce就是一种
2018-12-22
Hadoop的RPC工作原理 Hadoop的RPC工作原理
Hadoop的远程过程调用(Remote Procedure Call,RPC)是Hadoop中核心通信机制,RPC主要通过所有Hadoop的组件元数据交换,如MapReduce、Hadoop分布式文件系统(HDFS)和Hadoop的
2018-12-20
Hadoop的I/O操作 Hadoop的I/O操作
Hadoop自带的一条原子操作作用域数据I/O操作,其中有一些技术比Hadoop更常用,如数据完整性保持和压缩在处理好几个TB级别的数据集时值得关注. 数据完整性Hadoop用户不希望在存储和处理数据时丢失或损坏任何数据,但是当系
2018-12-20
Yarn Yarn
YARN的介绍Apache Hadoop YARN (Yet Another Resource Negotiator,另一种资源协调者)是一种新的 Hadoop 资源管理器,它是一个通用资源管理系统,可为上层应用提供统一的资源管理和调度,它
2018-12-19
HDFS高级功能 HDFS高级功能
安全模式安全模式是HDFS所处的一种特殊状态,在这种状态下,文件系统只接受读数据请求,而不接受删除、修改等变更请求。在NameNode主节点启动时,HDFS首先进入安全模式,DataNode在启动的时候会向namenode汇报可用的bloc
2018-12-19
HDFS的操作SHELL和API HDFS的操作SHELL和API
WEB WEB端口50090查看SecondaryNameNode信息。可以查看Hadoop的版本,NameNode的IP,Checkpoint等信息。 WEB端口50070可以查看HDFS的信息和目录结构 SHELL查看
2018-12-18
Hadoop分布式文件系统HDFS Hadoop分布式文件系统HDFS
HDFSHDFS是 Hadoop Distribute File System的缩写,是谷歌GFS分布式文件系统的开源实现,Apache Hadoop的一个子项目,HDFS基于流数据访问模式的分布式文件系统,支持海量数据的存储,允许用户将百
2018-12-17
Hadoop简介与分布式安装 Hadoop简介与分布式安装
Hadoop简介Hadoop 是Apache Lucene创始人道格·卡丁(Doug Cutting)创建的,Lucene是一个应用广泛的文本搜索库,Hadoop起源于开源网络搜索引擎Apache Nutch,后者是Lucene项目的一部分
2018-12-17
6 / 7