Hadoop(四)--MapReduce深入学习

Hadoop(四)--MapReduce深入学习一、MapReduce工作机制1.1、MapTask工作机制        整个Map阶段大体如上图所示。简单概述:input file通过split被逻辑切分为多个split文件,通过record按行读取内容给map(用户自己实现的)进行处理,数据被map处理结束之后交给OutputController收集器,对其结果key进行分区(默认是使用了hash分区),然后写

Hadoop(三)--MapReduce

MapReduce一、MapReduce介绍1.1、MapReduce计算模型介绍1.1.1、理解MapReduce思想MapReduce 思想在生活中处处可见。即使是发布过论文《Google-File-System》的谷歌也只是实现了这种思想,而不是自己原创。简单来说,MapReduce的思想就是“ 分而治之”,特别适用于大量复杂的任务处理场景。Map 负责“分”,即把复杂的任务分解为若干个“简单的任务”来处理。“简单的任务”包含三层含义:一是数据或计算的规模相对任务要大大缩小;二是就近计算原

Hadoop(二)--Hadoop深入学习

Hadoop(二)--Hadoop深入学习一、NameNode元数据管理机制1.1、元数据管理机制概述        元数据维护了HDFS文件系统中文件和目录的信息,按形式分为内存元数据和元数据文件两种,分别存在内存和磁盘上。        按类型分,元数据主要包括:      

Hadoop(一)

Hadoop(一)一、Apache Hadoop简介1.1、Hadoop介绍        Hadoop是Apache旗下的一个用Java语言实现的开源软件框架,是一个开发和运行处理大规模数据的软件平台。允许使用简单的编程模型在大量计算机集群上对大数据集进行分布式处理。        狭义上说,Hadoop是指Apache这款开源框架,它

机器学习(一)

机器学习一、机器学习1.1、机器学习引入        引用著名西瓜书(机器学习)上对机器学习的引入。试想这样一个场景,傍晚小街路面上沁出微雨后的湿润,和煦的细风吹来,抬头看看天边的晚霞。心里想着明天又是一个好天气。走到水果摊旁,挑了个色泽青绿、敲起来声音浊响的青绿西瓜,一边期待着西瓜皮薄肉厚瓤甜的爽落感,一边愉快地想着,明天学习 Python 机器学习一定要狠下功夫,基础概念搞得清清楚楚,案例作业也是信手拈来,我们

Linux上安装部署Redis4.0.2

Linux上安装部署Redis4.0.2安装依赖:yum -y install gcc gcc-c++ libstdc++-devel tcl -y下载redis安装包:wget http://219.238.7.71/files/403400000ABE0C0C/download.redis.io/releases/redis-4.0.2.tar.gz解压缩:tar -zxvf redis-4.

Kafka

Kafka一、Kafka1.1、什么是Kafka?Kafka是一个开源消息系统,由Scala写成。是由Apache软件基金会开发的一个开源消息系统项目。Kafka最初是由LinkIn开发,并于2011年初开源。2012年10月从Apache Incubator毕业。该项目的目标是为处理实时数据提供一个统一、高通量、地等待的平台。Kafka是一个分布式消息队列:生产者、消费者的功能。它提供了类似于JMS的特性,但是在设计实现上完全不同,此外它并不是JMS规范的实现。Kafka对消息保存时根据Top

Spark Streaming流式处理(四)

Spark Streaming流式处理一、SparkStreaming概述1.1、SparkStreaming是什么?Spark Streaming类似于Apache Storm,用于流式数据的处理。根据官方文件的介绍,Spark Streaming有高吞吐量和容错能力强等特点。Spark Streaming支持的数据输入源很多,例如:Kafka,Flume,Twitter,ZeroMQ和简单的TCP套接字等等。等待输入后可以用Spark的高度抽象原语如:map、reduce、join、wind

Spark SQL(三)

Spark SQL一、Spark SQL概述1.1、Spark SQL的前世今生Shark是一个为Spark设计的大规模仓库系统,它与Hive兼容。Shark建立在Hive的代码基础上,并通过将Hive的部分物理执行计划交换出来(by swapping out the physical execution engine part of Hive)。这个方法是的Shark的用户可以加速Hive的查询,但是Shark继承了Hive大且复杂的代码使得Shark很难优化和维护,同时Shark依赖于Spa