Spark计算模型(二)

Spark计算模型一、弹性分布式数据集RDD1.1、RDD概述1.1.1、什么是RDDRDD(Resilient DirDistributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点:自动容错、位置感知性调度和可伸缩性。RDD允许用户在执行多个查询是显示地将工作集缓存在内存中,后续的查询能够重用工作集,这极大的提升了查询速度。1.1.2、RDD的属性Internally, e

Spark入门(一)

Spark一、Spark概述1.1、什么是Spark?Spark是一种快速、通过、可扩展的大数据分析引擎,2009年诞生于加州大学的伯克利分校AMPLab,2014年成为Apache的顶级开源项目。目前,Spark生态系统已经发展成为一个包含多个子项目的集合,其中包含了SparkSQL、Spark Streaming、GraphX、MLab等子项目,Spark是基于内存计算的大数据并行计算框架。Spark基于内存计算,提高了在大数据环境下数据处理的实时性,同时保证了高容错性和可伸缩性,允许用户将