作者:禅与计算机程序设计艺术1.简介Spark是一种开源快速通用大数据分析框架。它能够在超高速的数据处理能力下,轻松完成海量数据处理任务。相比于其他大数据处理系统(如Hadoop)来说,Spark具有如下优点:更快的速度:Spark可以更快地处理超高速的数据,特别是在内存计算时,相对于HadoopMapReduce,Spark具有较大的加速优势。内存计算:Spark支持基于内存的计算,这使得其适用于实时、交互式查询、机器学习等应用场景,这些情况下计算资源往往有限。统一存储层:Spark采用了统一的存储模型,使得其存储模型具有容错性,同时在同一个集群上,不同用户的程序可以共享数据,避免数据的重复