LightningFast

作者：禅与计算机程序设计艺术1.简介Spark是一种开源快速通用大数据分析框架。它能够在超高速的数据处理能力下，轻松完成海量数据处理任务。相比于其他大数据处理系统(如Hadoop)来说，Spark具有如下优点：更快的速度：Spark可以更快地处理超高速的数据，特别是在内存计算时，相对于HadoopMapReduce，Spark具有较大的加速优势。内存计算：Spark支持基于内存的计算，这使得其适用于实时、交互式查询、机器学习等应用场景，这些情况下计算资源往往有限。统一存储层：Spark采用了统一的存储模型，使得其存储模型具有容错性，同时在同一个集群上，不同用户的程序可以共享数据，避免数据的重复