天真过后的成熟
2024-09-06 10:30:14
Spark是一个基于内存计算的开源集群计算系统,目的是更快速的进行数据分析。Spark由加州伯克利大学AMP实验室Matei为主的小团队使用Scala开发,其核心部分的代码只有63个Scala文件,非常轻量级。Spark提供了与 Hadoop相似的开源集群计算环境,但基于内存和迭代优化的设计,Spark在某些工作负载表现更优秀。SPARK是一种安全的、经正式定义的编程语言,它被设计用来支持一些安全或商业集成为关键因素的应用软件的设计。从高的层面来看,其实每一个Spark的应用,都是一个Driver类,通过运行用户定义的main函数,在集群上执行各种并发操作和计算Spark提供的最主要的抽象,是一个弹性分布式数据集,它是一种特殊集合,可以分布在集群的节点上,以函数式编程操作集合的方式,进行各种各样的并发操作。