大数据开发之Spark总结_大数据spark技术栈-CSDN博客

网站介绍:文章浏览阅读247次。一、本质Spark是一个分布式的计算框架,是下一代的MapReduce,扩展了MR的数据处理流程二、mapreduce有什么问题1.调度慢,启动map、reduce太耗时2.计算慢,每一步都要保存中间结果落磁盘3.API抽象简单,只有map和reduce两个原语4.缺乏作业流描述,一项任务需要多轮mr三、spark解决了什么问题1.最大化利用内存cache2.中间结果放内存,加速迭代3.将结果集放内存,加速后续查询和处理,解决运行慢的问题select * from_大数据spark技术栈