Spark学习知识点总结_spark知识点总结-CSDN博客

网站介绍:文章浏览阅读708次。一、基础知识:1、yarn:资源调度框架2、hdfs(Hadoop Distribute File System),基于“磁盘”的3、Hadoop MR:map ->shuffle -> reducer注意:有shuffle就会有磁盘IO,就会有不同节点传输4、Hive:是一个数据仓库5、spark与MR区别?1)MR基于磁盘,spark基于内存(指某些步骤基于内存,而不是全部基于内存)2)spark有DAG(有向无环图),eg:一个蛋糕分10块,用10人去吃,或者1个job划分_spark知识点总结