2)SparkCore(RDD概述)_rdd 逻辑上是分区的,每个分区的数据是抽象存在的,计算的时候会通过一个compute函-CSDN博客

网站介绍:文章浏览阅读77次。RDD概述:什么是RDD:RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象。代码中是一个抽象类,它代表一个不可变、可分区、里面的元素可并行计算的集合;RDD的属性:① 一组分区(Partition),即数据集的基本组成单位;② 一个计算每个分区的函数;③ RDD之间的依赖关系;④ 一个Partitioner,即..._rdd 逻辑上是分区的,每个分区的数据是抽象存在的,计算的时候会通过一个compute函