大数据:Spark Core (一) 什么是RDD的Transformation和Actions以及Dependency?_rdd的transformation的作用和特点是什么-CSDN博客

网站介绍:文章浏览阅读3.5k次,点赞2次,收藏9次。Spark的RDDRDD(Resilient Distributed Datasets),弹性分布式数据集,是对分布式数据集的一种抽象。RDD所具备5个主要特性:一组分区计算每一个数据分片的函数RDD上的一组依赖对于Key Value 对的RDD,会有一个Partitioner, 这是数据的分割器一组Preferred Location信息上图是一个简单的CoGroupedRDD满足了RDD 5个_rdd的transformation的作用和特点是什么