Spark之深入理解RDD结构_rdd的分区方式有( )和( )-CSDN博客

网站介绍:文章浏览阅读2.1w次,点赞19次,收藏84次。RDDRDD(Resilient Distributed Datasets,弹性分布式数据集),是Spark最为核心的概念,自然也是理解Apache Spark 工作原理的最佳入口之一。RDD的特点: 1. 是一个分区的只读记录的集合; 2. 一个具有容错机制的特殊集; 3. 只能通过在稳定的存储器或其他RDD上的确定性操作(转换)来创建; 4. 可以分布在集群的节点上,以函数式操_rdd的分区方式有( )和( )