PySpark核心编程(核心RDD API、核心原理)_pyspark编程-CSDN博客

网站介绍:文章浏览阅读654次,点赞3次,收藏7次。11.0 为什么要使用RDD??分布式计算需要:分区控制、shuffer控制、数据存储/序列化、发送、数据计算在分布式框架中,需要有一个统一的数据抽象对象来实现上述分布式计算所需的功能,这个数据抽象对象就是RDD1.1 RDD 是什么?-- 弹性分布式数据集R : 弹性 :数据可以存放在内存中也可以存储在磁盘中D :分布式 :分布式存储,用于分布式计算,RDD的数据是跨越机器存储(跨进程)D :数据集 :是一个数据的集合,用于存放数据 ( 类使用 list、Dict、array_pyspark编程