Spark08:【案例】RDD持久化、共享变量_spark scala 共享变量-CSDN博客

网站介绍:文章浏览阅读260次。一、RDD持久化原理Spark中有一个非常重要的功能就是可以对RDD进行持久化。当对RDD执行持久化操作时,每个节点都会将自己操作的RDD的partition数据持久化到内存中,并且在之后对该RDD的反复使用中,直接使用内存中缓存的partition数据。这样的话,针对一个RDD反复执行多个操作的场景,就只需要对RDD计算一次即可,后面直接使用该RDD,而不需要反复计算多次该RDD。因为正常情况下这个RDD的数据使用过后内存中是不会一直保存的。例如这样的操作:针对mapRDD需要多次使用的val _spark scala 共享变量