spark学习笔记2_spark cache会增加血缘关系-CSDN博客

网站介绍:文章浏览阅读337次。RDD的持久化其实就是对RDD的数据进行缓存处理,为什么用到缓存?在RDD得到执行过程中不会保存数据,只会保存血缘关系(依赖关系),那么如果一个RDD被多个RDD依赖就会出现,一个依赖之后数据就没了,另一个还需根据血缘关系去找到最初数据重新走一遍这是非常效率低下的。所以引出了缓存来解决。1)RDD cache缓存RDD通过Cache 或者 Persist 方法将前面的计算结果缓存,默认情况下会把数据以缓存在 JVM的堆内存中。但是并不是这两个方法被调用时立即缓存,而是触发后面..._spark cache会增加血缘关系