Spark-之数据持久化(血缘关系cache\persist\checkpoint)_spark cache 父依赖-CSDN博客

网站介绍:文章浏览阅读595次。Spark-之数据持久化(血缘关系 cache\persist\checkpoint)cachepersistcheckpointcache、persist默认都是调用persist(StorageLevel.MEMORY_ONLY)。1、cache & persist由于RDD本身是不存储数据的,它只是一个抽象。多个RDD之间可能存在依赖,这种现象被称为RDD的血缘关系,RDD的血缘关系在job触发的时候形成DAG。1、如果没有将RDD进行持久化。如果一个RDD同时触发2_spark cache 父依赖