大数据之spark_spark运行结构剖析_spark 普鲁米修斯-CSDN博客

网站介绍：文章浏览阅读212次。基本概念RDD 概念：分布式、弹性、可容错的抽象数据集特点 1.有多个分区，分区数量决定任务并行数从HDFS中读取如果是从HDFS中读取数据，分区的数量由hdfs中数据的输入切片数量决定 sc.textFile可以指定rdd的分区数量(textFile会生成两个RDD,一个是HadoopRDD负责读取数据,读取到的数据是k,v类型的,然后内部又调用了一个MapPartitionsRDD,将k的偏移量去掉,只保留v数据, saveAsTextFile中也_spark 普鲁米修斯