网站介绍:文章浏览阅读212次。基本概念RDD 概念:分布式、弹性、可容错的抽象数据集 特点 1.有多个分区,分区数量决定任务并行数 从HDFS中读取 如果是从HDFS中读取数据,分区的数量由hdfs中数据的输入切片数量决定 sc.textFile可以指定rdd的分区数量(textFile会生成两个RDD,一个是HadoopRDD负责读取数据,读取到 的数据是k,v类型的,然后内部又调用了一个MapPartitionsRDD,将k的偏移量去掉,只保留v数据, saveAsTextFile中也_spark 普鲁米修斯
- 链接地址:https://blog.csdn.net/WuBoooo/article/details/108785331
- 链接标题:大数据之spark_spark运行结构剖析_spark 普鲁米修斯-CSDN博客
- 所属网站:blog.csdn.net
- 被收藏次数:6398
- 网站标签:spark 普鲁米修斯