spark-大表join优化方案_sparksql两张大表优化-CSDN博客

网站介绍:文章浏览阅读1.7w次,点赞4次,收藏20次。数据量: 1~2G左右的表与3~4T的大表进行Join拆分 将任务数据分为多个结果RDD,将各个RDD的数据写入临时的hdfs目录,最后合并调整并行度和shuffle参数 spark-submit 参数#提高shuffle阶段的任务并行度,降低单个任务的内存占用--conf spark.default.parallelism=2000 #提高shuffle 缓冲区大小--conf spa_sparksql两张大表优化