spark-大表join优化方案_sparksql两张大表优化-CSDN博客

网站介绍：文章浏览阅读1.7w次，点赞4次，收藏20次。数据量： 1~2G左右的表与3~4T的大表进行Join拆分将任务数据分为多个结果RDD，将各个RDD的数据写入临时的hdfs目录，最后合并调整并行度和shuffle参数 spark-submit 参数#提高shuffle阶段的任务并行度，降低单个任务的内存占用--conf spark.default.parallelism=2000 #提高shuffle 缓冲区大小--conf spa_sparksql两张大表优化