网站介绍:文章浏览阅读1.7w次,点赞4次,收藏20次。数据量: 1~2G左右的表与3~4T的大表进行Join拆分 将任务数据分为多个结果RDD,将各个RDD的数据写入临时的hdfs目录,最后合并调整并行度和shuffle参数 spark-submit 参数#提高shuffle阶段的任务并行度,降低单个任务的内存占用--conf spark.default.parallelism=2000 #提高shuffle 缓冲区大小--conf spa_sparksql两张大表优化
- 链接地址:https://blog.csdn.net/qq_16038125/article/details/72956949
- 链接标题:spark-大表join优化方案_sparksql两张大表优化-CSDN博客
- 所属网站:blog.csdn.net
- 被收藏次数:5002
- 网站标签:sparksql两张大表优化