Spark指南——第六章:Spark性能调优——高级篇(2)_如果是用yarn-client模式提交,那么本地是直接可以看到log的,可以在log中找到当前-CSDN博客

网站介绍:文章浏览阅读233次。Spark性能调优——高级篇(2)一、前言二、数据倾斜1.数据倾斜发生时的现象2.数据倾斜发生的原理3. 如何定位导致数据倾斜的代码①某个task执行特别慢的现象②某个task莫名其妙内存溢出的现象4.查看导致数据倾斜的key三、数据倾斜的解决方案1.解决方案一:使用Hive ETL预处理数据2.解决方案二:过滤少数导致倾斜的key3.解决方案三:提高shuffle操作的并行度4.解决方案四:两阶段聚合(局部聚合+全局聚合)5.解决方案五:将reduce join转为map join6.解决方案六:采样倾斜_如果是用yarn-client模式提交,那么本地是直接可以看到log的,可以在log中找到当前