spark学习-spark shuffle操作的两个特点_shuffle操作的特点-CSDN博客

网站介绍:文章浏览阅读677次。spark shuffle操作的两个特点:1.spark中bucket缓存默认是100KB,写入数据达到刷新到磁盘的阈值后,就会将数据一点一点刷新到磁盘。如果内存缓存过小,会发生过多的磁盘IO操作,需要根据实际的业务情况进行优化。2.MapReduce必须将所有的数据都写入本地磁盘文件后,才能启动reduce操作,来拉取数据,因为MapReduce要实现默认的根据key的排序,需要写完所有的数据才..._shuffle操作的特点