Spark.shuffle.file.buffer 参数入门-CSDN博客

网站介绍:文章浏览阅读1.5k次。Spark.shuffle.file.buffer默认值:32k参数说明:该参数用于设置shuffle write任务的bufferedOutputStream的缓冲区大小。 将数据写入磁盘文件之前,将其写入缓冲区,然后在将缓冲区写入磁盘后将其填充。调整建议:如果可用内存资源足够,则可以增加此参数的大小(例如64k),以减少在随机写入过程中磁盘文件溢出的次数,从而可以减少磁盘的数量。 IO时间和提高性能在实践中发现,合理调整参数后,性能将提高1%到5%。参考Spark performan_spark.shuffle.file.buffer