Spark,groupby之后加上repartition可以显著加快速度-CSDN博客

网站介绍:文章浏览阅读423次。dataDF.rdd.groupBy(row => row.getAs[Long]("the_key")) .repartition(2000).flatMap(pair => {