大数据Spark(二十八):SparkSQL案例三电影评分数据分析_spark 每年评分前三的电影,显示年份、电影名、评分。按年份降序、评分降序排列-CSDN博客

网站介绍:文章浏览阅读4.4k次,点赞7次,收藏27次。原因:在SparkSQL中当Job中产生Shuffle时,默认的分区数(spark.sql.shuffle.partitions )为200,在实际项目中要合理的设置。可以在构建SparkSession实例对象时进行设置。运行上述程序时,查看WEB UI监控页面发现,某个Stage中有200个Task任务,也就是说RDD有200分区Partition。_spark 每年评分前三的电影,显示年份、电影名、评分。按年份降序、评分降序排列