Spark 如何过滤重复的对象_spark中对全表数据完全去重-CSDN博客

网站介绍:文章浏览阅读1.6w次。数据如下所示:hello worldhello sparkhello hivehello worldhello sparkhello hive最终需要的只是hello worldhello sparkhello hive这三个,重复的丢掉。有两种实现方法。第一:在程序将文本加载进来形成line R_spark中对全表数据完全去重