spark解决方案系列--------1.spark-streaming实时Join存储在HDFS大量数据的解决方案_sparkstreaming join-CSDN博客

网站介绍:文章浏览阅读1.1w次,点赞5次,收藏14次。spark-streaming实时接收数据并处理。一个非常广泛的需求是spark-streaming实时接收的数据需要跟保存在HDFS上的大量数据进行Join。要实现这个需求保证实时性需要解决以下几个问题:1.spark-streaming的数据接收间隔往往很小,比如只有几秒钟。HDFS上的数据如果很大的话,不能每个接收batch都从HDFS读取数据,避免频繁大量磁盘I/O2.HDFS大量_sparkstreaming join