基于Spark的分布式并行处理优化策略-美林数据_spark并行化处理-CSDN博客

网站介绍:文章浏览阅读1.6k次。由于Spark在使用JDBC方式读取关系型模型数据的时候,默认采用单线程任务执行。在数据量较大时,经常发现内存溢出、性能低的问题。在扩大内存读取后进行重分区,又会消耗时间,浪费资源。因此,开发并发读取关系型模型数据,可以有效提高任务处理并发度,减少单个任务的数据处理量,进而提升处理效率。分布式并发处理优化(一)总体思路关系型模型并发读取首先要选取分区字段,按照字段类型和分区个数确定并发分区间隔的key值。假设key值可以将模型数据均匀划分成多个逻辑分区,根据key值构成查询条件将模型数据进行并发读取_spark并行化处理