电商数仓3.0 同步策略_数仓 表同步策略-CSDN博客

网站介绍:文章浏览阅读387次。为什么会有同步策略1. 基于大数据环境下的数据,若将数据从DB中导入到HDFS中。每天导入的方式都是将一张表数据中所有数据都全部导入都HDFS(全量导入),如订单表16号、17号、18号。。。的数据都会导入到HDFS中会造成这么一种情况,HDSF中17号分区的数据存储着16号和17号的数据,18号分区中会存储16号、17号和18号的数据。。如下所示:由此可以看出,每天全量导入后,保存当天最新的分区即可,前面分区数据可以删除掉,若是数据量过大,将会造成任务变慢,且单个分区数据量会越来越大2. 为了改变_数仓 表同步策略