【数仓】数据存储格式的选择:Parquet与ORC_orc vs parquet-CSDN博客

网站介绍:文章浏览阅读6.4k次,点赞8次,收藏44次。大家好,我终于又出现了!这次要讲讲数据存储格式的选择!平时呢,我也会加一些有的没有的交流群,主要还是日常潜水看看里面有没有大佬!然后就遇到了一个问题:hadoop上存储的数据,要进行查询,用什么格式存储更好?我下意识的反应是ORC,因为ORC的压缩比更高(文件能压缩的更小),但是转念一想,ORC和Parquet都是列式存储的格式,两者之间有什么区别呢?或者说在最开始选择数据存储格式的时候,我们需要关注哪些点呢?这另我陷入了沉思,开始在网上收集相关信息!一、orc和parquet的区别_orc vs parquet