hive表

hive表

Spark小文件合并优化参数详解与实践

知识百科数栈君 发表了文章 • 0 个评论 • 220 次浏览 • 2025-06-29 18:59 • 来自相关话题

Spark小文件合并优化参数详解与实践 在大数据处理领域,Spark作为一款高性能的分布式计算框架,广泛应用于数据处理和分析任务中。然而,在实际应用中,Spark面临的一个常见问题是“小文件”(Small Files)的处理效率低下。小文件通常指... ...查看全部

Hive分区

网友分享数栈君 发表了文章 • 0 个评论 • 796 次浏览 • 2024-01-10 14:05 • 来自相关话题

一、理论基础1、Hive分区背景在Hive Select查询中一般会扫描整个表内容,会消耗很多时间做没必要的工作。有时候只需要扫描表中关心的一部分数据,因此建表时引入了partition概念。2、Hive分区实质因为Hive实际是存储在HDFS上的抽象,Hiv... ...查看全部

Spark小文件合并优化参数详解与实践

知识百科数栈君 发表了文章 • 0 个评论 • 220 次浏览 • 2025-06-29 18:59 • 来自相关话题

Spark小文件合并优化参数详解与实践 在大数据处理领域,Spark作为一款高性能的分布式计算框架,广泛应用于数据处理和分析任务中。然而,在实际应用中,Spark面临的一个常见问题是“小文件”(Small Files)的处理效率低下。小文件通常指... ...查看全部

Hive分区

网友分享数栈君 发表了文章 • 0 个评论 • 796 次浏览 • 2024-01-10 14:05 • 来自相关话题

一、理论基础1、Hive分区背景在Hive Select查询中一般会扫描整个表内容,会消耗很多时间做没必要的工作。有时候只需要扫描表中关心的一部分数据,因此建表时引入了partition概念。2、Hive分区实质因为Hive实际是存储在HDFS上的抽象,Hiv... ...查看全部