Hive的表操作1

一、Hive表操作1-内部表和外部表1、内部表是私有表,一旦给表加载数据之后,内部表认为这份数据就是他独占的,表一旦删除,表数据文件会跟着全部删除,如果在应用中,数据是部门内部的,或者个人的,则表可以设置为内部表,不会对其他人造成影响。2、内部表创建语法: c...

   数栈君  发表于2023-07-07 11:12  174  0

Hive的表操作2

1、Hive是数仓管理工具,用来管理数仓2、Hive可以将数仓存在HDFS上的文件变成一张张的表3、Hive提供一种HiveSQL可以表进行分析处理4、HiveSQL底层默认是MapReduce,以后可以换成其他的引擎(Spark),我们写HiveSQL会去匹...

   数栈君  发表于2023-07-07 11:12  213  0

Hive的表操作3

一、Hive表数据的插入方式1、方式1:insert into table score3 partition(dt ='2022-10-01') values ('001','002',100);2、方式2 -(重要)insert overwrite tabl...

   数栈君  发表于2023-07-07 11:12  181  0

Hive的表操作4

一、内置函数1.数学函数-- 四舍五入函数select round(3.1415926,4); -- 四舍五入 保留4位小数 3.1416-- 获取 [1,100]之间的随机数select `floor`(rand() * 100) + 1; -- 向下取整s...

   数栈君  发表于2023-07-07 11:12  232  0

Hive的表操作5

一、列转行行转列上次分享过了,主要是用 collect_set(去重)/collect_list(不去重)+group by今天继续讲列转行,主要是用爆炸函数lateral view explode()--准备数据 10 CLARK|KING|MI...

   数栈君  发表于2023-07-07 11:11  220  0

Hive的表操作6

一、自定义函数当Hive提供的内置函数无法满足你的业务处理需要时,此时就可以考虑使用用户自定义函数(UDF:user-defined function)。根据用户自定义函数类别分为以下三种:1、UDF(User-Defined-Function)一进一出类似于...

   数栈君  发表于2023-07-07 11:11  202  0

Hive的表操作7

一、Hive的压缩方式1、Hive底层默认是MaReduce,Hive的压缩实际上就是MapReduce的压缩2、MapReduce压缩分为Map端结果文件压缩和Reduce端结果文件压缩use myhive;-- 开启Map输出阶段压缩set hive.ex...

   数栈君  发表于2023-07-07 11:11  179  0

Hive的表操作8

一、Hive的优化1.key值问题-空KEY过滤有时join超时是因为某些key对应的数据太多,而相同key对应的数据都会发送到相同的reducer上,从而导致内存不够。此时我们应该仔细分析这些异常的key,很多情况下,这些key对应的数据是异常数据,我们需要...

   数栈君  发表于2023-07-07 11:11  199  0

HBase基础

前言HDFS: 分布式文件存储系统特点: 吞吐量极高, 适合于进行批量数据处理的工作, 随机的读写能力比较差(压根不支持)但是, 在实际生产环境中, 有时候的数据体量比较大, 但是希望能够对数据进行随机的读写操作, 而且不能太慢了, 那此时怎么办呢?对于市场来...

   数栈君  发表于2023-07-07 11:10  202  0

一站式运维管家 ChengYing 主机接入原理解析

之前的文章中,我们已经为大家介绍了 ChengYing 的安装原理、产品包制作、产品线部署等内容,本篇将和大家介绍一个困扰许多开发者的内容——ChengYing 主机接入。帮助所有对 ChengYing 感兴趣的开发者更好地了解和使用一站式全自动化运维管家 C...

   数栈君  发表于2023-07-07 10:40  239  0
1774条数据,每页显示10条
社区公告
  • 大数据领域最专业的产品&技术交流社区,专注于探讨与分享大数据领域有趣又火热的信息,专业又专注的数据人园地

最新活动更多
微信扫码获取数字化转型资料
钉钉扫码加入技术交流群