一、Hive表操作1-内部表和外部表1、内部表是私有表,一旦给表加载数据之后,内部表认为这份数据就是他独占的,表一旦删除,表数据文件会跟着全部删除,如果在应用中,数据是部门内部的,或者个人的,则表可以设置为内部表,不会对其他人造成影响。2、内部表创建语法: c...
1、Hive是数仓管理工具,用来管理数仓2、Hive可以将数仓存在HDFS上的文件变成一张张的表3、Hive提供一种HiveSQL可以表进行分析处理4、HiveSQL底层默认是MapReduce,以后可以换成其他的引擎(Spark),我们写HiveSQL会去匹...
一、Hive表数据的插入方式1、方式1:insert into table score3 partition(dt ='2022-10-01') values ('001','002',100);2、方式2 -(重要)insert overwrite tabl...
一、内置函数1.数学函数-- 四舍五入函数select round(3.1415926,4); -- 四舍五入 保留4位小数 3.1416-- 获取 [1,100]之间的随机数select `floor`(rand() * 100) + 1; -- 向下取整s...
一、列转行行转列上次分享过了,主要是用 collect_set(去重)/collect_list(不去重)+group by今天继续讲列转行,主要是用爆炸函数lateral view explode()--准备数据 10 CLARK|KING|MI...
一、自定义函数当Hive提供的内置函数无法满足你的业务处理需要时,此时就可以考虑使用用户自定义函数(UDF:user-defined function)。根据用户自定义函数类别分为以下三种:1、UDF(User-Defined-Function)一进一出类似于...
一、Hive的压缩方式1、Hive底层默认是MaReduce,Hive的压缩实际上就是MapReduce的压缩2、MapReduce压缩分为Map端结果文件压缩和Reduce端结果文件压缩use myhive;-- 开启Map输出阶段压缩set hive.ex...
一、Hive的优化1.key值问题-空KEY过滤有时join超时是因为某些key对应的数据太多,而相同key对应的数据都会发送到相同的reducer上,从而导致内存不够。此时我们应该仔细分析这些异常的key,很多情况下,这些key对应的数据是异常数据,我们需要...
前言HDFS: 分布式文件存储系统特点: 吞吐量极高, 适合于进行批量数据处理的工作, 随机的读写能力比较差(压根不支持)但是, 在实际生产环境中, 有时候的数据体量比较大, 但是希望能够对数据进行随机的读写操作, 而且不能太慢了, 那此时怎么办呢?对于市场来...
之前的文章中,我们已经为大家介绍了 ChengYing 的安装原理、产品包制作、产品线部署等内容,本篇将和大家介绍一个困扰许多开发者的内容——ChengYing 主机接入。帮助所有对 ChengYing 感兴趣的开发者更好地了解和使用一站式全自动化运维管家 C...