一、数据类型分类C/C++语言有自己的数据类型,MySQL也有自己的数据类型,常见的的数据类型如下: 注:带红色的是下面要讲解的类型数据类型的作用: ●决定了存储数据时应该开辟的空间大小。 ●决定了数据的取值范围。二、数值类型2.1 tinyin...
1. 什么是KafkaKafka是一个分布式流处理系统,流处理系统使它可以像消息队列一样publish(发布)或者subscribe(订阅)消息,分布式提供了容错性,并发处理消息的机制。kafka运行在集群上,集群包含一个或多个服务器。kafka把消息存在to...
一、环境准备1、Flink 是一个分布式的流处理框架,所以实际应用一般都需要搭建集群环境。 需要准备 3 台 Linux 机器。具体要求如下: ●系统环境为 CentOS 7.5 版本。 ●安装 Java 8。 ●安装 Hadoop 集群,H...
前言1.Apache Doris是一个现代化的基于MPP(大规模并行处理)技术的分析型数据库产品。简单来说,MPP是将任务并行的分散到多个服务器和节点上,在每个节点上计算完成后,将各自部分的结果汇总在一起得到最终的结果(与Hadoop相似)。仅需亚秒级响应时间...
Hive中的HASH函数用于将任意长度的字符串或二进制数据映射为一个固定长度的整数值,其语法如下:HASH(str)其中,str是要进行哈希计算的字符串或二进制数据。Hive中的哈希函数采用的是MurmurHash算法,这是一种非常高效的哈希算法。该算法将输入...
一、了解死锁死锁是导致数据库中的竞争性并发锁,通常在多步骤事务中。当两个或多个任务永久相互阻止时,每个任务都锁定了其他任务尝试锁定的资源,就会发生死锁。例如: ●事务 A 获取第 1 行上的共享锁。 ●事务 B 获取第 2 行上的共享锁。 ●...
1.数据归约在实际应用中,数据仓库可能存有海量数据,在全部数据上进行复杂的数据分析和挖掘工作所消耗的时间和空间成本巨大,这就催生了对数据进行归约的需求。数据归约可以从几个方面入手: ●如果对数据的每个维度的物理意义很清楚,就可以舍弃某些无用的维度,并使用...
在kafka-0.8.2之后,producer不再区分同步(sync)和异步方式(async),所有的请求以异步方式发送,这样提升了客户端效率。producer请求会返回一个应答对象,包括偏移量或者错误信。这种异步方地批量的发送消息到kafka broker节...
本文仅仅介绍通过java api访问hive的数据。本文依赖hive环境可用,特别是HiveServer2。本文比较简单,仅仅为示例。一、pom.xml <dependency> <groupId>org....
该笔记记录缘由:客户要求分析21年3月每天用户消费的高峰时间点,每天随机取50条数据进行分析,总结出3种随机取数的方法,详情如下1、方法一1)使用rand()随机取数,适用于数据量少的情况,若查询表数量大会非常耗时(测试效果建下图一)-- 写法一SELECT ...