ETL详解--数据仓库技术

一、ETL简介ETL,是英文Extract-Transform-Load的缩写,用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程,是数据仓库的生命线。它是一种数据处理过程,用于从不同的数据源中提取数据...

   数栈君  发表于2024-07-31 15:06  394  0

优化数据处理效率,解读 EasyMR 大数据组件升级

EasyMR 作为袋鼠云基于云原生技术和 Hadoop、Hive、Spark、Flink、Hbase、Presto 等开源大数据组件构建的弹性计算引擎。此前,我们已就其展开了多方位、多角度的详尽介绍。而此次,我们成功接入了大数据组件的升级和回滚功能,能够借助 ...

   数栈君  发表于2024-07-31 15:03  508  0

greenplum安装配置

一、配置服务器安装环境1、修改服务器内核参数(所有节点)编辑sysctl.conf,需要设置共享内存Greenplum数据库使用共享内存在属于同一postgres实例的postgres进程之间进行通信。kernel.shmall设置可以在系统范围内使用的共享内...

   数栈君  发表于2024-07-24 14:27  674  0

greenplum扩容

一、纵向扩展1、执行命令,生成参数文件Bash[gpadmin@gw_mdw1 ~]$ gpexpand -f seg_hosts -D test 20190327:23:18:01:007122 gpexpand:gw_mdw1:gpadmin-[INFO]...

   数栈君  发表于2024-07-24 14:26  274  0

Mysql删除binlog

binlog 是记录所有数据库表结构变更(例如CREATE、ALTER TABLE…)以及表数据修改(INSERT、UPDATE、DELETE…)的二进制日志。一、手动删除直接在 /var/lib/mysql 路径下,将 binlog.0* 删除掉(注意不要删...

   数栈君  发表于2024-07-24 14:24  326  0

MySQL主从复制配置

一、master服务器配置1)用户添加及授权在master 服务器授权一个账户,拥有slave权限12mysql> GRANT REPLICATION SLAVE,REPLICATION CLIENT ON *.* TO 'repl'@'备库ip' ID...

   数栈君  发表于2024-07-24 14:23  272  0

kafka如何保证消息不丢失

 Kafka发送消息是异步发送的,所以我们不知道消息是否发送成功,所以会可能造成消息丢失。而且Kafka架构是由生产者-服务器端-消费者三种组成部分构成的。要保证消息不丢失,那么主要有三种解决方法。生产者(producer)端处理生产者默认发送消息代码如下:i...

   数栈君  发表于2024-07-24 14:21  297  0

kafkastream的集成和入门

kafkastream的介绍:Kafka Streams是一个开源的流处理库,用于构建实时数据流应用程序和微服务。它是Apache Kafka项目的一部分,是一种基于事件驱动的流处理解决方案。Kafka Streams提供了高级别的API,使开发人员能够以简单...

   数栈君  发表于2024-07-24 14:17  319  0

SpringCloud-实现基于RabbitMQ的消息队列

消息队列是现代分布式系统中常用的通信机制,用于在不同的服务之间传递消息。在Spring Cloud框架中,我们可以利用RabbitMQ实现强大而可靠的消息队列系统。本篇博客将详细介绍如何在Spring Cloud项目中集成RabbitMQ,并创建一个简单的消息...

   数栈君  发表于2024-07-24 14:15  355  0

Spark SQL函数

内置函数 Spark SQL内置了大量的函数,位于API org.apache.spark.sql.functions中。其中大部分函数与Hive中的相同。 使用内置函数有两种方式:一种是通过编程的方式使用;另一种是在SQL语句中使用。- 以编...

   数栈君  发表于2024-07-24 14:11  377  0
2213条数据,每页显示10条
社区公告
  • 大数据领域最专业的产品&技术交流社区,专注于探讨与分享大数据领域有趣又火热的信息,专业又专注的数据人园地

最新活动更多
微信扫码获取数字化转型资料
钉钉扫码加入技术交流群