数据挖掘--数据归约和变换

1.数据归约在实际应用中,数据仓库可能存有海量数据,在全部数据上进行复杂的数据分析和挖掘工作所消耗的时间和空间成本巨大,这就催生了对数据进行归约的需求。数据归约可以从几个方面入手:    ●如果对数据的每个维度的物理意义很清楚,就可以舍弃某些无用的维度,并使用...

   数栈君  发表于2023-08-11 10:34  62  0

Kafka发送数据的三种模式

在kafka-0.8.2之后,producer不再区分同步(sync)和异步方式(async),所有的请求以异步方式发送,这样提升了客户端效率。producer请求会返回一个应答对象,包括偏移量或者错误信。这种异步方地批量的发送消息到kafka broker节...

   数栈君  发表于2023-08-10 11:12  68  0

java api访问hive操作示例

本文仅仅介绍通过java api访问hive的数据。本文依赖hive环境可用,特别是HiveServer2。本文比较简单,仅仅为示例。一、pom.xml     <dependency>         <groupId>org....

   数栈君  发表于2023-08-10 11:11  58  0

mysql-->随机取数

该笔记记录缘由:客户要求分析21年3月每天用户消费的高峰时间点,每天随机取50条数据进行分析,总结出3种随机取数的方法,详情如下1、方法一1)使用rand()随机取数,适用于数据量少的情况,若查询表数量大会非常耗时(测试效果建下图一)-- 写法一SELECT ...

   数栈君  发表于2023-08-10 11:06  55  0

Redis特性初识及其安装与配置

1.认识RedisRedis(Remote Dictionary Server)是一个基于客户端-服务器架构的存储数据的中间件。它是一种内存数据库,属于NoSQL(非关系型数据库)的一种,可用于作为数据库,缓存/会话存储,消息队列。它通常被用作中间缓存层,将频...

   数栈君  发表于2023-08-10 11:04  55  0

Ubuntu安装RabbitMq

1.安装rabbitmq,由于rabbitmq需要erlang语言支持,所以需要安装erlang。     apt-get install erlang     执行命令查是否安装成功:erl       此时进入Es...

   数栈君  发表于2023-08-10 11:03  72  0

一文带你理解Kafka的Header

Header简介               Kafka从 0.11.0.0 版本开始提供了一种在生产者和消费者之间传递元数据的机制,叫做 Kafka header。使用这个机制,你可以在消息中添加一些与数据内容无关的附加信息,如消息的来源、类型、版本、生产...

   数栈君  发表于2023-08-10 10:58  106  0

k8s 中部署kafka集群

由于开发过程中使用到了kafka,又不想自己部署kafka,索性采用k8s 部署kafka集群,以求做到随时插拔。创建命名空间apiVersion: v1kind: Namespacemetadata:     name: "kafka"     labe...

   数栈君  发表于2023-08-09 10:50  94  0

Kafka系列之消息重新消费

概述需求来源,在review前人留下的屎山代码时发现如下截图所示的代码片段:  也就是说代码是空实现的。另外,从类名定义也知道需求未实现。于是有此需求:已经消费过的消息重新消费。调研调研下来,主要有以下3种可能性方案实现方案修改偏移量,即offset,可通过脚...

   数栈君  发表于2023-08-09 10:49  60  0

表分区(二)• Oracle版

1,Create table statement with partitioning创建分区表的例子:SQL>create table simple(idx number, txt varchar2(20))partition by range(idx)...

   数栈君  发表于2023-08-09 10:48  45  0
1376条数据,每页显示10条
社区公告
  • 大数据领域最专业的产品&技术交流社区,专注于探讨与分享大数据领域有趣又火热的信息,专业又专注的数据人园地

最新活动更多
微信扫码获取数字化转型资料
钉钉扫码加入技术交流群