文章 - 袋鼠社区-袋鼠云丨数栈丨数据中台丨数据治理丨湖仓一体丨数据开发丨基础软件

你的浏览器禁用了JavaScript, 请开启后刷新浏览器获得更好的体验!

筛选：: 最新推荐的热门的

一文读懂Parquet 列式存储格式 1概念大规模分析型数据处理在互联网乃至其他行业中应用都已越来越广泛，尤其是当前已经可以用廉价的存储来收集、保存海量的业务数据情况下。如何让分析师和工程师便捷的利用这些数据也变得越来越重要。列式存储（Column-oriented Storage）是大数据场景面... 数栈君发表于2023-07-25 16:33 313 0

一文详解大数据处理都分为哪几步？ 数据的处理过程一般包括采集、传输、清洗、存储、计算、数据运用等环节。大体流程如下：这是最基本的流程，当然实际项目中会根据不同项目情况下中间的一些顺序可能会有些调整。数据采集：这是第一步，主要是对各种类型的数据通过各种方法进行采集，比如日志数据、文本文件、音视频... 数栈君发表于2023-07-25 16:32 330 0

HBase RegionServer宕机数据恢复 HBase采用类LSM的架构体系，数据写入并没有直接写入数据文件，而是会先写入缓存（Memstore），在满足一定条件下缓存数据再会异步刷新到硬盘。为了防止数据写入缓存之后不会因为RegionServer进程发生异常导致数据丢失，在写入缓存之前会首先将数据顺序... 数栈君发表于2023-07-25 16:31 284 0

Spark：一站式的分布式计算引擎 1、背景简介 Spark最初由美国加州伯克利大学（UCBerkeley）的AMP实验室于2009年开发，是基于内存计算的大数据并行计算框架，可用于构建大型的、低延迟的数据分析应用程序。2013年，Spark加入Apache孵化器项目后，开始... 数栈君发表于2023-07-25 16:30 298 0

HBase：主流的分布式NoSQL数据库 Google曾就大量信息如何存储，如何计算，如何快速查询发表了3篇论文，分别是GFS、MapReduce、BigTable ，后来这几篇论文被Doung Cutting（被誉为Hadoop之父）看见了，就使用java语言实现了三篇论文，与之对应的就是：HDFS... 数栈君发表于2023-07-25 16:30 210 0

Hive：基于Hadoop的数据仓库 Hive 具有 SQL 数据库的外表，但应用场景完全不同， Hive 只适合用来做批量海量数据统计分析，也就是数据仓库。Hive 是基于 Hadoop 的一个数据仓库工具，实质就是一款基于 HDFS 的 MapReduce 计算框架，因为Hive 依赖于 HD... 数栈君发表于2023-07-25 16:30 254 0

Hadoop：第一代分布式存储计算框架 1Hadoop 第一代分布式存储计算框架Hadoop是一个分布式系统基础架构，由Apache基金会开发，它允许用户在不了解分布式底层细节的情况下，开发分布式程序，充分利用集群的威力高速运算和存储。Hadoop包含丰富的生态组件，有我们耳熟能详的分布式文件系统H... 数栈君发表于2023-07-25 16:28 288 0

Hadoop生态中的六大核心大数据组件 1Hadoop 第一代分布式存储计算框架Hadoop是一个分布式系统基础架构，由Apache基金会开发，它允许用户在不了解分布式底层细节的情况下，开发分布式程序，充分利用集群的威力高速运算和存储。Hadoop包含丰富的生态组件，有我们耳熟能详的分布式文件系统H... 数栈君发表于2023-07-25 16:09 339 0

一文讲清基于Hadoop生态圈的大数据组件 经常有同学问我，基于Hadoop生态圈的大数据组件有很多，怎么学的过来呢，毕竟精力有限，我们需要有侧重点，我觉得下面这几个组件至关重要，是基础组件，大部分人都需要会的，其它组件可以用的时候再去查查资料学习。hadoopHbaseHiveSparkFlinkKa... 数栈君发表于2023-07-25 16:08 228 0

一个标签具体有哪些基本信息？ 在开展对数据的各种分析应用之前，如果在数据仓库的基础上再开展一些数据标签的工作，提前做一些准备工作，那么后续对数据应用的设计开发将更加深入、更加便利，也更容易快速交付。整个数据中台的系统规划如下图所示。从这里可以看到，数据标签介于数据仓库与数据集市之间，在数据... 数栈君发表于2023-07-24 14:06 125 0

共1750条数据，每页显示10条

我要提问

分享经验

社区公告

大数据领域最专业的产品&技术交流社区，专注于探讨与分享大数据领域有趣又火热的信息，专业又专注的数据人园地

最新活动更多

微信扫码获取数字化转型资料

钉钉扫码加入技术交流群

热门产品

数雁EasyDigit 数栈DTinsight 数驹DTengine 易知微EasyV

解决方案

政务解决方案港口解决方案基金解决方案制造解决方案保险解决方案高校解决方案证券解决方案文旅解决方案银行解决方案大宗商品解决方案

快速入口

合作与生态开源社区 Github

联系我们

合作咨询 market@dtstack.com

联系电话 400-002-1024

总部地址杭州市余杭区余杭塘路2301号海智中心8号楼

袋鼠云官方订阅号

袋鼠云官方订阅号

热门搜索：

数据中台企业数据中台金融数据中台离线数据中台数据中台公司一站式数据中台数据中台开发一站式数据开发数据中台解决方案大数据分析数据分析平台新基建大数据开发大数据开发平台数据化转型解决方案信创数据可视化数字孪生可视化大屏数字化转型

友情链接：易知微云掣

@Copyrights 2016-2023 杭州玳数科技有限公司浙ICP备15044486号-1 浙公网安备33011002011932号