hdfs

hdfs

Hadoop 之 HDFS 详解

技术共享数栈君 发表了文章 • 0 个评论 • 33 次浏览 • 6 天前 • 来自相关话题

一、产生背景:随着数据量越来越大,在一个操作系统存不下所有的数据,那么就分配到更到的操作系统管理的磁盘中,但是管理不方便和维护,迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统,HDFS只是分布式文件管理系统的一种。二、定义:HDFS (Had... ...查看全部

IDEA连接Linux上的Hadoop并对HDFS进行操作

技术共享数栈君 发表了文章 • 0 个评论 • 28 次浏览 • 6 天前 • 来自相关话题

Windows软件准备和Linux上版本相同的Hadoop压缩包解压: 将放在Linux上面的Hadoop压缩包(hadoop_xxxx.tar.gz)放在Windows任意硬盘中任意(建议新创建的一个Hadoop文件夹)文件夹, 然后直接进行解压即可, 不需... ...查看全部

HDFS高可用性配置与故障恢复实操

知识百科数栈君 发表了文章 • 0 个评论 • 60 次浏览 • 2024-03-07 11:17 • 来自相关话题

Hive-架构与设计

网友分享数栈君 发表了文章 • 0 个评论 • 71 次浏览 • 2024-02-28 10:39 • 来自相关话题

一、背景和起源大数据存储和处理框架Hadoop提供了对数据的存储、分析、任务调度的处理。其中的MapReduce可以对数据进行处理和分析的,但是MapReduce的编程比较繁琐并且修改不方便,对于一些单次处理和交互式分析非常不便。为了支持对数据仓库中数据的分析... ...查看全部

Flink Job 执行流程

知识百科数栈君 发表了文章 • 0 个评论 • 81 次浏览 • 2024-01-29 11:36 • 来自相关话题

Apache Flink 是一款开源的流处理和批处理框架,它具有强大的实时计算能力。Flink Job 的执行流程可以概括为以下几个主要步骤:1. 作业提交 - 开发者编写的 Flink 应用程序通常包含一个或多个流处理或批处理作业。 - 作业通过 `... ...查看全部

Flink Watermark和时间语义

知识百科数栈君 发表了文章 • 0 个评论 • 91 次浏览 • 2024-01-29 11:35 • 来自相关话题

MySQL排障实战(一)—— 连接异常中断丨运维实战

技术共享数栈君 发表了文章 • 0 个评论 • 143 次浏览 • 2024-01-29 11:33 • 来自相关话题

问题背景数栈数据质量模块,接入客户的数据源后,一执行就报错。报错信息:{"logInfo": {{"jobid":"1a4ebbbd","msg_info":"2021-12-20 14:23:54:submit job is success"}} "engi... ...查看全部

Hadoop集群小文件合并优化建议指导

技术共享数栈君 发表了文章 • 0 个评论 • 103 次浏览 • 2024-01-29 11:31 • 来自相关话题

1 综述1.1 综述本指导书旨在指导大数据集群使用者在大数据集群小文件较多的情况下,针对小文件进行优化处理,有效减小集群文件对象数目,减缓namenode所承载的压力,减少mapreduce任务扫描文件数。2 关于小文件2.1 什么是小文件小文件是指文件大小明... ...查看全部

分布式文件系统HDFS

知识百科数栈君 发表了文章 • 0 个评论 • 123 次浏览 • 2023-12-29 10:15 • 来自相关话题

1 分布式结构集群:集群就是逻辑上处理同一任务的机器集合,可以属于同一机房,也可分属不同的机房。分布式:分布式文件系统把文件分布存储到多个计算机节点上,成千上万的计算机节点构成计算机集群。  2 计算机集群结构与之前使用多个处理器和专用高级硬件的并行化处理装置... ...查看全部

Hadoop_HDFS_常见的文件组织格式与压缩格式

知识百科数栈君 发表了文章 • 0 个评论 • 107 次浏览 • 2023-11-09 11:47 • 来自相关话题

袋鼠云大数据基础平台EasyMR正式上线,助力企业构建便捷、智能、高效的“数据底座”

产品交流数栈君 发表了文章 • 0 个评论 • 560 次浏览 • 2022-12-08 14:14 • 来自相关话题

7月28日,在袋鼠云2022产品发布会上,袋鼠云技术负责人思枢正式宣布旗下产品「大数据基础平台EasyMR」发布。EasyMR是袋鼠云自研的大数据基础平台,提供Hadoop、Hive、Spark、Trino、HBase、Kafka等组件,完全兼容Apache开... ...查看全部

Taier的hdfs数据同步现在是不能用吗?

回复

Taier群内解答 回复了问题 • 1 人关注 • 1 个回复 • 446 次浏览 • 2022-12-12 18:39 • 来自相关话题

Hadoop 之 HDFS 详解

技术共享数栈君 发表了文章 • 0 个评论 • 33 次浏览 • 6 天前 • 来自相关话题

一、产生背景:随着数据量越来越大,在一个操作系统存不下所有的数据,那么就分配到更到的操作系统管理的磁盘中,但是管理不方便和维护,迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统,HDFS只是分布式文件管理系统的一种。二、定义:HDFS (Had... ...查看全部

IDEA连接Linux上的Hadoop并对HDFS进行操作

技术共享数栈君 发表了文章 • 0 个评论 • 28 次浏览 • 6 天前 • 来自相关话题

Windows软件准备和Linux上版本相同的Hadoop压缩包解压: 将放在Linux上面的Hadoop压缩包(hadoop_xxxx.tar.gz)放在Windows任意硬盘中任意(建议新创建的一个Hadoop文件夹)文件夹, 然后直接进行解压即可, 不需... ...查看全部

HDFS高可用性配置与故障恢复实操

知识百科数栈君 发表了文章 • 0 个评论 • 60 次浏览 • 2024-03-07 11:17 • 来自相关话题

Hive-架构与设计

网友分享数栈君 发表了文章 • 0 个评论 • 71 次浏览 • 2024-02-28 10:39 • 来自相关话题

一、背景和起源大数据存储和处理框架Hadoop提供了对数据的存储、分析、任务调度的处理。其中的MapReduce可以对数据进行处理和分析的,但是MapReduce的编程比较繁琐并且修改不方便,对于一些单次处理和交互式分析非常不便。为了支持对数据仓库中数据的分析... ...查看全部

Flink Job 执行流程

知识百科数栈君 发表了文章 • 0 个评论 • 81 次浏览 • 2024-01-29 11:36 • 来自相关话题

Apache Flink 是一款开源的流处理和批处理框架,它具有强大的实时计算能力。Flink Job 的执行流程可以概括为以下几个主要步骤:1. 作业提交 - 开发者编写的 Flink 应用程序通常包含一个或多个流处理或批处理作业。 - 作业通过 `... ...查看全部

Flink Watermark和时间语义

知识百科数栈君 发表了文章 • 0 个评论 • 91 次浏览 • 2024-01-29 11:35 • 来自相关话题

MySQL排障实战(一)—— 连接异常中断丨运维实战

技术共享数栈君 发表了文章 • 0 个评论 • 143 次浏览 • 2024-01-29 11:33 • 来自相关话题

问题背景数栈数据质量模块,接入客户的数据源后,一执行就报错。报错信息:{"logInfo": {{"jobid":"1a4ebbbd","msg_info":"2021-12-20 14:23:54:submit job is success"}} "engi... ...查看全部

Hadoop集群小文件合并优化建议指导

技术共享数栈君 发表了文章 • 0 个评论 • 103 次浏览 • 2024-01-29 11:31 • 来自相关话题

1 综述1.1 综述本指导书旨在指导大数据集群使用者在大数据集群小文件较多的情况下,针对小文件进行优化处理,有效减小集群文件对象数目,减缓namenode所承载的压力,减少mapreduce任务扫描文件数。2 关于小文件2.1 什么是小文件小文件是指文件大小明... ...查看全部

分布式文件系统HDFS

知识百科数栈君 发表了文章 • 0 个评论 • 123 次浏览 • 2023-12-29 10:15 • 来自相关话题

1 分布式结构集群:集群就是逻辑上处理同一任务的机器集合,可以属于同一机房,也可分属不同的机房。分布式:分布式文件系统把文件分布存储到多个计算机节点上,成千上万的计算机节点构成计算机集群。  2 计算机集群结构与之前使用多个处理器和专用高级硬件的并行化处理装置... ...查看全部

Hadoop_HDFS_常见的文件组织格式与压缩格式

知识百科数栈君 发表了文章 • 0 个评论 • 107 次浏览 • 2023-11-09 11:47 • 来自相关话题