博客 浅谈大数据运维

浅谈大数据运维

   数栈君   发表于 2023-06-30 17:26  444  0

01

背景

随着互联网的普及,人们几乎每天都在上网,因此上网产生的数据量也越来越大。数据作为一种新型资产,可从中挖取不少的价值。但面对超大规模、复杂类型的数据传统的数据库难以满足存储及处理的要求,需要借助大数据平台进行存储及处理。

02

大数据平台介绍

大数据平台底层组件一般会选择Hadoop,它是一款成熟的集存储、调度、计算于一体的一种组件。他的存储系统是HDFS、调度框架是Yarn、计算引擎用的较为传统的MapReduce。我们可将Hadoop比喻成一个“操作系统”,因为它自身已经具备了操作系统应有的功能。Hadoop底层的存储组件HDFS管理了存储资源,它有账户、权限、配额、文件格式等多种特性,用户与它进行交互时可提交计算任务。而计算资源是由Yarn进行统一管理的,Yarn使用队列的概念将计算资源分成了多份,便于运行复杂场景下的任务。计算引擎Hadoop使用的是MapReduce,它是个分布式计算框架,将一个大任务分成多个小任务分别在不同的机器上运行。

由于用户直接写MapReduce代码太繁琐,效率低,因此引入了Hive。它是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载,这是一种可以查询和分析存储在Hadoop中的大规模数据的机制。为了提高计算效率,除了MapReduce之外,还引入了Spark、Tez等效率较高的计算引擎。Hadoop、Hive、Spark、Tez等基础组件构成了大数据平台底层架构,在此之上可根据需求建设一系列的产品,如:报表可视化系统、元数据管理系统、调度系统、数据集成系统、数据服务系统等。大数据平台较为简便的架构如图1所示,即底层的Hadoop提供了存储、调度、计算服务,以及之上的Spark、Tez等计算引擎负责具体任务的执行,最上层有跟用户直接交互的产品。数据从数据源开始消费,数据源一般是MySQL、MongDB等数据库。数据从数据源进入到数仓后,会经过多轮的处理最终会形成日报等,更有价值的信息。

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/412f3bb8d022be32899dc33734f036cf..jpg

图1

03

大数据运维介绍

大数据平台中底层的集群生态包括,Hadoop、Hive、Spark、Tez、Ranger、Kerberos等多个相关的服务。一种常见的离线集群的架构如图2所示。

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/fa576db3282fa791b388a5dea6c8b399..jpg

图2

每一位从事大数据平台相关的同学,或多或少都离不开运维的工作。尤其是负责大数据集群的同学,需要做众多运维相关的工作。只有底层组件足够稳定、健壮,才能保证上层任务运行的流畅度及用户日常的需求。大数据集群规模可大、可小,数据量、任务数也是随着公司战略逐步变化的。并且集群有诸多服务,而服务与服务间均有特定的交互,每个服务都有多个配置文件、包和相应的参数。同时运维工作对操作规范的要求很高,需保证集群服务、配置文件、包等的一致性和容错性。为了运维管理的便捷,稳定,常规的运维体系会用统一的运维管理工具,如:SaltStack、Ansible等。

常见的运维体系会把集群中所有服务的配置文件、包和配置参数等,均集中到一台或几台运维管理的主节点上。再通过这台或多台主节点管理集群的所有节点。为了较好的辨别,集群中多个服务的多种配置文件、包、配置参数等,可以把它们根据集群、服务、分组等几个维度进行分类。并借助运维管理工具进行统一管理。即可以很明确的对某个集群的、某个服务的、某个分组的某一台或几台节点进行具体的操作。运维体系的简单架构如图3所示。

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/02a2e869bc634e0d8339c90cdc33c957..jpg

图3

从更高维度、更抽象的说,运维其实就是跟机器进行交互。即大数据运维是跟大数据平台或集群进行一系列的“增删改查”的操作。较为优秀的运维体系会将基础的运维流程标准化、抽象化、并且分解每个步骤,之后有其他新的需求时会把基础的步骤拼凑起来,快速完成标准化的运维操作。这种体系的优点在于可扩展性强、应用场景广,并且运维操作较为标准。

04

结语

大数据平台作为公司数据中心核心的平台,应该为业务方提供高效的服务。尤其在金融机构等传统行业公司数字化转型的过程中,需要构建全面、统一、标准化的企业级大数据平台。平台应将稳定的提供7*24小时不间断的服务,为公司更好的利用数据资产做好基础。

免责申明:

本文系转载,版权归原作者所有,如若侵权请联系我们进行删除!

《数据治理行业实践白皮书》下载地址:https://fs80.cn/4w2atu

《数栈V6.0产品白皮书》下载地址:https://fs80.cn/cw0iw1

想了解或咨询更多有关袋鼠云大数据产品、行业解决方案、客户案例的朋友,浏览袋鼠云官网:https://www.dtstack.com/?src=bbs

同时,欢迎对大数据开源项目有兴趣的同学加入「袋鼠云开源框架钉钉技术群」,交流最新开源技术信息,群号码:30537511,项目地址:https://github.com/DTStack

0条评论
社区公告
  • 大数据领域最专业的产品&技术交流社区,专注于探讨与分享大数据领域有趣又火热的信息,专业又专注的数据人园地

最新活动更多
微信扫码获取数字化转型资料
钉钉扫码加入技术交流群