数据中台数据中台
申请试用
新闻动态
了解袋鼠云最新动态
新闻动态>云计算运维是怎样的?>
云计算运维是怎样的?
20211230|文章来源:-

2019 年 Q1,公有云 IaaS 市场同比增长 74%。越来越多的企业,开始把自己线下的数据中心和机房搬迁上公有云。而一旦企业放弃了自建的 IT 基础设施,甚至把员工的办公电脑都搬到了云上,由公有云厂商提供服务,那么企业是否还需要这么多运维人员呢?

 

云时代的运维是怎么样的?

云上的运维人员完全接触不到物理设备,取而代之的是云上的虚拟资源,例如云服务器,云盘,虚拟交换机等。云厂商将对资源的操作全部抽象成了软件定义的 API 接口,并用统一风格的 SDK、命令行进行封装,提供给运维人员使用。云厂商提供的图形化的运维控制台,也不过是 API 的封装而已。

其次,云上运维是高度简化的。在云上,虚拟专有网络产品将网络设备的管理和运维变得统一和简单,云上数据库产品实现了智能化的数据库管理,云服务器实现了动态的扩缩容和热迁移,这些都大幅降低了运维操作的门槛。云上的运维人员不再需要感知底层基础设施的细节,更不需要考取高难度的认证。即使是创业阶段的小企业也可以拥有和大企业同等的运维能力。

但是运维简化,并不意味着运维的重要性降低,相反,在云上,运维变得比以前更加重要了。

云时代运维面临的挑战

云上运维主要面临着以下挑战:首先,运维排查问题的难度增加了。由于云上“黑盒子”的存在,当故障突然发生时,运维人员往往只能看到服务出现异常了,很难快速判定问题出在哪里,从而耽误了故障恢复时间。

第二,云服务发出的消息、日志、事件等难以有效处理。如果运维人员每天收到几千条短信或者邮件,一定是无法及时处理的,只能无脑忽略。但是又不能设置邮件规则将它们全部扔到垃圾箱里,因为会担心漏掉重要的通知。

第三,资源的膨胀带来了管理的复杂性。所有的资源都是软件概念,对于一个大企业来说,这些资源可能分布在全球的不同地区,分散在几百到几千台的服务器,这些资源也一直在变化。如何有效的跟踪、审计、创建、释放并保证无浪费?

第四,云产品的频繁升级带来了运维的频繁被动变化。云产品的选择非常多,实例类型纷繁复杂,运维人员的工作越来越多,从传统的机房巡检工作到需要实现监控告警、安全防护、日志审计等更多功能。如何选择适合自己的产品?新功能如何才能帮助到业务?…… 盲目的不停更换运维方案不是良策。

如何调整才能适应云时代的运维

监控自动化:相信大家都走过人肉运维的痛苦阶段,尽管运维工程师 7*24 轮班待命,但客户仍然投诉不断,系统问题不断。因此,需要通过监控报警将故障的平均发现时间从 1 小时缩短到1分钟,可以在故障发生前,提前预警并采取行动,帮助运维实现无人值守监控全过程。

管理集中化:当运维需求随着业务需求不断变化,服务器不断增多,我们需要对其进行统一集中化管理,并在数量不断增加的情况下保持稳定。

运维全面化:当用户需求开始变得复杂,我们需要以一抵十,所有运维功能一站式管理,减少产品更迭。

要想实现云上运维的顺利升级,首要任务就是”自动化一切“,未来传统运维会朝着智能运维的方向持续演进。

 

此刻起,和袋鼠云一起让数据产生更大价值
此刻起,和袋鼠云一起让数据产生更大价值