数据中台数据中台
申请试用
新闻动态
了解袋鼠云最新动态
新闻动态>「大数据运维」如何利用大数据运维挖掘数据的价值>
「大数据运维」如何利用大数据运维挖掘数据的价值
2020910|文章来源:-

「大数据运维」如何利用大数据运维挖掘数据的价值,关于大数据的运营,业界已经有很多讨论,但往往众说纷纭,对大数据的运营也没有一个全面的看法。根据我在大数据运维方面积累的经验,系统阐述了大数据运维的一些经验,供大家参考。
运营大数据的背景、现状及对策。

「大数据运维」如何利用大数据运维挖掘数据的价值
在IT运维架构日益复杂的今天,传统的IT运维管理模式更加注重资源故障的及时预警,监控指标的种类更加全面,运维流程执行的规范性不断提高。因此,现阶段很多企业使用相应的自动化运维工具来满足日常运维管理需求,各种工具收集的运行数据和日志记录每月都在TB级以上。但现实是这些工具使用的历史数据不到10%,大部分都是。归根结底,一方面传统自动化工具基于轻量级架构,无法支持T级以上的海量数据分析和并行计算,尤其是大量的日志、性能和告警;另一方面,很多自动化工具为了保证查询统计的效率,往往对长历史数据采取一些压缩策略,放弃部分,使得大量有用的运维数据无法用于以后的管理。
「大数据运维」如何利用大数据运维挖掘数据的价值,因此,目前很多企业已经开始思考如何利用大数据技术,对各种自动化工具生成的累积运营数据和各种业务系统生成的日志数据进行分析和处理,对其运营进行挖掘和预测,从而改进目前的工作方式,支持业务更好的运行。
运营大数据采集。
为了利用大数据技术挖掘运营数据的价值,数据收集无疑是关键。鉴于各企业自动化运维管理工具的使用不均衡,一个能够对接不同自动化工具的运维大数据分析平台似乎成了“新需求”。虽然数据收集非常重要,但并不意味着自动化操作工具生成的所有数据都需要分析,而是应该更加关注一些实时变化的操作监控数据和服务流程数据。在运行监控方面,一般包括设备性能数据、报警阈值数据、应用日志数据等。
设备性能数据:IT运营工具根据实际运营管理需求,主动巡视收集IT基础设施的运营指标数据,如网络设备、服务器、内存、虚拟机、数据库、中间件等。
阈值报警数据:IT运营工具对超过指标阈值的监控设备性能数据生成的报警数据。
应用日志数据:由IT设备或应用本身生成的运行记录数据,如Syslog、Trap等。
操作数据分析工具使用历史操作数据来构建机器自动化学习模型。虽然算法对采集操作数据的数量和时间范围没有明确的要求和限制,但为了尽可能保证分析结果的准确性,采集的操作数据越大,时间范围越长,分析结果就越准确、真实。
「大数据运维」如何利用大数据运维挖掘数据的价值怎么做分析?给运营管理带来怎样的应用价值?
在操作数据分析技术的方法上,从监测大数据的分析维度来看,有两种分析,一种是数据相关性分析,一种是数据周期分析。
l相关性分析(同时不同维度)-用于跨业务系统、软硬件设备、自动化工具等生成的多个指标之间的内部相关性。,主要用于挖掘运行中故障的根本原因,发现潜在原因。
方法应用:挖掘报警源。
不知道大家有没有听过沃尔玛“啤酒+纸尿裤”大数据关联分析的经典案例。首先,不要去想这个故事的真实性,要相信听过的人都能理解这个销售故事的本质。分析数据后发现,两者之间有一种“惊人”的关系,看似截然不同。在研究运维大数据分析方法的过程中,我们发现这种分析方法可以帮助运维管理者有效地找到告警信息的根源。
怎么理解?或许可以举个例子。
商业上,a服务器和b服务器相连。Tomcat是A服务器之一,由于CPU占用大而报警;Oracle是b服务器之一,由于Oracle死锁的增加而报警。所以在使用大数据相关性分析技术分析历史数据时,发现这两个看似无关的指标同时报警的概率高达90%。更令人惊讶的是,进一步挖掘相关性后发现,A服务器的正常告警信息与TomcatCPU同时告警的指标实际上包括了C交换机的特定端口流量和A服务器的URL响应时间,概率分别为85%和80%。这样运维人员可以利用运维大数据技术不断学习和分析特征,根据相关概率挖掘出告警引发的根本指标问题,丰富运维关系数据库和知识库,大大节省人力、物力和财力,从根本上解决潜在问题,消除安全隐患。
l周期分析(同维不同时间)-针对同一指标、同一故障报警、同一日志记录等不同周期发生规律,主要用于时间序列挖掘分析和重复事务挖掘。
方法应用:基准指数预测。
业内很多学者对这种分析方法持观望态度;当然也有一些算法先进的IT运维服务商,他们的运维大数据分析平台就是用这种方法衍生出一些运维大数据应用。其中最引人注目的是预测指标基线,利用大数据自动学习业务操作规则,生成指标动态预警基线。此时,操作员可以根据基线实时报警,摆脱“经验式”故障报警模式,提高运行率!
再举一个例子来说明:
以往在与中国移动、中国联通等客户打交道的过程中,发现运营商的业务量高峰主要出现在春节期间,原因是春节期间用户抢红包的特殊需求。在这种情况下,运营商如何在业务高峰期保证整个IT系统的稳定?他们的做法是根据业务部门提供的业务量增长估计值来判断信息技术绩效增长的百分比。换句话说,预计今年春节期间业务增长将达到50%,因此IT运营部门将增加服务器和集群节点的整体配置,从而将IT性能提高50%,并确保IT系统在业务高峰期的承载能力!显然,这种IT运营决策存在巨大的风险。如果IT投入太小,很容易导致整个业务运营服务体系的崩溃,进而造成浪费。
此时,运维大数据周期分析技术的应用所产生的指标基线预测方法也体现了其优势。通过研究分析历史运维数据,预测未来(7天)各指标的变化趋势图,运营商的运营商可以根据基线预测结果,了解各IT指标在节假日高峰期可能的运行形式,以便提前采取措施,深入保障系统的稳定和安全!
挖掘大数据的价值不是一件简单的事情,它涉及到很多内容,需要在研究大数据规律的过程中不断完善。所以,不要认为你应该掌握以上两种分析计算方法来挖掘大数据在运维中的价值。在更多的情况下,应以相关性分析和周期性分析为基础,两者结合***,然后结合运维业务对分析结果进行过滤和可视化展现。

此刻起,和袋鼠云一起让数据产生更大价值
此刻起,和袋鼠云一起让数据产生更大价值