云南省某金融机构,业务系统的迅速发展,极大地提升省联社业务运营能
的同时,本身的复杂性也大大增加,系统产生的事件及问题不断增多,各项事件和问题的都存在很强的关联性、依赖性。
但是各系统数据孤岛的状态直接导致了运维数据难以关联分析,拉长了解决问题的时间周期,对该金融机构自身的运维能力带来新的挑战。
在这样的背景下,该金融机构经过了长期的考察和商讨,最终选择了为多家知名企业搭建运维数据分析平台的智能运维专家——袋鼠云。
从客户的实际情况出发,袋鼠云为客户构建了完整的日志平台建设方案,并一起打造运维数据分析平台。
1、方案设计
在与该金融机构深入的沟通和交流中,我们发现该金融机构当前的运维
设还是比较传统的:主要以IT资源(包括硬件、软件和网络设备等)的管理为核心,资源的信息非常完备,但是对于资源上面支撑的业务应用运行状况的采集和分析相对缺乏。
在银行的业务应用系统中,大量的交易流水、业务流水和交易日志中包含了对于业务运行状况最细节的描述,如果将这些数据收集起来,合理地加以处理和分析,就能实时、准确地反映当前业务执行状况。同时,将该业务涉及的IT资源使用状态也一并收集,并进行关联分析,从而真正了解 IT 资源如何对业务做出贡献, 并能迅速地根据业务问题定位 IT 资源问题。
根据上述深入的调研收获,袋鼠云提出了6个建设目标,希望帮助该金融机构搭建自己的集中化运维数据分析平台:
整合数据,建设统一采集平台,进行数据采集和管理,包括各监控系统
据(例如网络镜像数据、Tivoli数据等)、日志数据、数据库数据等;
建设基于流式计算的数据处理分析平台,挖掘数据中的有效信息进行关联分析;
对信息进行可视化呈现;
实现图形、短信、微信等多种方式预警;
运维数据分析平台应具备高效、可扩展、易于管理、维护等特点;
节省整体运营成本。
整个运维数据分析平台建设的核心思想在于通过实时采集业务运行数据(如客户交易流水、业务执行流水、日志等),以及实时系统运行数据(包括应用服务器、中间件、数据库和主机等),然后通过一定的数据模型将这些数据关联起来,以业务的角度动态展示,并使用一系列算法进行在线和离线分析,并使系统根据分析结果进行自动化处理,从而达到将企业业务运行状况和IT资源协同监控和管理的目的。