博客 智能运维案例系列 | 袋鼠云日志助力云南某金融机构日志平台建设,实现核心业务系统运维智能化

智能运维案例系列 | 袋鼠云日志助力云南某金融机构日志平台建设,实现核心业务系统运维智能化

   小美   发表于 2021-11-25 17:30  538  0

一、“黑匣子”:我很小,但我很重要


今天聊日志之前,我们先来聊另外一个话题:“黑匣子”。


没错,就是飞机的“黑匣子”。黑匣子是记载飞行数据和驾驶舱通话的设备,它可以记载飞机停止作业前25小时的飞行数据以及30分钟到2小时不等的通讯录音。


http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user166259/article/ee99110cf72a7fb0030b5cd61bfccf6b..jpg

红色的黑匣子


世界上所有的空难发生原因都是经过黑匣子分析出来的,因而它就成了空难事故的见证和“前车之鉴”,黑匣子虽然在平常不起眼,可是却是飞机上一个非常重要的部件,也是飞机出事后唯一重要的部件。


二、日志大数据平台,打造智能的云端“黑匣子”


网络设备、系统及服务程序等,在运作时都会产生一种叫 log 的事件记录;每一行日志都记载着日期、时间、使用者及动作等相关操作的描述。


和黑匣子一样,通过对日志数据的分析,我们可以对系统设备进行故障定位、了解APP和电商网站上的用户行为习惯和消费偏好、对员工的IT操作行为进行内部审计,像之前程序员离职为了泄愤删除公司宝贵数据的行为,可以进行溯源查询...


http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user166259/article/abe78b35d1422fe5f2841a77f50489c5..jpg

一台普通电脑的安全日志


日志数据的价值巨大。而且和只能做“马后炮”的飞机“黑匣子”不同。助云计算的强大计算能力和实时大数据处理分析技术,将日志数据和其他数据比如业务数据、数据库数据、外部爬取数据等进行关联交叉分析后,可实现


  • 秒级实时定位故障;

  • 根据用户行为偏好变化实时动态调整促销文案和策略;

  • 监控系统实时健康度并通过短信、微信、钉钉第一时间告知负责员工;

  • 甚至提前预测系统资源水位、运行状态,准备好对应措施...


总而言之,袋鼠云日志就是这样一款具有实时日志大数据分析功能的、智能化的、云端“黑匣子”。



三、云南省某金融机构的日志大数据平台建设实践


云南省某金融机构,业务系统的迅速发展,极大地提升省联社业务运营能力的同时,本身的复杂性也大大增加,系统产生的事件及问题不断增多,各项事件和问题的都存在很强的关联性、依赖性。


但是各系统数据孤岛的状态直接导致了运维数据难以关联分析,拉长了解决问题的时间周期,对该金融机构自身的运维能力带来新的挑战。


2016年9月,中国银监会印发《银行业金融机构全面风险管理指引》指出:


第四十三条 银行业金融机构应当建立与业务规模、风险状况等相匹配的信息科技基础设施。


第四十四条 银行业金融机构应当建立健全数据质量控制机制,积累真实、准确、连续、完整的内部和外部数据,用于风险识别、计量、评估、监测、报告,以及资本和流动性充足情况的评估。


在这样的背景下,该金融机构经过了长期的考察和商讨,最终选择了为多家知名企业搭建运维数据分析平台的智能运维专家——袋鼠云


从客户的实际情况出发,袋鼠云为客户构建了完整的日志平台建设方案,并一起打造运维数据分析平台。


1. 方案设计

 

在与该金融机构深入的沟通和交流中,我们发现该金融机构当前的运维建设还是比较传统的:主要以IT资源(包括硬件、软件和网络设备等)的管理为核心,资源的信息非常完备,但是对于资源上面支撑的业务应用运行状况的采集和分析相对缺乏。



在银行的业务应用系统中,大量的交易流水、业务流水和交易日志中包含了对于业务运行状况最细节的描述,如果将这些数据收集起来,合理地加以处理和分析,就能实时、准确地反映当前业务执行状况。同时,将该业务涉及的IT资源使用状态也一并收集,并进行关联分析,从而真正了解 IT 资源如何对业务做出贡献, 并能迅速地根据业务问题定位 IT 资源问题。

 

根据上述深入的调研收获,袋鼠云提出了6个建设目标,希望帮助该金融机构搭建自己的集中化运维数据分析平台:

 

  • 整合数据,建设统一采集平台,进行数据采集和管理,包括各监控系统数据(例如网络镜像数据、Tivoli数据等)、日志数据、数据库数据等;

  • 建设基于流式计算的数据处理分析平台,挖掘数据中的有效信息进行关联分析;

  • 对信息进行可视化呈现;

  • 实现图形、短信、微信等多种方式预警

  • 运维数据分析平台应具备高效、可扩展、易于管理、维护等特点;

  • 节省整体运营成本

 

整个运维数据分析平台建设的核心思想在于通过实时采集业务运行数据(如客户交易流水、业务执行流水、日志等),以及实时系统运行数据(包括应用服务器、中间件、数据库和主机等),然后通过一定的数据模型将这些数据关联起来,以业务的角度动态展示,并使用一系列算法进行在线和离线分析,并使系统根据分析结果进行自动化处理,从而达到将企业业务运行状况和IT资源协同监控和管理的目的。

 

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user166259/article/e784acf97e3d24f09ca50e53beb3f6ce..jpg


从图中我们可以看到整个系统工作的逻辑过程。

 

首先是数据采集服务器从业务系统和其对应的IT资源中,实时获取相应的运行状态数据,经过预处理之后,向两个方向发送:


  • 一个方向是监控分析服务器,在其中对数据进行实时处理,主要是报表引擎对数据进行格式化之后,产生动态报表,业务规则引擎判断数据是否具有某种特点从而激活对应的业务规则;

  • 另一个方向是将这些原始数据存储在适合流式数据的数据库中,并结合相应的管理数据,由数据分析引擎进行更为全面和复杂的数据分析。系统提供一个 web 应用界面,使得监控人员、管理人员和数据分析人员能够通过标准的IE 浏览器访问应用。


2. 方案效果


  • 及时掌握业务运转状况,避免误操作

    通过实时动态展示业务的运行状况和关键信息,帮助管理人员及时掌握当前业务运行状态,观察业务运行的变化趋势,并快速判断业务是否正常,做好提前应对措施。

  •  IT运行状况可视化

    直观地展现为实现某个业务功能/能力,IT资源以何种方式运转。通过以拓扑图展现业务服务、应用和底层IT系统构架部件之间的动态关系,增进对各种IT 元素的掌控和理解,并及时发现业务瓶颈。

  •  从业务角度管理IT资源

    帮助IT部门实时了解、掌控业务部门对IT服务的使用体验,方便IT部门根据业务影响和 SLA(Service Level Agreement)来对IT服务进行管理,并及时进行 IT 资源的优化配置。

  • 加快问题解决

    主动地帮助你在第一时间发现问题,以便在问题对用户造成不利影响之前,及时得到隔离、诊断和修复,把它们对业务的干扰降到最低。同时支持自动处理能力,提高管理人员效率的同时降低人为操作的风险。

  • 实现业务-服务-资源相互依赖关系的深入分析
    通过系统内部的依赖关系,结合业务和IT 资源等大数据,挖掘内部的相互关系,深入分析业务问题的根源,从而实现IT 和业务的全面融合。


3、客户体验

通过为IT 运营部门提供可以全面了解业务/IT运形状况的仪表板和数据可视化大屏,帮助用户主动根据业务影响对IT服务进行管理


例如,仪表板通过颜色来显示业务/IT资源的健康状况和繁忙层度,当某个业务出现了问题,其状态就会显示红色,对应的健康度指标就会指向相应的区间。


http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user166259/article/bb247bb10848847cc1193146a2c8dbf9..jpg

大屏数据指标:现金流向、交易情况、转账情况、交易金额、响应速度、成功率、ATM机交易排名、信贷监控


可以在一个窗口中观察到该业务相关的IT资源的状况,如果对哪个部分感到疑虑,就可以立即点击该资源向下逐层钻取,最终发现问题,然后及时地进行修复,以免问题进一步恶化,而造成服务中断。


整个运维数据的集中,尤其是对日志的整合处理,把以前无序杂乱的日志整合解析,形成完整的交易事件,解决了业务排障的大问题,通过平台提供的搜索功能,业务排障从以前的几个小时缩短到几分钟。


以前由于主机资源的限制,主机上只能保留最近交易日志,其他日志备份到带库。给后续查询带来很大麻烦,如需要恢复环境准备,恢复效率低,查询多日的需要恢复多次,同时数据量大,导致恢复时间长,限制有了大数据存储平台,日志可以长期保留,满足了对柜员操作的审计和对业务分析的回溯。

 

后续,袋鼠云将会为省联社进一步提供智能运维服务,保障省联社金融业务的高效运行和IT运维的智能化进程。

0条评论
社区公告
  • 大数据领域最专业的产品&技术交流社区,专注于探讨与分享大数据领域有趣又火热的信息,专业又专注的数据人园地

最新活动更多
微信扫码获取数字化转型资料
钉钉扫码加入技术交流群