智能运维:从场景中积蓄运维变革的未来伴随金融机构数字化转型的加速,IT运维从理念到模式正在向智能运维全面迈进。作为率先实现智能运维工程化落地的全栈IT运维服务商,云智慧(北京)科技有限公司总裁刘洪涛先生为《新金融世界》分享了智能运维对于金融数字化和FinTech的意义,以及智能运维在金融机构落地过程中的注意要点。
举例而言,在几年前,很多金融机构会在半夜12点-1点暂停交易进行系统维护,这在今天是绝不允许的。现在的金融客户怎么可能接受零点秒杀却无法完成支付的情况?!
如今的金融交易必须达到24小时不间断的秒级响应要求。这就意味着,IT对于金融而言已经由业务支撑系统转变为业务本身。
刘洪涛表示:“我们在跟金融行业用户交流的时候,大家谈的都是业务,关注的也是业务。”在这样的应用环境下,传统运维针对IT系统或者单独IT平台的监控已经不能满足需求。“客户关心的是交易是否成功,用户交易的体验怎么样,所以对运维要求与过去相比有很大的不同。过去,IT从底层设备、操作系统、应用、到业务这么几层,运维的关注点在于底层设备的高可用和稳定性,衡量指标是SLA能达到几个9。今天,大家的关注点集中到业务层面,衡量IT对业务影响程度的指标变成了MTTR(Mean Time to Recovery,平均故障修复时间),这就需要从业务的视角,实现覆盖所有业务链路的端到端全局监控、管理和分析,把监控的点和面都做完整,还要与业务指标进行关联,这就比传统运维复杂度高很多”,刘洪涛说。
当前金融运维的另外一个挑战来自于数字化转型的推进。区块链、虚拟化、容器、IoT等FinTech新技术的应用,导致IT规模和复杂度呈指数增长。过去,传统运维收到不明原因的告警信息,可以把相关设备一台台关掉,再逐一重启来进行排查,解除故障。但在金融系统如此庞大的今天,这类单纯依靠人工的故障修复方法显然是不可取的。不仅如此,随着IT运行环境越来越复杂,每时每刻产生的IT数据量更加惊人,依靠人工设定告警阈值、分析处理海量告警信息同样不现实。这就需要利用大数据和AI技术的助力,通过模式识别和算法对历史数据进行学习,设置更加有效的动态告警阈值,同时对海量告警信息进行实时压缩、收敛和关联分析,利用根因分析追踪导致事件发生的根本原因,实现告警事件的及时处置,有效降低MTTR。
到目前为止,业界针对AIOps(智能运维)的认知尚未统一,有人说AIOps就是算法,有的则认为是自动化运维。刘洪涛表示:“其实AIOps并不是像APM那样的产品,而是一种理念。用AI技术去提升金融机构的运维能力和效率,让它具有更好的智能化,更高效的解决金融业务运行过程中遇到的种种问题。同时,AI是一种可以工程化的实用科技,AIOps就是AI在IT运维领域的落地,通过AI技术的工程化,全面提升现有ITOM、ITSM 和ITOA产品和解决方案能力。”
谈到AIOps(智能运维)的核心技术,刘洪涛认为:“目前,智能运维的关键不是算法,因为很多算法都已经非常成熟而且开源了。但是,客户的应用场景千差万别,需求也各不相同,到底哪种算法用什么样的模式匹配到客户场景中,这才是核心。这是一个‘技术工程化’落地的过程,对于智能运维提供商来说,既要有非常好的算法能力,又要对客户的应用场景有非常好的理解力,还要有工程化落地的能力。这几种能力都具备,才能帮客户解决问题。”
此外,AIOps需要完整的历史数据、日志数据和实时监测数据。因此,要实现AIOps落地,数据采集能力同样必不可少,只有这样才能通过AI得到有价值的结果。
早在2016年,云智慧就率先提出了智能运维的概念,并在金融、通信、制造、零售等多个行业进行了实践。针对AIOps在金融行业的落地,云智慧秉承的理念是: “以数据为基础,算法为支撑,场景为导向”。
部署智能运维首先要理解传统运维管理与智能运维的逻辑差异:传统运维管理是依赖流程——故障、告警、处理,依靠工单系统把这些串起来。智能运维是基于数据和智能化分析结果进行运维管理,与传统运维的逻辑完全不一样。
与传统运维管理依靠ITSM平台管理所有IT问题不同,智能运维的落地注重场景化,解决的是某一类问题。例如智能运维的四大场景:统一监控、根因分析、动态基线、故障预测。当然,智慧运维的基础仍然是数据,在数据之上构建AI分析能力,在AI之上是事件管理等产品模块。这些模块以松耦合的方式组成,可根据用户需求的不同任意组合,提供告警抑制、异常检测、根因分析、分析、调用链追踪、故障预测等场景化解决方案能力。最后通过可视化运维监控中心,把IT价值直观呈现在IT和业务部门面前,让管理者和业务运营负责人都能看懂IT。
刘洪涛建议:“智能运维不要上来就做大而全的,我们的建议是‘小步快跑,阶梯式前进’。具体来说CQ9电子,先从某个运维问题总结出来的场景入手,而落地的时候要充分考虑未来几个、甚至几十个场景的整体需求。这种做法的好处在于效率最高,ROI最合算,也最有可能达成目标。IT团队在逐步积累AIOps经验的同时,树立起智能运维成功部署的信心。而业务部门可以从一个场景的变化快速看到AIOps价值和成效,自然更愿意配合IT部门的变革,推进业务与IT的融合。所以,我们的建议是做好规划,阶段式实现AIOps落地。”
一、统一监控。这是几乎所有用户在完成系统构建、业务上线之后都要用到的。统一监控与传统监控不同之处在于,它是服务于业务的。过去的监控系统主要监控底层硬件设备和竖井式IT系统,但对于金融机构来说,这些分散的监控系统共同支撑起业务的运转。因此,必须有一个开放的统一监控平台,把业务和一个个孤立的监控系统整合起来,同时也可以依托这个平台获得完整的IT数据。目前,在IT成熟度最高的银行业,已经有部分机构完成了统一监控平台的构建,而规模较小的城商行、农信、证券、基金等金融机构则有明显的统一监控需求。
二、根因分析。系统产生的大量告警信息怎么判断?依靠人工处理和工程师的经验判断故障变得越来越困难。利用智能算法对异常或者故障的根因进行分析,给出故障的根因推荐以及深入分析结果,让事件得到迅速处理。这也是一个AIOps的主要应用场景。
三、动态基线。动态基线是各种监控场景里的典型需求,基于历史数据,利用智能算法深度学习,对未来一段时间内每个时间点的数值进行精准预测,将预测值作为基线来监控和告警。由于业务指标受时间、季节、事件等因素影响不断波动,这就导致IT指标的变化同样是动态的,也只有动态阈值才能更快、更准确的发现问题,提高运维的事件响应和处理效率。
四、故障预测。很多问题的发生都是有征兆的,故障预测基于历史告警消息的相关性,对当前处于故障状态的警报可能造成的影响进行预测判断 ,从而实现故障的提前预警。这种场景最能体现AIOps的智能分析能力,但需要针对历史数据进行大量学习和训练,取得成效相对较慢。
Copyright © 2021-2023 CQ9电子「中国」官方网站 版权所有豫ICP备2021007535号-1 Xml网站地图 HTML地图 txt地图