原标题:案例 | AIGC在系统运维领域的应用探索

文 / 中国银行软件中心 王婉婷 付晖 闫晓斐 陈若昱

随着分布式架构的迅速演进和云原生技术的逐步落地,大型商业银行的IT系统呈现出敏态和稳态相结合特点,在云上和云下并行、集中式与分布式共存的复杂架构下,对IT运维工作提出了更高效、更敏捷的要求。近年来,人工智能(AI)技术的快速发展,特别是人工智能生成内容(AIGC)技术的出现,成为IT系统高效运维的催化剂。AIGC衍生出丰富的能力矩阵(如文本生成、智能分析、内容推荐等),在处理复杂任务方面表现出了强大能力。中国银行软件中心积极探索AIGC技术在运维领域的应用,以服务应用为核心,构建服务于运维领域的大模型框架,致力于对IT系统的智能化故障解决和性能优化,提高运维效率,为业务的稳定运行提供强有力的技术支持。

AIGC运维体系

中国银行软件中心融合行业大模型技术和银行IT系统运维经验,逐步推进运维体系的智能化转型升级,涵盖了平台技术支撑、企业级可观测系统、统一配置中心、告警分析与智能处置、信息报表生成等多种智能运维服务,提出并构建了一种AGI(Artificial General Intelligence)运维框架,并基于企业级公共资源,如通用和领域大模型库、AGI运维场景库、问题/事件知识库、算法库、用户管控系统等,实现了运维信息统一获取、系统应用全链路追踪、故障智能诊断与分析、变更实施自动控制、实时决策运维等能力,通过统一的服务台为用户提供了更高效的运维服务体验。AGI运维架构如图1所示。

图1 AGI运维框架

AGI运维框架下,如何利用已有企业级IT系统做到真正的一体化运维呢?一是信息生成智能化,生成类AI模型链接已有的各类企业库如各类数据库、分析系统等,实时生成系统巡检报告、事件分析报告,资源使用报表、系统配置项报表等;二是交互AI化,AI模型通过优化Prompt约束生成内容、链接RPA系统等工具系统,实现指令下达式的对话式运维;三是智能告警与自愈,分析型AI领域大模型对可观测运维数据智能分析后,调用自动化工具自动实现系统告警治愈。

图2是AGI运维场景示例,通过调用MaaS层大模型API服务、企业级工具等接口服务,以及调优提示词,可完成基本的运维场景需求。如问答类AI大模型可以实现技术咨询、运维工单处置方案推荐等需求,任务类AI大模型可实现监控信息实时查看、任务自动下发执行等需求。

图2 AGI运维场景示例

1.多渠道信息收集,构建运维数据基石。兵马未动,数据先行。数据的收集整合是整个运维工作的基础。大模型训练阶段需要多种类型的数据做支撑。企业可观测系统整合了Zabbix、Prometheus、ELK、Skywalking等存量监控系统,企业统一配置中心融合了各种自动化脚本工具,具备多渠道、高效率的数据收集能力,将基础资源层、平台层、应用层等各级基础配置、系统和应用运行日志、监控指标、链路信息、运维知识库等纳入管控范围,稳定支撑了几万余分区的运维数据收集。

领域大模型以问题导向,通过对采集数据定期分析评估,优化预处理算法,降低冗余数据的干扰,凸显有意义的可观测运维数据。领域AI模型针对已有基于规则或机器学习的告警算法生成优化建议,及时调整告警生成、聚合和告警收敛方式,切实提高告警质量,领域模型同步生成的告警解决策略附加在预警通知中,实现了数据汇总和全局呈现的“管家式”服务。

2.全链路可观测,精准排除系统故障。全域覆盖,动态感知。AGI运维框架以企业可观测系统和企业统一配置中心为基础,以领域大模型和算法库为驱动,从系统架构、网络拓扑、应用程序等多维度开展链路级的聚合分析以及故障分析诊断。采用关键路径埋点、故障链路染色,将收集到的大量基础数据串联,并开展多轮次的模型训练和参数调整,结合链路中的多源历史数据建立应用程序的运行状态的基准画像。将业务集群中的实时链路数据动态与应用的基准画像进行基线匹配,并对故障信息进行上报,实现了业务链路脉络张力的透明化,使“链路即服务”“故障即发现”变得触手可得,为系统和应用的精准排障提供了智慧“双眸”。

落红不是无情物,化作春泥更护花。故障分析模型对关键故障链路、异常指标和日志数据及历史事件/问题知识库完成故障分析诊断后,报告生成模型自主回顾故障链路日志、指标等信息,进行问题总结,生成故障总结报告,并移入待处置事项库,经专家系统验证无误后转储知识库,并作为模型优化的基础数据进行再次迭代,持续提升模型的诊断能力。

3.变更实施控制,实现流程高效敏捷管理。围绕“安全、敏捷、高效”原则,对变更、应急、服务请求等进行简化和灵活性改造,建立适用于云原生环境下的轻量级、便捷式流程。AI通用大模型、垂直领域大模型与机器人流程自动化(RPA)、自动化工具等结合,能够实现变更配置和部署流程的自动化。模型通过收集和分析系统配置信息、环境要求和应用程序的特性,生成适用于特定环境和应用程序的配置文件,并对配置文件进行验证。基于系统配置信息和部署策略,生成自动化部署计划,包括步骤、顺序和依赖关系。根据生成的部署计划,自动化工具执行配置文件的分发和应用程序的部署。在部署或变更完成后,执行验证步骤,如果发现问题,根据事先定义的回滚策略,自动还原到先前的可用状态,实现智能运维下变更流程和实施“道法自然”效果。

智能变更流程如图3所示,通过输入用户变更信息描述,通用大模型分解变更任务,并分发至领域大模型进行子任务的并发执行,通过约束大模型的输出内容,链接不同的企业工具如数据库、搜索工具、RPA系统等进行实时信息获取和任务执行,任务完成后将相关信息反馈至变更负责人或落盘记录,方便后续审查。

图3 智能变更流程

4.智慧运营,为运维提供决策支持。运筹帷幄,决胜千里。AGI运维框架的智能服务层通过“一对一”对话式方式让系统运维变更简单,能够结合全局信息提供更合理的决策支持。在系统资源分配方面,模型通过分析系统运行数据,预测未来的资源需求,实时响应用户需求,辅助运维团队制定资源分配和扩容的计划,真正做到云资源使用的自主感知和弹性伸缩。为有效应对网络威胁攻击,应用AGI模型辅助设计与生成针对多云环境下的网络安全防护体系和漏洞疏堵策略。基于网络巡检、故障诊断等报告,配合全面的流量采集、蜜罐管控、访问控制等多重防御手段和合理的模型提示词,打穿不同系统和应用间壁垒与隔阂,生成安全防御报告并统一纳管至安全运营中心,构建立体化、纵深防御的网络安全体系,实现安全防御策略的智能分析和决策。

不谋全局者,不足谋一域。中国银行拥有多地多中心的生产和测试的数据机房,基于通用和行业领域构建的多模型融合的AGI运维框架,能够让运维工程师足不出户可以获取到准确的运维指引,高效完成多地多中心协同运维任务。

问题和挑战

AIGC大模型在运维领域已经崭露头角,但在实际应用中,仍面临一些不容忽视的挑战。

1.内容不确定性。基于大模型生成的内容可能受到训练数据质量或数量的限制,以及模型可靠性的影响,导致生成的内容存在偏差或错误,需要利用大模型应用框架调试Prompt以优化其生成能力,如Json格式的输出约束。

2.隐私和安全问题。银行的业务系统涉及大量的敏感信息和关键数据,需要采取相应的安全措施和隐私保护措施,如RLHF模型对齐、模型前置和后置的生成安全内容检测,以防止未经授权的访问和数据泄露。

3.用户信任度考验。大模型的决策过程通常是不透明的,可能会引发关于其决策的解释和信任的问题,需要经过时间和效果的考验才能得到用户的接受和信任。

总结与展望

未来,新时代带来了新机遇和新挑战。随着AIGC技术的应用场景不断被发掘,业界也涌现出了诸多大模型框架,陆续覆盖了代码开发、系统安全等领域。中国银行软件中心将继续深耕AIGC技术研究工作,将其打造成为测试和运维人员进行根因分析、故障排除与预测、系统迭代与优化的首选手段,同时积极关注业界AIGC技术及开源社区发展动态,挖掘该技术在银行业反洗钱、智能投顾、黑灰产业欺诈分析等多种场景下的落地应用,为业务的安全、稳定、效率运行提供坚实的环境保障。

(此文刊发于《金融电子化》2024年1月上半月刊)返回搜狐,查看更多

责任编辑: