什么是AIOps (IT运营的人工智能)?
什么是AIOps?
AIOps (Artificial Intelligence for IT Operations)是一种新兴的IT技术,它将人工智能应用于IT运营,帮助企业智能地管理基础设施、网络和应用程序,以实现性能、弹性、生产力、正常运行时间,并在某些情况下维护安全性。AIOps将传统的面向阈值的警报和手动流程转变为利用人工智能和机器学习的系统,使企业能够更密切地监控IT资产并预测负面事件和影响。
现代IT部署必须处理日益快速和增量的数据需求。这些数据通常是非结构化的,并且来自庞大网络中的资源孤岛。AIOps平台帮助IT运营(ITOps)团队充分利用大数据的数量、种类和速度。AIOps是一种用于增强IT运营的人工智能应用。AIOps使用大数据、分析和机器学习功能来执行各种任务:
- 收集和汇总由多个IT基础设施组件、应用程序和性能监视工具生成的大量且不断增长的操作数据。
- 智能地从噪声中过滤信号,以识别与系统性能和可用性问题相关的重要事件和模式。
- 诊断并向IT报告主要原因,以便快速响应和补救,改进自动问题解决,并减少人为干预的频率。
AIOps用单个智能、自动化的IT运营平台取代了多个独立的手动IT运营工具,使IT运营团队能够更快、更主动地响应减速和服务中断,同时还显著减少了工作量。
为什么需要AIOps?
大多数组织正在从由独立的静态物理系统组成的传统基础设施转向动态混合体系结构,其中包括内部部署、托管云、私有云和公共云环境。这些环境中的应用程序和系统生成的数据量不断增加,企业IT基础设施平均每年为IT操作生成的数据量增加两到三倍。传统的基于域的IT管理解决方案无法跟上业务量的增长。他们无法有效和智能地从如此庞大的数据中整理出重大事件。它们不能在不同但相互依赖的环境之间建立数据关联。它们也无法提供IT团队所需的即时洞察和预测分析,以足够快地响应问题以满足用户和客户服务水平。
因此,开发了AIOps技术,它可以显示所有环境的性能数据和依赖关系,对数据进行分析,捕捉与运行变慢或操作中断相关的重要事件,并自动向IT人员发送相关的警告提醒、问题原因和解决方案建议。
AIOps是如何工作的?
了解每个AIOps组件技术(大数据、机器学习和自动化)在此过程中所起的作用。
- AIOps将使用大数据平台将孤立的IT工作数据整合到一个地方。
- 过程性能和事件数据
- 流式处理即时作业事件
- 系统日志和度量
- 网络数据,包括包数据
- 与事件相关的信息和问题
- 相关文档
- 将关键事件警报从噪音中分离出来:AIOps使用分析来梳理IT操作数据,并将信号(主要异常警报)从噪音中分离出来。
- 确定主要原因并提出解决方案:AIOps利用特定于行业或特定于环境的算法将异常事件与环境中的其他事件数据关联起来,以关注操作中断或性能问题的原因,并建议补救措施。
- 自动响应,包括即时的主动解决方案:AIOps至少可以自动将警报和建议的解决方案路由到适当的IT团队,甚至可以根据问题和解决方案的性质创建响应团队。机器学习的结果可以在用户意识到有问题之前立即触发自动系统响应来处理问题。
- 持续学习,提高你处理未来问题的能力:基于分析结果,机器学习能力可以改变算法,或者建立新的算法,从而更早地发现问题,并提出更有效的解决方案。人工智能模型还可以帮助系统理解和适应环境的变化,部署或重新配置适当的基础设施。
AIOps自动化如何简化传统工作?
- 观察:
停机的主要原因必须由适当的人员识别和处理。AIOps平台自动捕获记录、指标、警报、事件和其他所需的数据,以了解应用程序事件背后的操作原因。该平台可以整合和分类所有数据,而不是依赖于手工工作来从不同的数据源中提取和解释信息。 - 输入:
包括分析监控数据和诊断停机的根本原因。与解决问题有关的信息将在上下文中考虑并发送给最适合操作的设备人员。AIOps工具可以执行风险分析,自动化责任沟通,并为IT操作员准备相关数据。 - 实现:
直接责任人(DIR)负责解决问题和修复应用程序服务。还可以创建编程语言、运行本和应用程序发布自动化(ARA),以便在AIOps工具下次检测到特定问题时自动运行。
AIOps可以帮助IT操作更快地响应灾难,并通过部分自动化流程最小化恢复时间到时间目标(RTO)和恢复点目标(RPO)。
AIOps的优点是什么?
AIOps的总体优势在于,它允许it操作人员自动过滤跨多个it操作工具的警报,从而比手动过滤更快地识别、处理和解决减速和中断。
- 实现更快的平均解决时间(MTTR):通过分散IT操作和跨多个IT环境关联操作数据,AIOps可以比人类更快、更准确地识别主要原因并提出解决方案。
- 从被动管理到主动管理再到预测管理:由于AIOps从未停止学习,因此它会不断改进,以更好地识别不太紧急的警报或与更紧急情况相关的信号。这意味着它可以提供预测性警报,使it团队能够在潜在问题导致减速或中断之前解决这些问题。
- 使IT运营和IT运营团队现代化:AIOps团队将只接收满足特定服务级别阈值或参数的警报,而不是被每个环境中的每个警报轰炸,所有这些都与所有必要的上下文定义一起进行最佳诊断并采取最佳和最快的纠正措施。AIOps学习得越多,自动化程度越高,它就越能以更少的人力运行,从而使it运营团队能够专注于对业务具有更高战略价值的工作。
AIOps用例:
- 数字化转型:数字化转型带来了IT复杂性(例如,多种环境、虚拟化资源、动态基础设施),而这些正是AIOps设计要解决的问题。正确的AIOps解决方案为组织提供了更多的自由和灵活性,可以根据战略业务目标进行转换,而无需担心IT工作负载。
- 云采用/迁移:云采用是一个渐进的过程,这会创建一个混合多云环境(私有云、公共云、多个供应商),其中多个交互依赖关系可能变化得太快、太频繁,以至于无法记录。通过清楚地显示这些相互依赖性,AIOps可以显著降低云迁移和混合云方法的操作风险。
- DevOps采用:DevOps通过提高开发团队部署和重新配置基础架构的能力来加速开发,但是IT仍然必须管理基础架构。AIOps提供了IT支持DevOps所需的可见性和自动化,而无需增加额外的管理工作。