什么是AIOps (IT运营的人工智能)?
什么是AIOps?
AIOps (Artificial Intelligence for IT Operations)是一种新兴的IT技术,它将人工智能应用于IT运营,以帮助企业智能地管理基础设施、网络和应用程序,以实现性能、弹性、生产力、正常运行时间,并在某些情况下维护安全性。AIOps将传统的面向阈值的警报和手动流程转换为利用人工智能和机器学习的系统,使企业能够更密切地监控IT资产,并预测负面事件和影响。
现代IT部署必须处理日益快速和增量的数据需求。这些数据通常是非结构化的,并且来自庞大网络中的资源竖井。AIOps平台帮助IT运营(ITOps)团队利用大数据的数量、种类和速度。AIOps是用于增强IT运营的人工智能应用程序。AIOps使用大数据、分析和机器学习功能来执行各种任务:
- 收集和聚合由多个IT基础设施组件、应用程序和性能监视工具生成的大量且不断增长的操作数据。
- 智能地从噪声中过滤信号,以识别与系统性能和可用性问题相关的重要事件和模式。
- 诊断主要原因并向IT报告,以便快速响应和补救,改进自动问题解决方案,并减少人工干预的频率。
AIOps用一个智能、自动化的IT运营平台取代了多个独立的人工IT运营工具,使IT运营团队能够更快速、更主动地应对业务放缓和服务中断,同时还大大减少了工作量。
为什么需要AIOps?
大多数组织正在从由独立的静态物理系统组成的传统基础设施转向包括内部部署、托管云、私有云和公共云环境的动态混合架构。这些环境中的应用程序和系统生成越来越多的数据,企业IT基础设施平均每年为IT操作生成两到三倍多的数据。传统的基于域的IT管理解决方案无法跟上容量的增长。他们无法从如此海量的数据中高效、聪明地整理出重大事件。它们不能在不同但相互依赖的环境之间建立数据关联。它们也无法提供IT团队所需的即时洞察和预测分析,以足够快地响应问题,以满足用户和客户服务水平。
因此,开发了AIOps技术,可以显示所有环境的性能数据和依赖关系,通过分析数据捕获与减速或运行中断相关的重要事件,并自动向IT人员发送相关的警告提醒、问题原因和建议解决方案。
AIOps是如何工作的?
了解每个AIOps组件技术(大数据、机器学习和自动化)在这个过程中所扮演的角色。
- AIOps将使用大数据平台将孤立的IT作业数据整合到一个地方。
- 处理性能和事件数据
- 流即时作业事件
- 系统日志和度量
- 网络数据,包括包数据
- 事件相关信息和问题
- 相关文档
- 将关键事件警报从噪声中分离出来:AIOps使用分析来提取IT运营数据,并将信号(重大异常警报)从噪声中分离出来。
- 确定主要原因并提出解决方案:AIOps利用特定于行业或特定于环境的算法将异常事件与环境中的其他事件数据关联起来,以集中于操作中断或性能问题的原因,并建议补救措施。
- 自动响应,包括即时主动解决方案:AIOps至少可以自动将警报和建议的解决方案路由到适当的IT团队,甚至可以根据问题和解决方案的性质创建响应团队。机器学习的结果可以在用户意识到有问题之前立即触发自动系统响应来处理问题。
- 持续学习以提高你处理未来问题的能力:基于分析结果,机器学习能力可以改变算法,或构建新的算法,以更早地发现问题并提出更有效的解决方案。人工智能模型还可以帮助系统理解和适应环境的变化,部署或重新配置适当的基础设施。
AIOps自动化如何简化传统作业?
- 观察:
必须确定停机的主要原因,并由适当的人员进行处理。AIOps平台自动捕获记录、度量、警报、事件和其他所需数据,以了解应用程序事件背后的操作原因。该平台可以整合和分类所有数据,而不是依靠人工工作从不同的数据源提取和解释信息。 - 输入:
包括分析监控数据和诊断停机的根本原因。与解决问题有关的信息将在上下文中考虑,并发送给最适合操作的设备人员。AIOps工具可以执行风险分析,自动化责任沟通,并为IT操作员准备相关数据。 - 实现:
直接负责人(DIR)负责解决问题和修复应用程序服务。还可以创建编程语言、运行簿和应用程序发布自动化(ARA),以便在下一次AIOps工具检测到特定问题时自动运行。
AIOps可以帮助IT运营更快地响应灾难,并通过部分自动化流程最小化恢复时间目标(RTO)和恢复点目标(RPO)。
AIOps的优势是什么?
AIOps的总体好处在于,它允许it操作人员通过多个it操作工具自动过滤警报,以比手动过滤更快地识别、处理和解决减速和中断。
- 实现更快的平均解决时间(MTTR):通过跨多个IT环境对IT操作进行分解和关联操作数据,AIOps可以比人类更快、更准确地识别主要原因并提出解决方案。
- 从被动管理到主动管理,再到预测管理:由于AIOps从未停止学习,因此它不断改进,以更好地识别与更紧急情况相关的不太紧急的警报或信号。这意味着它可以提供预测警报,允许it团队在潜在问题导致速度减慢或中断之前解决这些问题。
- 现代化IT运营和IT运营团队:AIOps团队将只接收满足特定服务水平阈值或参数的警报,以及所有必要的上下文定义,以做出最佳诊断并采取最佳和最快的纠正措施,而不是在每个环境中都被每个警报轰炸。AIOps学习得越多,自动化程度越高,它就越能以更少的人力保持运行,从而使it运维团队能够专注于对业务具有更高战略价值的工作。
AIOps用例:
- 数字化转型:数字化转型带来了IT复杂性(例如,多个环境、虚拟化资源、动态基础设施),而AIOps正是为了解决这些问题而设计的。正确的AIOps解决方案为组织提供了更多的自由和灵活性,可以根据战略业务目标进行转换,而无需担心IT工作负载。
- 云采用/迁移:云采用是一个渐进的过程,这会创建一个混合的多云环境(私有云、公共云、多个供应商),其中多个交互依赖关系可能变化太快、太频繁而无法记录。通过清楚地显示这些相互依赖关系,AIOps可以显著降低云迁移和混合云方法的操作风险。
- DevOps采用:DevOps通过提高开发团队部署和重新配置基础设施的能力来加速开发,但是IT仍然必须管理基础设施。AIOps提供了IT支持DevOps所需的可见性和自动化,而无需增加额外的管理工作。