KVS_AI_GUARD 平台简介

KVS_AI_GUARD是一个智能运维管理系统,通过大语言模型(LLM)实现自动化操作。它可以自动监控网络设备的状态、执行配置管理、分析日志并进行故障排除。用户可以通过简单的操作,实现复杂的网络管理,提升效率,减少人工干预,快速修复问题,确保系统稳定运行。

img

图/KVS_AI_GUARD平台架构

KVS_AI_GUARD 功能介绍

LLM(大语言模型)

核心作用:LLM作为系统的入口,接收用户输入(如查询、配置请求等),并生成相应的指令。它决定了系统需要执行哪些操作,比如监控状态、更新配置或者进行故障排查。

RAG(检索增强生成)
  • 作用:用于从本地或外部数据源中检索信息,增强LLM的生成能力。RAG会查询相关的知识库或内部存储,以补充LLM生成的内容。
  • 本地知识(短期记忆):RAG连接到本地知识模块,从现有的数据或记录中检索信息,提供即时反馈。
函数调用(Function-call) - 操作的执行中心

作用:函数调用模块负责执行所有与系统交互的操作。LLM通过它与设备进行直接交互,控制系统执行具体任务。

集成的操作:

  • 状态(Status):通过函数调用,LLM可以查询交换机或Meraki等设备的状态,了解当前的运行情况,如连接、带宽、错误率等。
  • 配置(Configuration):LLM通过函数调用模块发出配置更新指令,设备接收到这些指令后进行配置更改,如网络配置的更新或启用新功能。
  • 日志分析(Log analysis):LLM通过函数调用模块触发日志分析功能,分析网络设备的日志记录,从中提取系统故障或性能相关的信息。
故障排除(Troubleshooting) - 单独的模块

作用:这是一个独立的自动化故障排除模块,负责在日志分析完成后执行具体的修复步骤。当系统检测到问题时,故障排除模块负责实施修复操作。
与日志分析的关系:故障排除模块依赖于日志分析模块提供的结果。日志分析会给出问题的具体信息,比如设备错误、性能问题等,故障排除模块根据这些信息采取适当的措施。

独立操作:

  • 自动执行修复任务,如重启设备、调整配置等。
  • 如果自动修复无法完成,还可以生成详细的故障报告,供管理员进一步操作。
  • 工作流程:当系统检测到设备出现故障,LLM通过函数调用模块发出日志分析请求,日志分析结果反馈后,故障排除模块会单独执行修复任务。这个模块与LLM交互较少,更多是自动完成任务。

技术优势

  • 自动化操作:系统可以自动处理设备监控、配置管理和故障修复,减少了人工干预,节省人力成本。
  • 故障快速修复:通过日志分析和故障排除模块,系统能够快速识别并解决问题,缩短修复时间,提高系统的稳定性。
  • 智能决策支持:系统通过数据检索和分析,帮助运维人员提前发现潜在问题,优化日常维护流程。
  • 降低运维成本:自动化和智能化减少了对专业运维人员的需求,降低了运维成本。
  • 实时监控与透明性:客户可以随时查看设备状态、配置情况和日志分析结果,确保运维过程透明和高效。

典型应用场景

  • 大型企业:管理的IT设备众多,运维人员少;
  • 高科技企业:需要通过前沿技术的手段配套来管理公司的IT运维;
  • 数字化转型企业:一些类似高校和数据驱动型企业面临的数字化转型,也需要与之配套的自动化运维平台。

服务模式

  • 标准化平台:开箱即用的轻量化解决方案。
  • 定制开发:根据业务需求深度适配。
  • 联合运营:提供平台+运维一体化服务。