KVS_AI_GUARD 平台简介
KVS_AI_GUARD是一个智能运维管理系统,通过大语言模型(LLM)实现自动化操作。它可以自动监控网络设备的状态、执行配置管理、分析日志并进行故障排除。用户可以通过简单的操作,实现复杂的网络管理,提升效率,减少人工干预,快速修复问题,确保系统稳定运行。

图/KVS_AI_GUARD平台架构
KVS_AI_GUARD 功能介绍
LLM(大语言模型)
核心作用:LLM作为系统的入口,接收用户输入(如查询、配置请求等),并生成相应的指令。它决定了系统需要执行哪些操作,比如监控状态、更新配置或者进行故障排查。
RAG(检索增强生成)
- 作用:用于从本地或外部数据源中检索信息,增强LLM的生成能力。RAG会查询相关的知识库或内部存储,以补充LLM生成的内容。
- 本地知识(短期记忆):RAG连接到本地知识模块,从现有的数据或记录中检索信息,提供即时反馈。
函数调用(Function-call) - 操作的执行中心
作用:函数调用模块负责执行所有与系统交互的操作。LLM通过它与设备进行直接交互,控制系统执行具体任务。
集成的操作:
- 状态(Status):通过函数调用,LLM可以查询交换机或Meraki等设备的状态,了解当前的运行情况,如连接、带宽、错误率等。
- 配置(Configuration):LLM通过函数调用模块发出配置更新指令,设备接收到这些指令后进行配置更改,如网络配置的更新或启用新功能。
- 日志分析(Log analysis):LLM通过函数调用模块触发日志分析功能,分析网络设备的日志记录,从中提取系统故障或性能相关的信息。
故障排除(Troubleshooting) - 单独的模块
作用:这是一个独立的自动化故障排除模块,负责在日志分析完成后执行具体的修复步骤。当系统检测到问题时,故障排除模块负责实施修复操作。
与日志分析的关系:故障排除模块依赖于日志分析模块提供的结果。日志分析会给出问题的具体信息,比如设备错误、性能问题等,故障排除模块根据这些信息采取适当的措施。
独立操作:
- 自动执行修复任务,如重启设备、调整配置等。
- 如果自动修复无法完成,还可以生成详细的故障报告,供管理员进一步操作。
- 工作流程:当系统检测到设备出现故障,LLM通过函数调用模块发出日志分析请求,日志分析结果反馈后,故障排除模块会单独执行修复任务。这个模块与LLM交互较少,更多是自动完成任务。
技术优势
- 自动化操作:系统可以自动处理设备监控、配置管理和故障修复,减少了人工干预,节省人力成本。
- 故障快速修复:通过日志分析和故障排除模块,系统能够快速识别并解决问题,缩短修复时间,提高系统的稳定性。
- 智能决策支持:系统通过数据检索和分析,帮助运维人员提前发现潜在问题,优化日常维护流程。
- 降低运维成本:自动化和智能化减少了对专业运维人员的需求,降低了运维成本。
- 实时监控与透明性:客户可以随时查看设备状态、配置情况和日志分析结果,确保运维过程透明和高效。
典型应用场景
- 大型企业:管理的IT设备众多,运维人员少;
- 高科技企业:需要通过前沿技术的手段配套来管理公司的IT运维;
- 数字化转型企业:一些类似高校和数据驱动型企业面临的数字化转型,也需要与之配套的自动化运维平台。
服务模式
- 标准化平台:开箱即用的轻量化解决方案。
- 定制开发:根据业务需求深度适配。
- 联合运营:提供平台+运维一体化服务。