项目背景:
描述 : A- O ps 是在 openEuler 社区发起的原创项目,降低大型集群运维困难,推动系统运维的可视化、自动化、智能化,打造高可靠性、高性能、永不中断的基础设施。 推荐人 :胡峰 @solarhu openEuler TC 成员,罗盛炜 @Lostwayzxc openEuler sig-ops maintainer ,杨昭 @yangzhao_kl openEuler sig-CloudNative maintainer 仓库地址 :
https://gitee.com/openeuler/A-Ops https://gitee.com/openeuler/aops-apollo https://gitee.com/openeuler/aops-diana https://gitee.com/openeuler/aops-zeus https://gitee.com/openeuler/gala-gopher https://gitee.com/openeuler/gala-spider https://gitee.com/openeuler/gala-anteater https://gitee.com/openeuler/gala-ragdoll https://gitee.com/openeuler/syscare https://gitee.com/openeuler/X-diagnosis
openEuler 优秀项目衡量标准
推荐奖项 openEuler 年度优秀项目 开源开放 项目采用木兰开源协议,代码托管在 openEuler 行业影响 a pollo/gala-gopher/gala-ragdoll 已经在客户侧验证,即将大规模使用 技术创新 以操作系统为观测点基础,基于低负载探针技术,构建端到端可观测性和热修复,实现故障快速发现,辅助定位和系统热修复 社区活跃 近一年社区活跃度排名第 6 ,核心开发者 107 人,参与组织 23 个,合入 PR 6000+ ,平均 PR 关闭周期 0.58 天 高质量开发和运营 代码符合规范,代码质量高,文档详尽,托管在官网。 PR 提交完整,代码检视流程完整,检视方面和内容详细。对用户反馈问题响应及时,每月 2 次社区例会 。
1. 软件介绍
A-Ops 是一款基于操作系统维度的故障运维平台,提供从数据采集,健康巡检,故障诊断,故障修复的到智能运维解决方案。
云基础设施在近几年随着云原生、无服务化等技术的实施,其运维的复杂性变得越来越有挑战性,尤其是亚健康问题特点(间歇性出现、持续时间短、问题种类多、涉及范围广等)给云基础设施故障诊断带来重要挑战。亚健康故障诊断的挑战(包括可观测能力、海量数据管理能力、 AI 算法的泛化能力等)在 Linux 场景中变的尤为突出。在 openEuler 开源操作系统中,现有的运维手段不足以及时发现、定位亚健康问题,存在包括:缺乏在线、持续性监控能力;缺乏应用视角精细化的观测能力;缺乏基于全栈观测数据的自动化、 AI 分析能力等问题。然而,针对亚健康故障的诊断能力其难点包括:
• 全栈的无侵入可观测观测能力。
• 持续、精细化、低负载的监控能力。
• 自适应不同应用场景的异常检测、可视化故障推导能力。
• 业务无感的补丁管理、修复。
• gala 项目介绍: 基于 eBPF + java agent 无侵入观测技术,并以智能化辅助,实现亚健康故障
• apollo 项目介绍 :智能补丁管理框架,提供 CVE/Bug 实时巡检,冷热补丁修复,实现自动发现和零中断修复
• ragdoll 项目介绍: 配置导致的故障比例占 OS 问题总数达 50% 以上, ragdoll 提供系统配置监控能力,实时发现系统配置变化,快速定位配置错误问题
3. 社区大事记
以 AI 赋能 openEuler 更智能,以 openEuler 使能 AI 更高效 瀚元科技:利用A-OPS 智能运维助力边缘服务器运维效率提升30% openEuler 南京用户组Meetup 运维专场,聚集南京区域用户交流 SysCare :为您的操作系统保驾护航 A-Ops 数据库场景在线应用性能诊断案例 openEuler 社区 AI-OPS Meetup 成功举办 openEuler 社区成立 OPS SIG ,为 openEuler 构建永不中断的基础设施