
3 Jul
2025
3 Jul
'25
11:44 a.m.
https://docs.openeuler.openatom.cn/zh/docs/24.03_LTS_SP2/server/releasenotes/releasenotes/key_features.html#ai-场景创新
故障分组检测
AI 集群在训练过程中不可避免会发生性能劣化,导致性能劣化的原因很多且复杂。现 有方案是在发生性能劣化之后利用日志分析,但是从日志收集到问题定界根因诊断以及现 网闭环问题需要长达 3-4 天之久。基于上述痛点问题,我们设计了一套在线慢节点定界方 案,该方案能够实时在线观测系统关键指标,并基于模型和数据驱动的算法对观测数据进 行实时分析给出劣慢节点的位置,便于系统自愈或者运维人员修复问题。
基于分组的指标对比技术提供了 AI 集群训练场景下的的慢节点/慢卡检测能力。这项技术通过 sysTrace实现,新增内容包括配置文件、算法库、慢节点空间维度对比算法和慢节点时间维度对比,最终输出慢节点异常时间、异常指标以及对应的慢节点/慢卡 ip, 从而提高系统的稳定性和可靠性。
谢谢!
4
Age (days ago)
4
Last active (days ago)
0 comments
1 participants
participants (1)
-
周天凌