https://docs.openeuler.openatom.cn/zh/docs/24.03_LTS_SP2/server/releasenote…
故障分组检测 <https://docs.openeuler.openatom.cn/zh/docs/24.03_LTS_SP2/server/releasenote…>
AI 集群在训练过程中不可避免会发生性能劣化,导致性能劣化的原因很多且复杂。现 有方案是在发生性能劣化之后利用日志分析,但是从日志收集到问题定界根因诊断以及现 网闭环问题需要长达 3-4 天之久。基于上述痛点问题,我们设计了一套在线慢节点定界方 案,该方案能够实时在线观测系统关键指标,并基于模型和数据驱动的算法对观测数据进 行实时分析给出劣慢节点的位置,便于系统自愈或者运维人员修复问题。
基于分组的指标对比技术提供了 AI 集群训练场景下的的慢节点/慢卡检测能力。这项技术通过 sysTrace实现,新增内容包括配置文件、算法库、慢节点空间维度对比算法和慢节点时间维度对比,最终输出慢节点异常时间、异常指标以及对应的慢节点/慢卡 ip, 从而提高系统的稳定性和可靠性。
谢谢!
#/******本邮件及其附件含有小米公司的保密信息,仅限于发送给上面地址中列出的个人或群组。禁止任何其他人以任何形式使用(包括但不限于全部或部分地泄露、复制、或散发)本邮件中的信息。如果您错收了本邮件,请您立即电话或邮件通知发件人并删除本邮件! This e-mail and its attachments contain confidential information from XIAOMI, which is intended only for the person or entity whose address is listed above. Any use of the information contained herein in any way (including, but not limited to, total or partial disclosure, reproduction, or dissemination) by persons other than the intended recipient(s) is prohibited. If you receive this e-mail in error, please notify the sender by phone or email immediately and delete it!******/#