Skip to content

[ENHANCEMENT] MegaScan:性能事件统计与异常检测升级 #25

@jennifer88huang

Description

@jennifer88huang
  1. 增加集合通信、前向与反向计算时长的最大/最小/平均值统计,并支持正常与异常 Rank 对比分析。(预计需要 1 month)

  2. 引入更细粒度的事件分类,按计算 / 通信 / 数据加载等类型拆分,便于针对性分析。(预计需要 1 month)

  3. 重构时间线对齐逻辑,显著提升跨 Rank 事件对齐精度与稳定性。(预计需要 2 month)

  4. 提升异常检测算法的准确性与鲁棒性,扩展支持 Context Parallelism、Expert Parallelism 等并行模式。(长期,预计需要 3~6 months)

Metadata

Metadata

Assignees

Labels

Type

No type

Projects

Status

Todo

Milestone

No milestone

Relationships

None yet

Development

No branches or pull requests

Issue actions