Serverless Quant ModelOps - Auto Monitoring and Alerting

多种告警渠道 - 功能演示

告警渠道配置

邮件配置

告警列表

告警级别: 严重
告警信息: CPU 利用率超过 95%
时间: 2024-11-15 10:00:00
渠道: 邮件
告警级别: 警告
告警信息: 内存利用率超过 80%
时间: 2024-11-15 10:05:00
渠道: 短信 (模拟)

实施数据 - 测试用例 TC-001

配置邮件告警,并触发高危告警。验证alert_events表是否正确记录告警信息。

model_name alert_time alert_level alert_message metric_name metric_value threshold_value channel is_resolved is_accurate
量化模型 A 2024-11-15 10:00:00 critical CPU利用率超过95%。 cpu_utilization 96 95 邮件 FALSE TRUE

测试数据 - 测试用例 TC-009

测试告警解决后,alert_events表中的is_resolved字段更新。

model_name alert_time alert_level alert_message metric_name metric_value threshold_value channel is_resolved resolved_time is_accurate
量化模型 A 2024-11-15 10:00:00 critical CPU利用率超过95%。 cpu_utilization 96 95 邮件 TRUE 2024-11-15 10:15:00 TRUE