今日快讯:【TKE】 配置事件告警实践
2023-02-24 02:57:31
来源:腾讯云
(相关资料图)
操作场景
对集群中比较关注的事件信息设置告警,以便快速感知该事件发生情况。
操作步骤
事件告警依赖 CLS 日志告警功能,所以需要先开启集群事件存储,参考 开启事件存储。2. 选择导航栏左侧运维中心>日志管理 > 事件日志,进入“事件检索”页面。通过事件仪表盘检索已有的事件样例,参考 全局检索 。
比如我们要想告警原因为 "NotTriggerScaleUp"(Pod Pending 没有触发节点池扩容事件) 的事件数量告警 ,我们可以在 交互模式下, 添加筛选条件 event.reason
为 "NotTriggerScaleUp" 的事件信息。再使用 SQL 语句 统计查到的总条数,点击查询按钮查询相关事件信息(查询时间默认近15分钟,可以根据情况选择查询时间),如下图:
查询到事件后可以点击 统计图表 查看统计情况(如下图), 可以看到查询的事件总数为 15 个。
切换交互模式为语句模式,将显示查询的语句(留作备用): event.reason:"NotTriggerScaleUp" | select count(*) as errcounts
,如下图:
3. 在 CLS 告警策略 界面设置告警配置。
根据第 2 步生成的查询语句创建告警配置,如下图:
触发条件语法参考:触发条件语法。
4. 根据帮助文档配置告警对象相关信息后保存,如下图:
上述第3、4步配置详情和告警测试请参考 CLS 监控告警文档。