为了保证您的应用随时处于健康状态,提高组织的生产力,您需要知悉项目内出现的计划内事件和计划外事件。事件会触发您设置的告警,您就会收到通知,您可以根据通知作出对应的操作。
通知和告警是基于Prometheus构建的,借助这些工具,HCaaS 可以通知项目所有者项目内发生的事件,由他们决定如何处理触发告警的事件。
收到告警信息之前,您需要至少设置一个通知。
告警的作用范围
在项目层级,HCaaS 监控特定的部署,发出的告警信息主要和以下几个方面相关:
- 部署是否可用
- 工作负载的状态
- Pod 的状态
- Prometheus 表达式类型的告警是否超过了设定的阈值
配置通知
当项目触发告警时,你可以通过通知来接收相关的告警信息,告警信息支持多个接收方式和多人接收。在配置告警接收通知时,必须预先已配置至少一条通知规则,通知配置步骤如下:
- 在左侧菜单导航栏选中通知,通知列表页面单击添加通知按钮
- 填写通知名称,名称应该具有明确意义,便于和其他通知接收不同的告警信息,以示区分
- 选择一个通知方式。HCaaS支持企业微信、钉钉、邮箱和webhook四种方式,你可以选择其中一种通知方式进行配置,配置项会根据通知方式而不同
- 单击添加
- 通知列表页可对通知进行升级,删除等操作
添加告警组
前提条件:收到项目告警信息前,您必须添加项目层级的告警提醒。
- 左侧菜单栏选择告警,在项目告警组页面右上角单击添加告警组
- 输入告警的名称,名称应该总结这一组告警的作用,您可以将多个告警规则放到同一个告警组中。HCaaS支持创建的告警分为四类:Pod 告警(Pod Alerts)、工作负载告警(Workload Alerts)、工作负载 Selector 告警(Workload Selector Alerts)和表达式告警(Metric Expression Alerts)。根据告警类别的不同,您需要完成以下步骤:
Pod 告警(Pod Alerts)
Pod 告警的作用是监控 Pod 的状态。
- 输入告警的名称
- 选择 Pod 选项,从下拉菜单中选择一个 Pod
- 选择一个触发告警的 Pod 状态:
- 未运行
- 未调度
- 在最近的 x 分钟内重启 x 次
- 选择告警的重要程度,有以下三个等级供您选择:
- 危险: 最紧急,已经对 Pod 产生了影响,需要用户进行一些操作,修正这个影响
- 警告: 一般紧急,暂时对 Pod 没有影响
- 信息: 最不紧急,仅仅是通知用户,Pod 内发生了一个事件告警的重要程度由集群状态决定。举个例子,Pod 完成了一次任务运行后,向用户发送告警,这种情况只是知会用户,Pod 运行了一次,没有故障也不会对 Pod 产生潜在的影响,所以这种告警应该匹配的是信息等级。但是,如果一个重要的 Pod 出现调度失败的情况,这可能会影响后续操作,这种告警应该匹配的是危险等级。
- 主继承和高级配置选项。默认状态下,一个告警组内的所有的告警规则都会继承告警组中的这些选项。但配置告警规则的时候,您也可以覆盖告警组中的这些高级设置
- 告警组等待时长: 第一次发送告警信息前,等待时间,默认为 30 秒
- 告警组间隔时长: 在发送了第一次的告警之后有新告警产生时,等待是否有告警触发,经过这个时间后,可以把这段时间的告警批量发送给接受者,默认为 3 分钟
- 重复间隔: 发送两条相同的告警之间的时间间隔,默认为 1 小时
工作负载告警(Workload Alerts)
工作负载告警的作用是监控工作负载的可用性。
- 输入告警的名称
- 选择Workload ,然后从下拉菜单中选择一个工作负载
- 选择可用百分比。当工作负载的可用百分比低于这个数值时,会触发告警
- 选择告警的重要程度
- 组继承和高级配置选项
工作负载 Selector 告警(Workload Selector Alerts)
工作负载 Selector 告警的作用是监控添加了某个标签的全部工作负载的可用性。
- 输入告警的名称
- 选择Workload Selector 选项,单击添加选择器 ,输入标签的键值对。如果有工作负载符合这个描述,就会触发告警
- 选择告警的重要程度
- 组继承和高级配置选项
表达式告警(Metric Expression Alerts)
如果您启用了项目监控,这个告警类型使用 Prometheus 表达式查询的项目是否过载。
- 输入告警的名称
- 输入一个新的表达式,或选择一个已有的表达式,下拉菜单展示了 Prometheus 自带的监控指标
- 容器
- Kubernetes 资源
- 自定义指标
- 项目 Prometheus 的指标
- 选择触发告警的方式
- 输入触发告警的阈值
- 输入一个持续时间,表示在这条告警在指定的时间段内一直是有效的
- 选择告警的重要程度建议您基于告警对操作的影响,选择告警的重要程度。例如,您设定了两条关于容器内存限制的告警,一条告警规定了内存使用率超过 60%时发出告警信息,另一条告警规定了内存使用率超过 95%时发出告警信息;您可以将前者的重要程度设置为信息,将后者的重要程度设置为危险。
- 配置高级选项
管理项目告警
- 升级告警组。在告警组列表页面,操作列单击编辑,进入编辑告警组页面,可添加其他告警规则 到这个告警组内;在页面最下方告警 到旁边的文本框中选择发送告警消息的方式,和告警消息的收件人。您可以选择多种方式发送告警信息, 也可以随时修改收件人的名单
当触发告警时,告警信息会通过您指定的方式发送给指定的收件人 - 停用告警/重新激活告警。在告警组列表页面,操作列单击停用/激活
- 删除。删除多余的告警规则
- 克隆。克隆告警规则
- 添加其他告警规则到这个告警组内