1. 主页
  2. 文档
  3. HCaaS操作指南
  4. 告警和通知

告警和通知

为了保证您的应用随时处于健康状态,提高组织的生产力,您需要知悉项目内出现的计划内事件和计划外事件。事件会触发您设置的告警,您就会收到通知,您可以根据通知作出对应的操作。

通知和告警是基于Prometheus构建的,借助这些工具,HCaaS 可以通知项目所有者项目内发生的事件,由他们决定如何处理触发告警的事件。

收到告警信息之前,您需要至少设置一个通知

告警的作用范围

在项目层级,HCaaS 监控特定的部署,发出的告警信息主要和以下几个方面相关:

  • 部署是否可用
  • 工作负载的状态
  • Pod 的状态
  • Prometheus 表达式类型的告警是否超过了设定的阈值

配置通知

当项目触发告警时,你可以通过通知来接收相关的告警信息,告警信息支持多个接收方式和多人接收。在配置告警接收通知时,必须预先已配置至少一条通知规则,通知配置步骤如下:

  1. 在左侧菜单导航栏选中通知,通知列表页面单击添加通知按钮
  2. 填写通知名称,名称应该具有明确意义,便于和其他通知接收不同的告警信息,以示区分
  3. 选择一个通知方式。HCaaS支持企业微信、钉钉、邮箱和webhook四种方式,你可以选择其中一种通知方式进行配置,配置项会根据通知方式而不同
  4. 单击添加
  5. 通知列表页可对通知进行升级,删除等操作

添加告警组

前提条件:收到项目告警信息前,您必须添加项目层级的告警提醒。

  1. 左侧菜单栏选择告警,在项目告警组页面右上角单击添加告警组
  2. 输入告警的名称,名称应该总结这一组告警的作用,您可以将多个告警规则放到同一个告警组中。HCaaS支持创建的告警分为四类:Pod 告警(Pod Alerts)、工作负载告警(Workload Alerts)、工作负载 Selector 告警(Workload Selector Alerts)和表达式告警(Metric Expression Alerts)。根据告警类别的不同,您需要完成以下步骤:

Pod 告警(Pod Alerts)

Pod 告警的作用是监控 Pod 的状态。

  1. 输入告警的名称
  2. 选择 Pod 选项,从下拉菜单中选择一个 Pod
  3. 选择一个触发告警的 Pod 状态:
    • 未运行
    • 未调度
    • 在最近的 x 分钟内重启 x 次
  4. 选择告警的重要程度,有以下三个等级供您选择:
    • 危险: 最紧急,已经对 Pod 产生了影响,需要用户进行一些操作,修正这个影响
    • 警告: 一般紧急,暂时对 Pod 没有影响
    • 信息: 最不紧急,仅仅是通知用户,Pod 内发生了一个事件告警的重要程度由集群状态决定。举个例子,Pod 完成了一次任务运行后,向用户发送告警,这种情况只是知会用户,Pod 运行了一次,没有故障也不会对 Pod 产生潜在的影响,所以这种告警应该匹配的是信息等级。但是,如果一个重要的 Pod 出现调度失败的情况,这可能会影响后续操作,这种告警应该匹配的是危险等级。
  5. 主继承和高级配置选项。默认状态下,一个告警组内的所有的告警规则都会继承告警组中的这些选项。但配置告警规则的时候,您也可以覆盖告警组中的这些高级设置
    • 告警组等待时长: 第一次发送告警信息前,等待时间,默认为 30 秒
    • 告警组间隔时长: 在发送了第一次的告警之后有新告警产生时,等待是否有告警触发,经过这个时间后,可以把这段时间的告警批量发送给接受者,默认为 3 分钟
    • 重复间隔: 发送两条相同的告警之间的时间间隔,默认为 1 小时

工作负载告警(Workload Alerts)

工作负载告警的作用是监控工作负载的可用性。

  1. 输入告警的名称
  2. 选择Workload ,然后从下拉菜单中选择一个工作负载
  3. 选择可用百分比。当工作负载的可用百分比低于这个数值时,会触发告警
  4. 选择告警的重要程度
  5. 组继承和高级配置选项

工作负载 Selector 告警(Workload Selector Alerts)

工作负载 Selector 告警的作用是监控添加了某个标签的全部工作负载的可用性。

  1. 输入告警的名称
  2. 选择Workload Selector 选项,单击添加选择器 ,输入标签的键值对。如果有工作负载符合这个描述,就会触发告警
  3. 选择告警的重要程度
  4. 组继承和高级配置选项

表达式告警(Metric Expression Alerts)

如果您启用了项目监控,这个告警类型使用 Prometheus 表达式查询的项目是否过载。

  1. 输入告警的名称
  2. 输入一个新的表达式,或选择一个已有的表达式,下拉菜单展示了 Prometheus 自带的监控指标
    • 容器
    • Kubernetes 资源
    • 自定义指标
    • 项目 Prometheus 的指标
  3. 选择触发告警的方式
  4. 输入触发告警的阈值
  5. 输入一个持续时间,表示在这条告警在指定的时间段内一直是有效的
  6. 选择告警的重要程度建议您基于告警对操作的影响,选择告警的重要程度。例如,您设定了两条关于容器内存限制的告警,一条告警规定了内存使用率超过 60%时发出告警信息,另一条告警规定了内存使用率超过 95%时发出告警信息;您可以将前者的重要程度设置为信息,将后者的重要程度设置为危险
  7. 配置高级选项

管理项目告警

  1. 升级告警组。在告警组列表页面,操作列单击编辑,进入编辑告警组页面,可添加其他告警规则 到这个告警组内;在页面最下方告警 到旁边的文本框中选择发送告警消息的方式,和告警消息的收件人。您可以选择多种方式发送告警信息, 也可以随时修改收件人的名单
    当触发告警时,告警信息会通过您指定的方式发送给指定的收件人
  2. 停用告警/重新激活告警。在告警组列表页面,操作列单击停用/激活
  3. 删除。删除多余的告警规则
  4. 克隆。克隆告警规则
  5. 添加其他告警规则到这个告警组内

文章

这篇文章对您有用吗?

Leave a Reply

电子邮件地址不会被公开。 必填项已用*标注