阿里云 - 监控报警

2019-10-25
  • 一键报警
    • 适用于所有的服务器,添加和删除修改对所有服务器生效。适合公共通用的规则。对应所有服务器使用的规则数量 1 条实际使用的规则资源就是 1 条。可以节省规则数量
  • 应用分组
    • 通用的规则先应用到分组上,不同之间分组规则更改互不影响,同一组中规则更改一条会影响整个组。组中删除一个服务器会去除应用到组上的规则,加服务器会添加上相应组的规则。
  • 报警模板
    • 使用创建好的报警模板去应用到分组,这样不用修改报警时间段,如果从应用分组中执行使用什么模板,默认会选择从 0 点到 24 点。
    • 报警模板的设计要覆盖到除了一键报警之外的所有报警,报警的区分通过分组来区分尽量不要设置单独的报警条目这样有利于报警的添加和管理。
  • 报警规则
    • 所有根据模板应用到组上的规则需要做一些细微的修改,包括报警名称(要写的容易让人看明白)报警的时间,入 inode 报警和心跳报警要设置 0-24 点,且要设置成短信报警。
    • 报警分成三个级别:
      • 不重要不紧急
        • 钉钉
        • 邮件
      • 重要不紧急
        • 短信
      • 重要紧急
      • 电话