Prometheus - 何为监控

2019-10-23
  • 定义
    • 通过技术手段发现异常,并给出建议与处理。
    • 持续优化业务可用性与用户体验。
  • 职责
    • 全面建立立体的监控体系,并持续优化;
    • 发现隐患及时处理,发现故障主动上报;
    • 故障响应,故障信息同步,推动故障处理,降低恢复时间;
    • 推动故障 review,对故障进行分析挖坑根本原因,提出建设性意见,定期对数据进行整理分析;
    • 对报警出来的信息做判断;
    • 主动发现问题,并推动问题的解决。
  • 目标
    • 及时发现问题
    • 快速对问题进行定位
  • 维度
    • 基础设施
      • 硬件
      • 网络
      • 操作系统
    • 公共服务与中间件
      • SpringBoot
      • Jetty
      • Tomcat
      • php-fpm
      • nginx
      • kafka
      • MySQL
      • 等等
    • 应用与服务
    • 业务活动
    • 用户体验
  • 监控信息
    • 时效性

      • 提升监控的性能
      • 降低监控数据流的延迟
    • 全面性

      • 积极发现未监控的点,并接入平台。
    • 告警

      • 准确性

        • 避免误报
        • 降低漏报
    • 报警规则可页面化配置

    • 报警接收粒度

      • 钉钉群
      • team
    • 追踪并及时反馈处理进度

    • 处理常规问题

    • 风险预警

      • 对存在风险的告警进行分析并报告
      • 对重要告警处理结果的报告
    • 制度的建立

    • 其他

      • 监控方面新产品的调研

          • 对新产品调研并出分析报告是否适合公司环境使用
          • 对新产品进行搭建并使用一段时间出使用报告
          • 对搭建和维护进行文档编写
      • 报警聚合


标题:Prometheus - 何为监控
地址:https://blog.njqhome.com:8443/articles/2019/10/22/1571730978595.html