Prometheus - 何为监控
2019-10-23
- 定义
- 通过技术手段发现异常,并给出建议与处理。
- 持续优化业务可用性与用户体验。
- 职责
- 全面建立立体的监控体系,并持续优化;
- 发现隐患及时处理,发现故障主动上报;
- 故障响应,故障信息同步,推动故障处理,降低恢复时间;
- 推动故障 review,对故障进行分析挖坑根本原因,提出建设性意见,定期对数据进行整理分析;
- 对报警出来的信息做判断;
- 主动发现问题,并推动问题的解决。
- 目标
- 及时发现问题
- 快速对问题进行定位
- 维度
- 基础设施
- 硬件
- 网络
- 操作系统
- 公共服务与中间件
- SpringBoot
- Jetty
- Tomcat
- php-fpm
- nginx
- kafka
- MySQL
- 等等
- 应用与服务
- 业务活动
- 用户体验
- 基础设施
- 监控信息
-
时效性
- 提升监控的性能
- 降低监控数据流的延迟
-
全面性
- 积极发现未监控的点,并接入平台。
-
告警
-
准确性
- 避免误报
- 降低漏报
-
-
报警规则可页面化配置
-
报警接收粒度
- 钉钉群
- team
- 人
-
追踪并及时反馈处理进度
-
处理常规问题
-
风险预警
- 对存在风险的告警进行分析并报告
- 对重要告警处理结果的报告
-
制度的建立
-
其他
-
监控方面新产品的调研
-
- 对新产品调研并出分析报告是否适合公司环境使用
-
- 对新产品进行搭建并使用一段时间出使用报告
-
- 对搭建和维护进行文档编写
-
-
报警聚合
-
-