1.运维监控系统的设计
1.1 基于ISO/IEC20000和ITIL v3理论
1.2 遵循ITSS、GB/T 28827-2012系列运行维护服务国家标准
2. 建立集成化的资源运行状态监控管理系统
2.1平台运行状态和信息化资源的统一化、可视化、可控化管理
2.2基于资源的统一化管理
2.3 面向基础资源和面向业务应用两个层面的监控
3. 服务运行监控管理
3.1 7x24小时的服务和数据资源监控和管理
3.2 资源状态异常的及时通报和展示
3.3 实现平台内部服务运行状态的趋势预测
4.统一化的一体监控模式
4.1 支持对Hadoop架构体系的资源监控
Ø 软件模块和系统(HBase、HDFS等)
Ø 关系型数据库(MySQL集群等)
Ø 接入共享接口
Ø 中间件系统
Ø 前端应用
4.2 支持SNMP、SSH/telnet、JMX、JDBC等监控方式和协议
4.3 支持对数据接入和共享接口的运行监控
5. 平台故障处理管理
5.1 所有异常事件的统一管理
5.2建立完备的故障事件、问题、变更和发布等的标准化故障处理流程
5.3 提供页面/邮件/短信/声音/光/消息客户端/WebService接口给责任人进行告警处理。
5.4 系统自动化的日程操作和管理
Ø 自动巡检
Ø 针对非监控资源的人工巡检