标签: SRE

3 篇文章

thumbnail
SRE服务端预案,应急处理手册
服务端应急处理流程 问题升级流程 问题升级步骤 SRE人员-各端组长-业务线负责人 现有降级手段 App业务入口降级 降级范围以及作用域 使用App降级策略,App在各个业务入口会直接降级,关闭对应的业务入口 使用场景 对应业务出现会持续扩大损失并且短期无法修复的报错,比如应用持续出现异常,并且异常会导致越来越多的脏数据影响业务流程 应用无法正常提…
thumbnail
SRE-基于阿里云的告警体系建设
基于数据源来做分类 sls日志告警 配置以及查看方式 sls日志左侧点击铃铛进入告警中心配置 告警规则触发就是sls日志的查询语句,配置的规则时间内,查询语句查询的数量达到配置值,就会触发告警 现状 5XX告警 应用error日志告警 云产品监控告警 配置以及查看方式 阿里云直接搜索云监控 左边云产品监控,然后搜索要配置的云产品即可,比如redis…
SRE-描述文档
SRE是什么 SRE(Site Reliability Engineering)即网站可靠性工程,以软件工程的方法论重新定义研发运维,驱动并赋能业务演进。 SRE的职责 SRE主要负责所有核心业务系统的可用性、性能、容量相关的事情,根据《Site Reliability Engineering 》一书提及的内容,笔者做简单汇总,SRE的工作主要包括…