无中断升级 1200 多台 MySQL 服务器,GitHub 是如何做到的 https://www.infoq.cn/article/BH3tpVK2Ayl7W53QFGFW 关键点: Vitess ,MySql数据库集群水平分片管理 freno,Mysql写节流器服务
SRE服务端预案,应急处理手册
服务端应急处理流程 问题升级流程 问题升级步骤 SRE人员-各端组长-业务线负责人 现有降级手段 App业务入口降级 降级范围以及作用域 使用App降级策略,App在各个业务入口会直接降级,关闭对应的业务入口 使用场景 对应业务出现会持续扩大损失并且短期无法修复的报错,比如应用持续出现异常,并且异常会导致越来越多的脏数据影响业务流程 应用无法正常提…
SRE-基于阿里云的告警体系建设
SRE-描述文档
2023年技术圈发生了什么
基于数据源来做分类 sls日志告警 配置以及查看方式 sls日志左侧点击铃铛进入告警中心配置 告警规则触发就是sls日志的查询语句,配置的规则时间内,查询语句查询的数量达到配置值,就会触发告警 现状 5XX告警 应用error日志告警 云产品监控告警 配置以及查看方式 阿里云直接搜索云监控 左边云产品监控,然后搜索要配置的云产品即可,比如redis…
SRE是什么 SRE(Site Reliability Engineering)即网站可靠性工程,以软件工程的方法论重新定义研发运维,驱动并赋能业务演进。 SRE的职责 SRE主要负责所有核心业务系统的可用性、性能、容量相关的事情,根据《Site Reliability Engineering 》一书提及的内容,笔者做简单汇总,SRE的工作主要包括…
2023年技术圈发生了什么 https://www.infoq.cn/article/DUcAjpfd9ueWK9C1yOsN
互联网安全
通信链路安全 加解密相关常见概念 密钥 密钥与算法一起使用,密钥+算法+明文=密文 密钥根据算法的不同,一般会是一个(对称加密)或者一对(非对称加密) 公私钥 公私钥一直是一个比较容易混淆的概念,这里仔细说下 公私钥首先存在于非对称加密的场景 密钥本身并没有所谓公私的概念,所谓公私只取决于你对他的使用,比如,密钥A和B是一对密钥,A和B都能对彼此加…
分库分表使用规范
建模过程总结
工作记录:新生代老年代比例错误问题
计算机网络学习笔记-TCP
1 设计规范 1.1 必须使用分布式主键 解读: l 分库分表后使用依旧使用自增主键会导致后续分库分表扩容时主键全部需要重写,并且其他数据依赖方(如大数据)取数聚合计算时出现冲突 l 主键就是对数据的唯一标识键,哪怕分库分表了也应该是如此 1.2 分库分表前需要谨慎评估是否真的需要分库分表 解读: l 分库分表会带来更多的问题,不带分表键的查询都不…
整个建模过程,个人总结来说应该分为3个阶段 前期准备工作,了解问题领域的现状,做好目标分析 做好模块的划分以及具体模块的设计 对整个项目进行总结反思,包括目标的达成情况、设计的实现情况,设计是否存在不合理 前期准备工作 了解问题领域 了解业务概况 在这一步,我们需要了解现在业务的“概况”,强调一定是概况,现在还没到具体详细分析业务的时候。了解业务概…
线上排查:新生代老年代比例错误问题 起因 线上一个应用频繁full gc,排查发现单pod总内存3g的情况下新生代只有200mb,很奇怪,于是到容器里查看jvm参数。 jamp -heap 1,打印 Heap Configuration: MinHeapFreeRatio = 40 MaxHeapFreeRatio = 70 MaxHeapSize…
TCP中的超时时间计算-指数移动加权平均 TCP协议使用指数移动加权平均来计算和预估往返时间RTT。这个东西比较巧妙,比较值得借鉴。 我们假设在某一个时间对往返时间RTT进行一次样本的测量,得到SampleRTT,那么我们对于我们设置均值RTT-EstimatedRTT,可以通过指数移动加权平均来不断迭代: EstimatedRTT = (1 -a…