歷經(jīng)四個(gè)多月的集中編寫,并融匯 2025 年上半年度的深圳 GOPS 與北京?InfoQ 大會(huì)的最新分享,本次版本在整體框架與深度上實(shí)現(xiàn)了又一次躍升。核心亮點(diǎn)如下:
新增第四章「SRE?進(jìn)階」
該章面向 SRE 管理者,聚焦團(tuán)隊(duì)治理與商業(yè)化實(shí)踐,計(jì)劃分四個(gè)模塊展開。首批發(fā)布的 “4.1?SRE?團(tuán)隊(duì)的生存與持續(xù)發(fā)展”,結(jié)合國內(nèi)外一線案例,系統(tǒng)剖析 SRE 組織在預(yù)算、權(quán)責(zé)與 ROI 三維度的生存法則,并給出可操作的評(píng)估與演進(jìn)路徑。其余三節(jié)——綜合算力調(diào)度、數(shù)據(jù)與AI 場(chǎng)景、基礎(chǔ)監(jiān)控及應(yīng)用觀測(cè)——將于后續(xù)迭代中陸續(xù)推出。
聯(lián)盟升級(jí)與視角拓展
2025 年起,SRE?Elite 已整體并入中國信通院云大所「穩(wěn)定性保障實(shí)驗(yàn)室」并成立 SRE?工作組,成員規(guī)模擴(kuò)至 40+。我們沿用每周二晚例會(huì)傳統(tǒng),持續(xù)沉淀來自互聯(lián)網(wǎng)、金融、游戲等領(lǐng)域的最佳實(shí)踐,并在?QCon、GOPS 等行業(yè)大會(huì)開設(shè)專場(chǎng),推動(dòng)社區(qū)共建。
內(nèi)容體系再次細(xì)分
- 第二章 將重塑為 SRE 職場(chǎng)新人的基礎(chǔ)理論入口;
- 第三章 繼續(xù)迭代國內(nèi)企業(yè) SRE 職責(zé)全景,方便對(duì)標(biāo)與差距分析;
- 第四章 正式承擔(dān)組織級(jí)策略與可持續(xù)發(fā)展議題,助力 SRE 從“止損”走向“增收”。
本次更新新增近 6 萬字,既補(bǔ)足了理論深度,也給出了可執(zhí)行的工具、指標(biāo)與盈利模型。我們誠邀廣大 SRE 同仁閱讀、探討,并期待在實(shí)踐中不斷完善這一開放文檔。若有意見或案例分享,歡迎通過。(GitHub Issues/Discussions )與我們交流。
1.0.6 修訂記錄
- 本次新增約 6 萬字
- 新增第四章「SRE?進(jìn)階」:包含 “SRE團(tuán)隊(duì)的生存與持續(xù)發(fā)展”“SRE團(tuán)隊(duì)的綜合算力調(diào)度”“SRE團(tuán)隊(duì)的數(shù)據(jù)與AI場(chǎng)景”“SRE團(tuán)隊(duì)的基礎(chǔ)監(jiān)控與應(yīng)用觀測(cè) ”。本次發(fā)布 SRE團(tuán)隊(duì)的生存與持續(xù)發(fā)展,其余模塊待編寫。
- 章節(jié)結(jié)構(gòu)調(diào)整:將原第二章 SRE?組織架構(gòu) 并入第一章;新增第二章 SRE?的基礎(chǔ)(編寫中)。
- 第三章第 5 節(jié)〈故障應(yīng)急〉:結(jié)構(gòu)全面優(yōu)化,新增 “XX?銀行”,“騰訊?IEG”,“小米米家”,“廣發(fā)證券” 等案例,并更新原 “美圖” 案例展望內(nèi)容。
5.3.8 XX 銀行應(yīng)急提升實(shí)踐:深耕 1-5-10 工程
SRE Elite 精選原因:
該案例以“1510”工程為牽引,從組織、流程、工具三維度提升金融級(jí)故障應(yīng)急韌性。通過橫縱三層技術(shù)支持、一分鐘監(jiān)控感知、五分鐘節(jié)點(diǎn)級(jí)定界、十分鐘應(yīng)急六板斧處置,實(shí)現(xiàn)端到端閉環(huán);配套早例會(huì)、復(fù)盤、治理、體驗(yàn)等機(jī)制沉淀知識(shí)并驅(qū)動(dòng)持續(xù)改進(jìn);值班經(jīng)理八大修養(yǎng)與跨部門協(xié)作文化保障指揮效率;最終形成可預(yù)見故障場(chǎng)景及一鍵應(yīng)急平臺(tái),將專家隱性知識(shí)自動(dòng)化,故障診斷秒級(jí)完成,為大中型股份制銀行構(gòu)建高效、可復(fù)制的穩(wěn)定性保障范式。

5.3.9 騰訊 IEG SRE 應(yīng)急響應(yīng)實(shí)踐
SRE Elite 精選原因:
方案亮點(diǎn)在于依托藍(lán)鯨基座, 以平臺(tái)工程的方式整合監(jiān)控、CMDB、權(quán)限等能力,形成“告警→響應(yīng)→診斷→恢復(fù)→復(fù)盤”全鏈閉環(huán)。標(biāo)準(zhǔn)化告警接入配合巡檢確保觀測(cè)確定性,自動(dòng)升級(jí)流程打通跨團(tuán)隊(duì)協(xié)作;APM+eBPF零侵入全棧觀測(cè)結(jié)合 LLM Agent 智能根因定位,將診斷壓縮至分鐘級(jí);混沌工程與每日過載驗(yàn)證保障過載保護(hù)有效,常態(tài)化 On-Call 與演練提升團(tuán)隊(duì)實(shí)戰(zhàn)熟練度,使多數(shù)故障實(shí)現(xiàn)分鐘級(jí)自愈,真正把應(yīng)急從人治升級(jí)為體系化工程。

5.3.10 小米米家故障應(yīng)急保障體系實(shí)戰(zhàn):穩(wěn)中求勝的構(gòu)建之道
SRE Elite 精選原因:
米家承載?8.6?億設(shè)備、1?億月活、日?PV?200?億,一次失誤即波及千萬用戶。團(tuán)隊(duì)以六層技術(shù)架構(gòu)配合“三句話”多活容災(zāi)(層層防護(hù)、多機(jī)房、多版本快照回滾),并建立“流程前置?平臺(tái)自動(dòng)化?組織兜底”三維穩(wěn)定性體系。研運(yùn)一體化平臺(tái)打通工單?灰度?監(jiān)控,AI 因果?RCA?和?SRERobot 實(shí)現(xiàn)秒級(jí)定位與自愈。5?30?分鐘分級(jí)應(yīng)急及告警小助手,自動(dòng)拉群、匹配預(yù)案、閉環(huán)復(fù)盤。
2022?跨機(jī)房專線中斷與?2024?機(jī)房火災(zāi)兩次實(shí)戰(zhàn),通過?79?項(xiàng)改進(jìn)驗(yàn)證體系成效,極具參考意義,體現(xiàn)“穩(wěn)中求勝、持續(xù)迭代”的?SRE?文化。

5.3.11 廣發(fā)證券數(shù)智化重構(gòu)故障管理:構(gòu)建主動(dòng)防御新體系
SRE Elite 精選原因:
廣發(fā)證券設(shè)計(jì)了通過應(yīng)急實(shí)現(xiàn)全生命周期穩(wěn)定: 運(yùn)維左移通過架構(gòu)韌性模型前置可靠性;變更管控用數(shù)字化平臺(tái)與感知因子,達(dá)成事前防御、事中阻斷、事后追溯;應(yīng)急指揮借ECC與 ChatOps 機(jī)器人秒級(jí)集結(jié),數(shù)字化預(yù)案保障快速恢復(fù);大模型運(yùn)維整合算法中心、知識(shí)庫與智能體,智能定位根因、降噪、腳本合規(guī);機(jī)器人把監(jiān)控、變更、巡檢等能力原子化嵌入 IM,釋放專家價(jià)值,并探索多模態(tài)看板異常識(shí)別。
整體方案完整,落地,并具備一定的前瞻性及探索性, 是證券行業(yè)的SRE 數(shù)智化標(biāo)桿案例。

反饋和溝通
如果您有任何問題或建議,點(diǎn)這里提交聯(lián)系我們。
也歡迎使用 GitHub 的 issue & Discussions 功能來提交您的問題或討論。