SRE:Google運維解密是一本關于技術的書籍,谷歌神書,解密讓人仰望的技術崗位——谷歌SRE,如何構建一個可長期維護的系統提供了非常寶貴的實踐經驗,不管對于運維還是開發來說,都是一本值得仔細閱讀的好書。sregoogle運維解密pdf電子書,有需要的朋友可以免費下載。
SRE:Google運維解密書籍介紹
大型軟件系統生命周期的絕大部分都處于“使用”階段,而非“設計”或“實現”階段。那么為什么我們卻總是認為軟件工程應該首要關注設計和實現呢?在《SRE:Google運維解密》中,Google SRE的關鍵成員解釋了他們是如何對軟件進行生命周期的整體性關注的,以及為什么這樣做能夠幫助Google成功地構建、部署、監控和運維世界上現存*的軟件系統。通過閱讀《SRE:Google運維解密》,讀者可以學習到Google工程師在提高系統部署規模、改進可靠性和資源利用效率方面的指導思想與具體實踐——這些都是可以立即直接應用的寶貴經驗。
任何一個想要創建、擴展大規模集成系統的人都應該閱讀《SRE:Google運維解密》。《SRE:Google運維解密》針對如何構建一個可長期維護的系統提供了非常寶貴的實踐經驗。
SRE:Google運維解密目錄
第Ⅰ部分 概覽
第1 章 介紹
系統管理員模式
的解決之道:
方法論
確保長期關注研發工作
在保障服務SLO 的前提下最大化迭代速度
監控系統
應急事件處理
變更管理
需求預測和容量規劃
資源部署
效率與性能
小結
第2 章 Google 生產環境:SRE 視角
硬件
管理物理服務器的系統管理軟件
管理物理服務器
存儲
網絡
其他系統軟件
分布式鎖服務
監控與警報系統
軟件基礎設施
研發環境
莎士比亞搜索:一個示范服務
用戶請求的處理過程
任務和數據的組織方式
第Ⅱ部分 指導思想
第3 章 擁抱風險
管理風險
度量服務的風險
服務的風險容忍度
辨別消費者服務的風險容忍度
基礎設施服務的風險容忍度
使用錯誤預算的目的
錯誤預算的構建過程
好處
第4 章 服務質量目標
服務質量術語
指標
目標
協議
指標在實踐中的應用
運維人員和最終用戶各關心什么
指標的收集
匯總
指標的標準化
目標在實踐中的應用
目標的定義
目標的選擇
控制手段
可以建立用戶預期
協議在實踐中的應用
第5 章 減少瑣事
瑣事的定義
為什么瑣事越少越好
什么算作工程工作
瑣事繁多是不是一定不好
小結
第6 章 分布式系統的監控
術語定義
為什么要監控
對監控系統設置合理預期
現象與原因
黑盒監控與白盒監控
個黃金指標
關于長尾問題
度量指標時采用合適的精度
簡化,直到不能再簡化
將上述理念整合起來
監控系統的長期維護
:警報過多的案例
:可預知的、可腳本化的人工干預
長跑
小結
第7 章 Google 的自動化系統的演進
自動化的價值
一致性
平臺性
修復速度更快
行動速度更快
節省時間
自動化對Google SRE 的價值
自動化的應用案例
的自動化使用案例
自動化分類的層次結構
讓自己脫離工作:自動化所有的東西
舒緩疼痛:將自動化應用到集群上線中
使用Prodtest 檢測不一致情況
冪等地解決不一致情況
專業化傾向
以服務為導向的集群上線流程
:倉庫規模計算機的誕生
可靠性是最基本的功能
建議
第8 章 發布工程
發布工程師的角色
發布工程哲學
自服務模型
追求速度
密閉性
強調策略和流程
持續構建與部署
構建
分支
測試
打包
系統
部署
配置管理
小結
不僅僅只對Google 有用
一開始就進行發布工程
第9 章 簡單化
系統的穩定性與靈活性
乏味是一種美德
我絕對不放棄我的代碼
“負代碼行”作為一個指標
最小
模塊化
發布的簡單化
小結
第Ⅲ部分 具體實踐
第10 章 基于時間序列數據進行有效報警
的起源
應用軟件的監控埋點
監控指標的收集
時間序列數據的存儲
標簽與向量
規則計算
報警
監控系統的分片機制
黑盒監控
配置文件的維護
十年之后
第11 章 on-call 輪值
介紹
工程師的一天
工作平衡
數量上保持平衡
質量上保持平衡
補貼措施
安全感
避免運維壓力過大
運維壓力過大
奸詐的敵人-運維壓力不夠
小結
第12 章 有效的故障排查手段
理論
實踐
故障報告
定位
檢查
診斷
測試和修復
神奇的負面結果
治愈
案例分析
使故障排查更簡單
小結
第13 章 緊急事件響應
當系統出現問題時怎么辦
測試導致的緊急事故
細節
響應
事后總結
變更部署帶來的緊急事故
細節
事故響應
事后總結
流程導致的嚴重事故
細節
災難響應
事后總結
所有的問題都有解決方案
向過去學習,而不是重復它
為事故保留記錄
提出那些大的,甚至不可能的問題:假如……
鼓勵主動測試
SRE:Google運維解密pdf預覽
- PC官方版
- 安卓官方手機版
- IOS官方手機版