预购商品
书目分类
特别推荐
運維發展到現在,與初相比發生了巨大的變化。10多年的互聯網發展,讓的運維經歷了快速的變革,開始和國外接軌,甚至在部分場景有單獨的演化。 DevOps和SRE作為運維領域的兩個演化方向,在近幾年獲得了很多關注,也有很多公司進行了相關的實踐。與DevOps遍地開花的情況相比,SRE在的發展稍顯低調。《SRE:Google運維解密》一書對外運維領域有很大衝擊。本書作者作為一直工作在一線的運維工程師,理所當然地對SRE相關理念進行了實踐,本書可以說是對SRE領域階段性的實踐總結。 本書主要對傳統運維和SRE進行不同對比,讓大家瞭解運維工程師在實踐SRE理念時,關注的點和具體的實踐經驗。本書的前半部分更多地注重SRE在實際工作中對融入開發團隊、監控建設、變更管理、容量管理、異常回應、穩定性治理、事故複盤、用戶體驗管理等方面的實踐和落地。 在對SRE的工作有了瞭解後,本書會針對重要業務保障場景進行實戰講解。本書後部分對SRE工作中涉及的一些技術進行了概述,以便有興趣的同學瞭解SRE相關的技術點。
第1章 關於SRE 1 1.1 為什麼會引入SRE 2 1.2 DevOps和SRE對比 5 1.2.1 DevOps的發展 5 1.2.2 SRE的發展 6 1.3 選擇SRE 8 1.4 SRE的未來 9 第2章 SRE在組織內部的定位 11 2.1 如何介入組織 12 2.2 SRE工作著力點 16 2.3 如何衡量工作 19 2.4 貢獻價值 22 第3章 監控建設 25 3.1 什麼是好的監控服務 25 3.1.1 穩定 25 3.1.2 準確 27 3.1.3 易用 29 3.2 監控系統的設計邏輯分析 29 3.2.1 資料生產 30 3.2.2 資料上報 31 3.2.3 資料處理 33 3.2.4 資料存儲 34 3.2.5 資料使用 36 3.3 典型監控應用場景 41 3.3.1 系統監控 41 3.3.2 應用監控 42 3.3.3 終端監控 44 3.3.4 秒級監控 45 3.3.5 監控大盤 46 3.3.6 鏈路監控 46 3.4 報警治理 47 3.5 容器監控 50 3.6 監控智能化 51 第4章 變更管理 53 4.1 變更管理機制 54 4.1.1 傳統運維的變更管理 55 4.1.2 DevOps的變更管理 57 4.1.3 SRE的變更管理 59 4.1.4 變更管理實踐總結 61 4.2 變更控制 62 4.2.1 如何建設好的變更控制 62 4.2.2 制定符合業務需求的變更控制機制 64 4.3 穩定性和反覆運算速度的權衡 66 4.4 變更風險控制 68 4.5 總結 70 第5章 異常回應 71 5.1 異常的定義 71 5.2 事故/事件定義 73 5.2.1 區分事件和事故 73 5.2.2 事故等級制度 74 5.3 異常回應流程 76 5.4 如何處理值班過程中的異常回應 79 5.5 應急溝通機制 82 5.6 關於線上問題的ROC 84 第6章 服務穩定性治理 88 6.1 SLI/SLO/SLA的制定和落地 88 6.1.1 SLI的制定和應用 89 6.1.2 SLO的計算和應用 90 6.1.3 SLA的計算和應用 91 6.2 故障預防 92 6.3 抑制不可控因素 95 6.4 故障演練 97 6.4.1 故障梳理 97 6.4.2 故障預案 98 6.4.3 混濁工程 98 6.5 故障自愈 100 6.6 業務MTTR 102 6.6.1 關於損毀修復MTTR 102 6.6.2 關於故障解決MTTR 104 6.7 災備建設 105 6.8 總結 109 第7章 事故複盤 110 7.1 關於事故複盤 112 7.1.1 事故複盤初級階段 112 7.1.2 事故複盤中級階段 113 7.1.3 事故複盤成熟階段 113 7.2 如何提升事故複盤品質 115 7.2.1 事故複盤深度 116 7.2.2 事故複盤報告 118 7.3 事故分析的邏輯和原則 119 7.4 事故責任的劃分邏輯 123 7.5 事後跟進 126 7.6 基於事故/事件的學習 128 第8章 容量管理 131 8.1 容量管理的目標 131 8.2 容量管理的方法和策略 132 8.2.1 傳統評估方法 133 8.2.2 IT資源成本的構成 133 8.2.3 容量水位的定義 134 8.2.4 容量管理策略 137 8.3 容量分析系統建設 137 8.3.1 業務負載平臺 137 8.3.2 巡檢管理平臺 139 8.3.3 監控系統和CMDB系統 142 8.4 容量優化方式 143 8.4.1 業務容量優化 143 8.4.2 資源容量優化 143 8.4.3 架構容量優化 146 8.5 容量預案 151 8.6 總結 153 第9章 用戶體驗 154 9.1 外部用戶體驗和內部用戶體驗 155 9.1.1 外部用戶體驗 156 9.1.2 內部用戶體驗 158 9.2 影響用戶體驗的要素 159 9.3 外部用戶體驗的改進策略 162 9.4 內部用戶體驗的改進策略 165 9.4.1 數據相容性 165 9.4.2 工作流程 167 9.4.3 執行效率 169 第10章 重要業務活動保障 172 10.1 重要業務活動的資源準備 173 10.1.1 容量規劃 173 10.1.2 資源交付規劃 175 10.1.3 技術優化 178 10.2 參與運營活動評估 181 10.3 重要業務活動穩定性預案 184 10.4 重要業務活動準備階段的工作重點 187 10.5 重要業務活動的變更執行要求 190 10.6 重要業務活動的運維人力 192 10.7 重要業務活動的收尾 193 第11章 運維操作基礎 196 11.1 網路基礎 197 11.1.1 ARP 197 11.1.2 路由 200 11.2 4/7層協議 204 11.2.1 4層協議 204 11.2.2 7層協議 208 11.3 內核參數調優 213 11.3.1 TCP網路堆疊記憶體 214 11.3.2 TCP連接數優化 215 11.3.3 TCP高併發優化 216 11.3.4 網路參數額外調整項 217 11.3.5 TCP擁堵演算法 218 11.4 常見命令列 221 11.4.1 查看資料指標 222 11.4.2 網路資料包分析 223 11.5 配置管理工具 227 11.5.1 Ansible 228 11.5.2 CFEngine 229 11.5.3 Chef 231 11.5.4 Puppet 234 11.5.5 Salt 237 11.5.6 配置管理工具的匯總說明 240 11.5.7 雲環境下的配置管理工具演化 241 11.6 基礎設施即代碼 242 11.7 關於運維操作的未來 244 第12章 基礎組件運維 245 12.1 負載均衡中介軟體 245 12.1.1 演算法邏輯的影響 246 12.1.2 附加特性的作用 252 12.1.3 負載均衡方案 254 12.1.4 負載均衡總結 256 12.2 訊息佇列中介軟體 258 12.2.1 訊息佇列方案的技術決策 259 12.2.2 訊息佇列的技術演化 261 12.3 緩存中介軟體 262 12.3.1 緩存中介軟體的技術關注點 263 12.3.2 緩存中介軟體的選型策略 265 12.3.3 緩存中介軟體的技術演化 270 12.4 資料庫 272 12.4.1 SQL資料庫技術的選擇 273 12.4.2 SQL資料庫的配置注意事項 276 12.4.3 NoSQL資料庫技術的選擇 279 12.4.4 時序資料庫技術 282 12.5 組件運維 283 第13章 雲計算和容器 284 13.1 雲計算基礎 285 13.1.1 雲計算平臺運維 286 13.1.2 雲計算平臺上的產品運維 288 13.2 虛擬化 290 13.3 容器 292 13.4 雲存儲 296 13.5 雲網路 299 13.6 混合雲 302 13.7 雲原生 305 13.7.1 雲原生的需求情況 305 13.7.2 雲原生的發展 307 13.7.3 雲原生的展望 309
顧賢杰 網易運維專家、SRE團隊Leader,10多年來一直聚焦互聯網業務運維和穩定性建設。在互聯網業務運維方面經驗豐富,曾負責網易博客、相冊、即時通信、支付、電商、帳號系統、雲音樂等眾多產品的運維工作。在金融支付機房設計、高性能負載均衡建設、業務雙機房改造部署、災備建設等多個運維領域均有實踐,設計過海量伺服器運維工具平臺,負責的產品服務了上億的互聯網用戶。 目前的運維研究方向:海量伺服器穩定性治理、基礎設施即代碼、混合雲/雲原生體系下的運維平臺建設。 徐 贇 網易資深運維開發工程師,運維開發團隊技術Leader。參與並主導杭研運維體系建設,包括監控、流程、發佈、審批等運維領域。持續探索運維自動化、智慧化、一體化建設,為網易雲音樂、網易傳媒、網易支付等上百個產品提供高效穩定的運維服務。 顏中冠 網易技術經理、資深架構師,有16年的互聯網一線研發和架構經驗。曾負責億級統一認證項目,主持網易帳號異地雙機房建設,以及網易雲計算業務中台搭建,負責多個對外億級商業化項目研發。
客服公告
热门活动
订阅电子报