- 軟件大?。?span>73.77M
- 軟件語言:中文
- 軟件類型:國產(chǎn)軟件
- 軟件類別:免費軟件 / 電子圖書
- 更新時間:2017-08-22 10:53
- 運行環(huán)境:WinAll, WinXP, Win7, Win8, Win10
- 軟件等級:
- 軟件廠商:
- 官方網(wǎng)站:暫無
146.48M/中文/2.0
9.76M/中文/10.0
32.22M/中文/1.5
7.81M/中文/1.4
5.85M/中文/0.0
sre google運維解密pdf是一套免費的電子圖書文檔。這套圖書為大家介紹了軟件開發(fā)過程中遇到了詳細運維方式。很適合Google工程師人員研究學(xué)習(xí)使用!快來綠色資源網(wǎng)下載閱讀吧!
在《SRE:Google運維解密》中,Google SRE的關(guān)鍵成員解釋了他們是如何對軟件進行生命周期的整體性關(guān)注的,以及為什么這樣做能夠幫助Google成功地構(gòu)建、部署、監(jiān)控和運維世界上現(xiàn)存最大的軟件系統(tǒng)。通過閱讀《SRE:Google運維解密》,讀者可以學(xué)習(xí)到Google工程師在提高系統(tǒng)部署規(guī)模、改進可靠性和資源利用效率方面的指導(dǎo)思想與具體實踐——這些都是可以立即直接應(yīng)用的寶貴經(jīng)驗。
任何一個想要創(chuàng)建、擴展大規(guī)模集成系統(tǒng)的人都應(yīng)該閱讀《SRE:Google運維解密》?!禨RE:Google運維解密》針對如何構(gòu)建一個可長期維護的系統(tǒng)提供了非常寶貴的實踐經(jīng)驗。
前言 xxxi
序言 xxxv
第Ⅰ部分 概覽
第1 章 介紹 2
系統(tǒng)管理員模式 2
Google 的解決之道:SRE 4
SRE 方法論 6
確保長期關(guān)注研發(fā)工作 6
在保障服務(wù)SLO 的前提下最大化迭代速度 7
監(jiān)控系統(tǒng) 8
應(yīng)急事件處理 8
變更管理 9
需求預(yù)測和容量規(guī)劃 9
資源部署 10
效率與性能 10
小結(jié) 10
第2 章 Google 生產(chǎn)環(huán)境:SRE 視角 11
硬件 11
管理物理服務(wù)器的系統(tǒng)管理軟件 13
管理物理服務(wù)器 13
存儲 14
網(wǎng)絡(luò) 15
其他系統(tǒng)軟件 16
分布式鎖服務(wù) 16
監(jiān)控與警報系統(tǒng) 16
軟件基礎(chǔ)設(shè)施 17
研發(fā)環(huán)境 17
莎士比亞搜索:一個示范服務(wù) 18
用戶請求的處理過程 18
任務(wù)和數(shù)據(jù)的組織方式 19
第Ⅱ部分 指導(dǎo)思想
第3 章 擁抱風(fēng)險 23
管理風(fēng)險 23
度量服務(wù)的風(fēng)險 24
服務(wù)的風(fēng)險容忍度 25
辨別消費者服務(wù)的風(fēng)險容忍度 26
基礎(chǔ)設(shè)施服務(wù)的風(fēng)險容忍度 28
使用錯誤預(yù)算的目的 30
錯誤預(yù)算的構(gòu)建過程 31
好處 32
第4 章 服務(wù)質(zhì)量目標 34
服務(wù)質(zhì)量術(shù)語 34
指標 34
目標 35
協(xié)議 36
指標在實踐中的應(yīng)用 37
運維人員和最終用戶各關(guān)心什么 37
指標的收集 37
匯總 38
指標的標準化 39
目標在實踐中的應(yīng)用 39
目標的定義 40
目標的選擇 40
控制手段 42
SLO 可以建立用戶預(yù)期 42
協(xié)議在實踐中的應(yīng)用 43
第5 章 減少瑣事 44
瑣事的定義 44
為什么瑣事越少越好 45
什么算作工程工作 46
瑣事繁多是不是一定不好 47
小結(jié) 48
第6 章 分布式系統(tǒng)的監(jiān)控 49
術(shù)語定義 49
為什么要監(jiān)控 50
對監(jiān)控系統(tǒng)設(shè)置合理預(yù)期 51
現(xiàn)象與原因 52
黑盒監(jiān)控與白盒監(jiān)控 53
4 個黃金指標 53
關(guān)于長尾問題 54
度量指標時采用合適的精度 55
簡化,直到不能再簡化 55
將上述理念整合起來 56
監(jiān)控系統(tǒng)的長期維護 57
Bigtable SRE :警報過多的案例 57
gmail :可預(yù)知的、可腳本化的人工干預(yù) 58
長跑 59
小結(jié) 59
第7 章 Google 的自動化系統(tǒng)的演進 60
自動化的價值 60
一致性 60
平臺性 61
修復(fù)速度更快 61
行動速度更快 62
節(jié)省時間 62
自動化對Google SRE 的價值 62
自動化的應(yīng)用案例 63
Google SRE 的自動化使用案例 63
自動化分類的層次結(jié)構(gòu) 64
讓自己脫離工作:自動化所有的東西 66
舒緩疼痛:將自動化應(yīng)用到集群上線中 67
使用Prodtest 檢測不一致情況 68
冪等地解決不一致情況 69
專業(yè)化傾向 71
以服務(wù)為導(dǎo)向的集群上線流程 72
Borg :倉庫規(guī)模計算機的誕生 73
可靠性是最基本的功能 74
建議 75
第8 章 發(fā)布工程 76
發(fā)布工程師的角色 76
發(fā)布工程哲學(xué) 77
自服務(wù)模型 77
追求速度 77
密閉性 77
強調(diào)策略和流程 78
持續(xù)構(gòu)建與部署 78
構(gòu)建 78
分支 79
測試 79
打包 79
Rapid 系統(tǒng) 80
部署 81
配置管理 81
小結(jié) 82
不僅僅只對Google 有用 83
一開始就進行發(fā)布工程 83
第9 章 簡單化 85
系統(tǒng)的穩(wěn)定性與靈活性 85
乏味是一種美德 86
我絕對不放棄我的代碼 86
“負代碼行”作為一個指標 87
最小 API 87
模塊化 87
發(fā)布的簡單化 88
小結(jié) 88
第Ⅲ部分 具體實踐
第10 章 基于時間序列數(shù)據(jù)進行有效報警 93
Borgmon 的起源 94
應(yīng)用軟件的監(jiān)控埋點 95
監(jiān)控指標的收集 96
時間序列數(shù)據(jù)的存儲 97
標簽與向量 98
Borg 規(guī)則計算 99
報警 104
監(jiān)控系統(tǒng)的分片機制 105
黑盒監(jiān)控 106
配置文件的維護 106
十年之后 108
第11 章 on-call 輪值 109
介紹 109
on-call 工程師的一天 110
on-call 工作平衡 111
數(shù)量上保持平衡 111
質(zhì)量上保持平衡 111
補貼措施 112
安全感 112
避免運維壓力過大 114
運維壓力過大 114
奸詐的敵人—運維壓力不夠 115
小結(jié) 115
第12 章 有效的故障排查手段 116
理論 117
實踐 119
故障報告 119
定位 119
檢查 120
診斷 122
測試和修復(fù) 124
神奇的負面結(jié)果 125
治愈 126
案例分析 127
使故障排查更簡單 130
小結(jié) 130
第13 章 緊急事件響應(yīng) 131
當系統(tǒng)出現(xiàn)問題時怎么辦 131
測試導(dǎo)致的緊急事故 132
細節(jié) 132
響應(yīng) 132
事后總結(jié) 132
變更部署帶來的緊急事故 133
細節(jié) 133
事故響應(yīng) 134
事后總結(jié) 134
流程導(dǎo)致的嚴重事故 135
細節(jié) 135
災(zāi)難響應(yīng) 136
事后總結(jié) 136
所有的問題都有解決方案 137
向過去學(xué)習(xí),而不是重復(fù)它 138
為事故保留記錄 138
提出那些大的,甚至不可能的問題:假如…… 138
鼓勵主動測試 138
小結(jié) 138
第14 章 緊急事故管理 140
無流程管理的緊急事故 140
對這次無流程管理的事故的剖析 141
過于關(guān)注技術(shù)問題 141
溝通不暢 141
不請自來 142
緊急事故的流程管理要素 142
嵌套式職責分離 142
控制中心 143
實時事故狀態(tài)文檔 143
明確公開的職責交接 143
一次流程管理良好的事故 144
什么時候?qū)ν庑际鹿?144
小結(jié) 145
......
請描述您所遇到的錯誤,我們將盡快予以修正,謝謝!
*必填項,請輸入內(nèi)容