企業數字化基石——阿里巴巴云計算基礎設施實踐
  • 推薦0
  • 收藏1
  • 瀏覽388

企業數字化基石——阿里巴巴云計算基礎設施實踐

高山淵 蔡德忠 趙曉雪 劉禮寅 劉水旺 陳義全 徐波 編著 (作者) 

  • 叢  書:阿里巴巴集團技術叢書
  • 書  號:978-7-121-37388-6
  • 出版日期:2020-01-01
  • 頁  數:352
  • 開  本:16(170*240)
  • 出版狀態:上市銷售
  • 維護人:孫學瑛
在互聯網行業中,云計算基礎設施技術具有非常重要的作用與影響,一方面,在電商、金融科技、云計算、大數據、AI等重要戰略領域發展的過程中,云計算基礎設施技術的重要支撐作用已經無可替代;另一方面,云計算基礎設施技術已經成為許多類型業務的直接競爭力,甚至在云計算、AI等領域中,計算能力、存儲能力、網絡能力都成為業務的一部分。本書將詳細地闡述阿里巴巴在基礎設施上的實踐細節及先進技術,包括數據中心、網絡、服務器、計算硬件、存儲硬件,以及智能化運營與自動化運維等內容。
本書是由AIS(Alibaba Infrastructure Service)組織編寫的,歷時三年,AIS是負責阿里巴巴集團所有基礎設施的研發、運營、維護等工作的部門。本書梳理了基礎設施演進過程中的思路、得失、最佳實踐、未來路徑規劃等,可以讓IT企業的管理者、軟件工程師、測試工程師、運維工程師、軟件架構師、技術經理能夠更清晰地知道基礎設施的根本在哪里,而且還可以讓IT企業客戶對基礎設施的發展和未來有一定的了解,以便更好地使用基礎設施提供的技術和服務,讓阿里巴巴在基礎設施上的經驗成為國家和行業基礎設施發展的參考。
本書是對阿里巴巴云計算基礎設施技術實踐的全面總結,它不僅全方位地描述了作為阿里巴巴經濟體數字化基石的云計算基礎設施技術諸多細節,更是一部芯片、存儲、網絡,以及云計算技術演進的風云變幻史,本書是值得記入中國IT技術歷史濃墨重彩的一筆!
本書得到了阿里巴巴集團CTO兼阿里云智能事業群總裁張建鋒(行癲)、阿里巴巴集團副總裁基礎設施事業部負責人周明、中國信息通信研究院云計算與大數據研究所所長、開放數據中心委員會名譽主席何寶宏三位的親筆作序推薦。
主要作者簡介
高山淵,花名康伯,2004年進入互聯網行業,2007年加入阿里巴巴集團,先后負責過阿里巴巴的CDN運維、聚石塔、大數據平臺(ODPS/Hadoop)、云計算、服務器、數據中心等運維和研發工作,現擔任AIS(阿里巴巴基礎設施事業部)首席架構師及IDC研發事業部總經理。
蔡德忠,阿里云智能基礎設施首席網絡架構師,負責阿里巴巴基礎網絡架構工作,主持設計了全新一代高可靠、高智能和低延時(HAIL)數據中心架構,以及基于SDN和SR的全球網絡流量調度系統,領導了阿里巴巴IPv6的架構設計和大規模部署。在此之前,Dennis 作為思科 Distinguished Engineer,在美國思科擔任運營商事業群全球市場產品和解決方案 Lead Architect。聯合著作及貢獻過多項Internet RFCs 標準和十幾項美歐專利。獲得清華大學工學學士,北京大學和美國 DePaul University 計算機科學碩士學位。
趙曉雪,現任阿里巴巴研究員,阿里云智能基礎設施智能運維團隊負責人。加入阿里巴巴之前在美國谷歌總部基礎設施部門任職多年。在數據中心,云計算和網絡等領域都有豐富的研究和實踐經驗。美國加州大學伯克利分校博士。擁有多項專利和論文。
前 言
隨著云計算的廣泛應用,特別是為創新企業帶來的低成本、高效率賦能創新的優勢,云計算基礎設施技術成為當下創新非?;钴S的領域。
為什么寫本書
阿里巴巴的云計算基礎設施技術的演進和發展,是阿里巴巴集團整體發展的一部分,也是阿里巴巴未來業務能否成功的核心因素。在這個過程中,我們有很多的思考和實踐、嘗試和創新,以及經驗和教訓,并取得了一定的成果,面向未來也有了越來越明確的思路和規劃。我們希望通過這本書將云計算基礎設施技術的過去、現在和將來呈現給讀者,讓阿里巴巴在云計算基礎設施技術上的實踐經驗成為國家和行業云計算基礎設施發展的重要參考。
本書主要內容
本書針對云計算基礎設施技術的各方面做了概要性的介紹和說明,包括互聯網數據中心(IDC)、網絡、服務器計算、存儲、智能化等。這些方面的每一項都是一個非常專業和復雜的技術領域,本書力圖能簡明扼要地加以說明。
第1章 基礎設施架構綜述,簡要介紹云計算基礎設施技術的范圍、價值、挑戰等。
第2章 TCO建模,介紹TCO的概念,數據中心、服務器、網絡設備的TCO組成,以及如何在系統層面進行TCO分析和建模,并做出最優的選擇。
第3章 數據中心能效,介紹如何系統地評估數據中心能效水平,如PUE、SPUE、IUE等。
第4章 數據中心,介紹狹義數據中心的核心技術,包括供電、制冷等的挑戰、發展趨勢。
第5章 數據中心網絡架構和關鍵技術,介紹阿里巴巴數據中心的網絡架構和關鍵技術,包括歷史回顧、架構理念、高性能網絡、網絡可視化等。
第6章 服務器技術,介紹服務器的硬件組成、演進、挑戰等。
第7章 計算硬件技術,介紹通用計算、異構計算、總線互聯等。
第8章 存儲硬件技術,介紹內存、HDD、SSD及阿里巴巴自研存儲產品AliFlash等。
第9章 基礎設施智能化運營與自動化運維,介紹大規模云計算基礎設施的運營和運維的自動化、數據化、智能化等內容。
第10章 IDC、網絡、服務器的一體化,介紹如何在技術演進中讓IDC建筑、網絡大集群、服務器協同發展,并提供最優的解決方案。
第11章 總結及展望,面向未來,云計算基礎設施技術如何進一步提升能力、支持創新。
致謝
本書從策劃到成稿,再到出版經歷了三年多的時間,前后有百余位同事參加了規劃、構思、寫作、校對等工作,署名的作者及致謝名單未能將每一位參與者一一列出,在這里一并致謝。
感謝在本書寫作過程中基礎設施事業部的各位管理者給予的支持,給予本書大方向的把控及人力上的支持。
感謝電子工業出版社的認可,讓本書得以出版,感謝孫學瑛老師及其團隊細致、艱苦的工作,讓本書最終能夠與讀者見面。
由于作者水平有限,書中不足及錯誤之處在所難免,敬請專家和讀者給予批評指正。
高山淵
2019年12月

目錄

目 錄
第1章 基礎設施架構綜述 / 1
1.1 基礎設施的概念 / 1
1.2 基礎設施作為技術驅動力 / 3
1.3 基礎設施的技術價值 / 7
1.3.1 技術安全 / 8
1.3.2 穩定性 / 9
1.3.3 TCO / 10
1.3.4 穩定性、性能、成本的平衡 / 11
1.3.5 追求效率、標準化、規范化 / 11
1.4 基礎設施的核心競爭力特征 / 12
第2章 TCO建模 / 13
2.1 靜態TCO模型 / 14
2.1.1 數據中心CapEx / 15
2.1.2 服務器及網絡設備CapEx / 16
2.1.3 OpEx / 16
2.1.4 產能/TCO / 16
2.2 動態TCO模型 / 17
2.3 TCO最優 / 18
第3章 數據中心能效 / 22
3.1 數據中心電能利用率 / 22
3.2 數據中心服務器電能利用率 / 30
3.2.1 服務器電源的能效 / 31
3.2.2 服務器風扇的能效 / 33
3.3 數據中心基礎設施使用率 / 35
3.4 小結 / 37
第4章 數據中心 / 39
4.1 數據中心面臨的挑戰 / 39
4.1.1 中國能源供給結構對數據中心
的影響 / 39
4.1.2 新政策環境下數據中心面臨的
技術升級挑戰 / 41
4.1.3 云計算業務給數據中心帶來的
機遇與挑戰 / 41
4.2 數據中心技術的發展趨勢 / 43
4.2.1 數據中心技術演進的路線與
趨勢 / 43
4.2.2 阿里巴巴數據中心的演進路線
與趨勢 / 46
4.3 數據中心能源與供電技術 / 49
4.3.1 數據中心能源的選擇與引入 / 49
4.3.2 數據中心電氣系統架構演進的
趨勢與路線 / 54
4.3.3 數據中心電氣關鍵技術與設備 / 59
4.4 阿里巴巴數據中心供電工程
實踐案例 / 68
4.4.1 分布式不間斷供電和集中式
不間斷供電的比較 / 68
4.4.2 240V+PSU集中供電系統 / 70
4.4.3 天蝎BBS / 71
4.4.4 服務器BBU / 73
4.4.5 機柜DPS / 74
4.5 數據中心制冷技術 / 76
4.5.1 數據中心制冷系統架構的選擇
與設計 / 76
4.5.2 連續制冷 / 89
4.5.3 制冷系統的節能措施 / 91
4.6 面向下一代IT系統的冷卻技術 / 96
4.6.1 液冷技術簡介 / 96
4.6.2 冷板式液冷技術 / 98
4.6.3 浸沒式液冷技術 / 99
4.6.4 不同冷卻技術對比 / 100
4.7 數據中心制冷技術的發展
趨勢 / 102
4.8 阿里巴巴數據中心冷卻工程
實踐案例 / 103
4.8.1 千島湖數據中心 / 103
4.8.2 張北新風自然冷數據中心 / 105
第5章 數據中心網絡架構和關鍵
技術 / 112
5.1 超大規模數據中心網絡概述 / 112
5.1.1 超大規模數據中心的網絡架構
及其技術演變 / 112
5.1.2 超大規模數據中心網絡的未來
發展趨勢 / 115
5.2 阿里巴巴數據中心網絡 / 118
5.2.1 云計算對數據中心網絡的核心
要求 / 118
5.2.2 阿里巴巴數據中心網絡架構
演進 / 120
5.2.3 阿里巴巴數據中心網絡HAIL
架構的設計理念 / 122
5.2.4 阿里巴巴數據中心網絡HAIL
架構簡介 / 130
5.2.5 阿里巴巴數據中心交換機 / 131
5.2.6 阿里巴巴 vSwitch / 138
5.2.7 阿里巴巴數據中心網絡光互聯
技術 / 141
5.3 數據中心網絡協議和高性能
網絡 / 142
5.3.1 數據中心網絡互聯協議 / 142
5.3.2 高性能網絡 RDMA技術 / 145
5.4 可編程芯片和高性能網關
平臺 / 146
5.4.1 基于x86高性能軟件網關平臺
Netframe / 146
5.4.2 基于可編程交換機與SDN技術
的硬件交換平臺 / 147
5.5 網絡可視化技術 / 148
5.5.1 網絡可視化前端技術 / 149
5.5.2 網絡可視化后端技術 / 150
5.6 城域網光傳輸技術 / 151
5.6.1 城域網架構簡介 / 151
5.6.2 光傳輸技術 / 154
第6章 服務器技術 / 159
6.1 服務器簡介 / 159
6.1.1 服務器系統分級 / 160
6.1.2 服務器行業生態 / 161
6.1.3 服務器應用場景 / 162
6.1.4 服務器面臨的挑戰 / 162
6.1.5 服務器設計考慮 / 163
6.2 服務器研發和技術體系 / 164
6.2.1 數據中心服務器研發模式 / 165
6.2.2 數據中心服務器工程技術之
主板 / 167
6.2.3 數據中心服務器工程技術之
散熱技術 / 170
6.2.4 服務器結構工程技術 / 174
6.2.5 服務器監控及運維體系 / 189
6.2.6 服務器測試及性能評估
體系 / 191
6.3 軟硬件優化 / 197
6.4 服務器演進展望 / 198
6.4.1 阿里巴巴的服務器演進 / 198
6.4.2 計算/存儲分離和部件化 / 199
6.4.3 進一步解耦CPU-Storage,
CPU-GPU,CPU-MEM和
架構一體化 / 201
6.5 硬件安全體系 / 203
6.5.1 可信計算 / 204
6.5.2 可信執行環境 / 205
6.5.3 內存安全 / 208
6.5.4 構建完善的硬件安全體系 / 209
第7章 計算硬件技術 / 211
7.1 通用計算 / 212
7.1.1 x86 / 212
7.1.2 Non-IA / 215
7.1.3 Non-IA與x86的比較 / 218
7.1.4 典型業務與通用計算 / 219
7.2 異構計算 / 221
7.2.1 GPU / 221
7.2.2 FPGA / 225
7.2.3 ASIC / 227
7.2.4 CPU、GPU、FPGA、ASIC
簡單比較 / 230
7.3 邊緣計算 / 230
7.4 總線互聯 / 233
7.4.1 QPI/UPI / 233
7.4.2 NV-Link / 234
7.4.3 CAPI / 234
7.4.4 CCIX / 235
7.5 計算與業務軟硬件結合 / 236
7.6 小結 / 238
第8章 存儲硬件技術 / 239
8.1 內存 / 240
8.1.1 DDR / 240
8.1.2 NVDIMM與UltraDIMM / 241
8.1.3 AEP / 243
8.1.4 HBM與HMC / 243
8.2 HDD / 245
8.2.1 基本原理 / 245
8.2.2 大容量硬盤應用 / 247
8.2.3 HDD的發展趨勢 / 251
8.3 SSD / 251
8.3.1 NAND Flash / 254
8.3.2 2D/3D NAND / 254
8.3.3 SSD的使用 / 259
8.4 新型存儲介質 / 261
8.4.1 3D XPoint / 261
8.4.2 ReRAM / 264
8.4.3 NVMe / 265
8.5 新型存儲介質應用 / 265
8.6 自研存儲產品AliFlash / 269
8.6.1 雙模式SSD / 269
8.6.2 開放通道模式 / 270
8.6.3 開放通道模式的應用路徑 / 272
8.6.4 AliFlash與業務軟硬件結合 / 273
8.7 存儲路徑 / 276
8.7.1 傳統文件系統 / 276
8.7.2 KV存儲 / 278
8.7.3 SPDK / 279
8.8 NVMoF / 280
8.9 近存儲計算 / 283
8.9.1 本地近存儲計算 / 283
8.9.2 遠端近存儲計算 / 285
8.10 小結 / 288
第9章 基礎設施智能化運營與
自動化運維 / 289
9.1 基礎設施資源運營智能化 / 290
9.1.1 需求預測 / 291
9.1.2 數據中心機架位容量規劃 / 293
9.1.3 智能制造的發展趨勢 / 295
9.2 基礎設施資源交付自動化 / 296
9.2.1 通過帶外網絡實現的遠程自動
開關機 / 296
9.2.2 服務器操作系統自動化安裝 / 297
9.2.3 自動化部署遇到的問題及解決
方案 / 300
9.3 基礎設施智能監管控 / 300
9.3.1 可用性監控分析 / 301
9.3.2 電熱異常感知 / 301
9.3.3 能效優化 / 304
9.4 物理機自動化維修 / 305
9.4.1 故障發現 / 305
9.4.2 故障預測 / 307
9.4.3 故障維修 / 307
9.5 集群自動化運維 / 309
9.5.1 集群自動化運維的主要設計
思想 / 309
9.5.2 物理機集群智能自愈系統 / 311
9.6 網絡智能變更系統 / 314
9.6.1 變更穩定性挑戰 / 314
9.6.2 解決方案 / 315
9.6.3 網絡智能化變更系統 / 316
9.7 無人值守的數據中心 / 317
第10章 IDC、網絡、服務器的
一體化 / 319
10.1 基礎設施的最優化匹配 / 319
10.1.1 大集群與業務的最優匹配 / 319
10.1.2 IDC建筑、網絡大集群、服務
器的宏觀優化 / 320
10.1.3 機架功耗、服務器功耗、網
絡端口利用率的微觀優化 / 321
10.2 整機架交付:OCP、天蝎
與AliRack / 322
10.3 面向業務的一體化解決方案:
HPC、超算、AI / 323
10.4 系統技術分層與協作 / 327
10.5 全系統模擬器 / 328
第11章 總結及展望 / 330
11.1 2022年——世界第一的基礎
設施 / 330
11.2 基礎設施5.0——AI、異構、
智能化 / 332
11.3 基礎設施6.0——一體化最優
基礎設施架構 / 332
11.4 五年之后的基礎設施——創新
的機制保障 / 333
11.4.1 NASA與達摩院——阿里巴巴
的科技創新 / 333
11.4.2 AIS的創新機制 / 333
11.4.3 前瞻布局與戰略拖動 / 334
11.5 量子與未來 / 334
11.5.1 量子通信 / 334
11.5.2 量子計算 / 335

讀者評論

下載資源

相關博文

  • 阿里免費開放一切AI算力的背后是什么?

    阿里免費開放一切AI算力的背后是什么?

    陳曉猛 2020-02-10

    為加速新冠疫苗研發,日前阿里云已免費開放其一切AI算力。同時,阿里云將與合作機構向全球科學共同體免費開放相關藥物研發資源,共同加速針對新型冠狀病毒的藥物研發。這若干項舉措背后的助力,源自于阿里巴巴強大的云計算基礎設施。 本文節選自...

    陳曉猛 2020-02-10
    56 0 0 0

同系列書

  • 深入分析Java Web技術內幕(修訂版)

    《深入分析Java Web技術內幕(修訂版)》主要圍繞Java Web 相關技術從三方面全面、深入地進行了闡述。首先介紹前端知識,即在JavaWeb 開發中涉及...

    ¥79.00
  • 盡在雙11——阿里巴巴技術演進與超越

    阿里巴巴集團雙11技術團隊 (作者)

    “雙 11”,誕生于杭州,成長于阿里,風行于互聯網,成就于新經濟,貢獻于全世界。 從 2009 年淘寶商城起,雙 11 已歷經八年。每年的雙 11 既是當年的...

    ¥49.00
  • 機器學習在線:解析阿里云機器學習平臺

    楊旭 (作者)

    以機器學習中的典型案例為主線,條分縷析梳理阿里云的平臺功能,講解如何用阿里云的機器學習平臺來實現各類應用,包括商家作弊檢測、生存預測、信用風險預測、用戶購買行為...

    ¥79.00
  • 大數據大創新:阿里巴巴數據中臺業務模式解密

    鄧中華 (作者)

    阿里巴巴云上數據中臺正服務著阿里生態中的數十個業務板塊、百余家公司、千萬級客戶,在幫助決策層看清甚至決定業態走向的同時,在上萬個業務場景中應用并催生創新。<br...

    ¥99.00
  • 企業數字化基石——阿里巴巴云計算基礎設施實踐

    高山淵 蔡德忠 趙曉雪 劉禮寅 劉水旺 陳義全 徐波 編著 (作者)

    在互聯網行業中,云計算基礎設施技術具有非常重要的作用與影響,一方面,在電商、金融科技、云計算、大數據、AI等重要戰略領域發展的過程中,云計算基礎設施技術的重要支...

     
国际官方棋牌下载中心