阿里免費開放一切AI算力的背后是什么?

陳曉猛

2020-02-10

為加速新冠疫苗研發,日前阿里云已免費開放其一切AI算力。同時,阿里云將與合作機構向全球科學共同體免費開放相關藥物研發資源,共同加速針對新型冠狀病毒的藥物研發。這若干項舉措背后的助力,源自于阿里巴巴強大的云計算基礎設施。

本文節選自《企業數字化基石:阿里巴巴云計算基礎設施實踐》一書,將為大家帶來云計算基礎設施的技術價值。


▊ 基礎設施的技術價值

基礎設施的技術價值層次如下圖所示。

基礎設施的技術價值層次

  • 基本價值:實現專業技術的基本價值,例如,網絡對于業務的基本價值是網絡傳輸數據的價值,體現在連通性、可靠性、帶寬等方面。

  • 架構價值:當某項技術成為決定技術變化的核心的時候,我們就認為其不僅發揮基本價值,還發揮了架構價值,例如,Flash 存儲技術的成熟,讓阿里巴巴能夠以分布式技術替代原先需要高端存儲和計算才能完成的海量數據庫業務支持,從而成就了去 IOE 的成功。

  • 業務價值:當一項技術變得人人都可以隨時使用的時候,這項技術必然產生業務價值,例如,計算和虛擬化技術的發展,讓租用計算能力成為云計算的核心模式和競爭力。

  • 成本價值:當一項技術趨于完全成熟時,成本就成為考量這一技術競爭力的最后一個指標,甚至有些時候,成本會成為一項業務的核心競爭力,例如,常見的互聯網業務在業務發展前期都會以低價、虧本、免費的方式吸引客戶,這時候,成本是否足夠低,就成為業務能否生存、吸引客戶的關鍵因素。

回顧最近互聯網相關技術的發展,云計算、大數據、AI 等無疑一方面是技術創新最活躍的領域,另一方面也都成為新的業務方向?;A設施技術的持續創新,為它們提供了更多機遇。

基礎技術研發要充分考慮技術的這四個價值層次。本書將圍繞基礎設施技術及其技術價值體現做細節探討。

1. 技術安全

當基礎設施技術成為核心競爭力和發動機的時候,技術安全成為一個必須要面對的課題?;A設施技術安全考慮以下幾個方面。

  • 關鍵技術 / 資源,不受單一供應商綁定,不被競爭對手領先。

  • 符合行業 / 國家 / 地區規定和國家技術安全。

  • 技術不足嚴重影響公司業務發展,如果阿里巴巴在過去沒有做去IOE(IBM, Oracle,EMC),就不可能有電商、金融甚至云計算業務的成功。

  • 技術不足導致競爭劣勢,成本差距無法承受(比如成本差距 >10%)。

  • 技術發展導致業務被顛覆。

  • 核心技術泄露導致喪失競爭優勢。

  • 唯一、稀缺資源的獲取,產生更多的業務想象力,同時形成競爭優勢。

如何應對技術安全問題,是基礎設施技術發展過程中需要始終重點考慮。

2.穩定性

基礎設施作為支持和運行業務的重要生產資料之一,其穩定性也極大地影響著業務的穩定性。

基礎設施特別是硬件類設備一定會存在故障,云計算將基礎設施的不穩定作為基本假設來設計系統——這一點也成為云計算區別于傳統設備供應商的核心競爭力之一——因此會在業務層設計容災措施,例如阿里巴巴電商類業務的同城雙活、異地多活架構就降低了對基礎設施的依賴。但是并非所有業務都擁有完善的架構來應對基礎設施故障,因此基礎設施的穩定性SLA(Service Level Agreement )/ OLA( Operational Level Agreement )仍然是一個長期的挑戰。

同時,穩定性的SLA/OLA 并非越高越好,針對某些特定業務,我們適當降低 SLA/OLA 的要求可以有效提高成本優勢和效率,在《企業數字化基石:阿里巴巴云計算基礎設施實踐》一書中將會詳細展開。

  • IDC

Uptime Institute 和 TIA 都將數據中心分為四個等級,即Tier I ~ Tier IV,直觀來 說,等級越高的數據中心穩定性越好。

中國質量認證中心(CQC)的標準GB50174-2008 將數據中心分為A、B、C 三個等級,其中 A 級為最高。

IDC作為底層的基礎設施,出問題之后影響面也往往最大,同時穩定性的挑戰也最大。一般來說,IDC觸發的故障都是非常嚴重的故障,例如,2015 年 6 月 21 日阿里云中國香港機房故障導致的業務中斷超過 12 小時的嚴重事件:

“6月21日上午9點37分,阿里監控系統發現阿里云中國香港IDC 運營商名氣通機房出現訪問異常,名氣通機房反饋的原因為供電系統故障導致數據中心大樓整體斷電,并觸發消防報警。根據當地的消防規定,必須徹底排查隱患并完全消除后,才能獲準進場做電力搶修。21點22分,機房正式恢復穩定供電,阿里立即執行既定預案逐項恢復服務,21點 32分,安全防護服務恢復正常,各項服務陸續恢復,截至 23點39分全部服務恢復?!?

因此,IDC 作為底層的基礎設施,穩定性是重中之重。

  • 網絡

作為連通所有服務器、所有服務與用戶的管道,網絡穩定與否將第一時間影響業務及用戶,因此也被提出非常高的穩定性要求,特別是要杜絕大規模故障。

網絡穩定性的典型表征是故障多、影響大、排查難、恢復慢。在影響業務的嚴重故障中,網絡的原因也經常有,2015 年 5 月 27日支付寶故障就是非常典型的例子:

“杭州市蕭山區某地光纖被挖斷,造成目前少部分用戶無法使用支付寶,運營商正在搶修,支付寶工程師正在緊急將用戶請求切換至其他機房,受影響的用戶正在逐步恢復。用戶的資金安全并不會因此受到任何影響。如果出現交易信息不同步的情況,在修復后會恢復同步?!?/p>

傳統網絡作為一套封閉系統,涉及復雜的軟硬件及多廠商設備、協議等兼容性問題,非常容易觸發穩定性問題。小到一臺接入交換機(ToR Switch/ASW),大到核心交換機、路由器及運營商網絡和光纖,都可能出現輕微或非常嚴重的問題。

對于網絡穩定性,如何做到架構上冗余、出問題快速發現乃至自動恢復是未來網絡的重點課題,這部分,我們將在第5章及第10章重點探討。

  • 服務器

成熟的互聯網應用是基于硬件的不可靠性這一基本假設來設計的,對單一服務器的穩定性要求不高。但是對服務器穩定性的挑戰有以下兩個方面:

  • 批次性問題:損失超出了業務設計的容忍范圍或者多余的人力投入。

  • 資源售賣型云計算服務對單機的可靠性依賴。

如何從服務器的設計、研發、生產、交付、運營各個環節系統化地避免服務器的批次性問題,是服務器研發的重要挑戰,我們將在第 6 章做相關探討。

3.TCO

任何有競爭力的產品對用戶來說都應該是TCO(Total Cost of Ownership)最優的。在基礎設施領域,TCO 也是穩定性之外最重要的衡量指標,或者極端地說,任何不能降低 TCO 的創新都是假創新。

TCO 的核算是一個非常復雜和困難的課題,比如阿里巴巴之前以單筆交易(或支付)成本作為衡量指標來評估基礎設施水平。但是由于業務的不斷發展、業務類型不斷豐富、用戶體驗提升、安全對抗加劇、市場容量飽和等因素,需要全局的成本建模,這會在本書第 2 章詳細闡述。

4.穩定性、性能、成本的平衡

任何事情都有兩面性,就像RFC1925 的 12 條中的第7 條說的一樣,基礎設施的 特性決定了基礎設施研發和創新的困難:

  • 穩定性、性能、成本平衡困難(如下圖所示)。

  • 復雜的系統工程,領域眾多、依賴度高、牽一發而動全身。

  • 硬件研發和迭代周期長,投入資源量巨大。

image

穩定性、性能、成本

要應對這些困難和挑戰,做到基礎設施的宏觀架構與微觀架構統一,需要科學的方法論和實踐,更需要AI 等技術的加持,才能求得基礎設施的最優解,詳見書中第9 章 和第 10 章的相關內容。

5.追求效率、標準化、規范化

因為大規模系統在建設、采購、交付和運營各個環節都要保證效率最大化,所以對規范、標準方面的要求就成為提升效率的最有效抓手,且規范和標準也是提升穩定性的有效手段之一。

例如如何做到大規模情況下服務器交付效率的提升,已經成為當前階段的重要課題?;ヂ摼W行業的最佳實踐是采用整機柜交付模式,這一交付模式本身就要求機架層面的規范化和標準化,以實現以機柜為單位的可復制,來提升交付效率。

僵化的規范與標準可能會成為阻礙創新的絆腳石,我們要能夠根據技術發展、業務變化快速地更新優化規范與標準。

▊ 《企業數字化基石:阿里巴巴云計算基礎設施實踐》

高山淵 蔡德忠 趙曉雪 劉禮寅 劉水旺 陳義全 徐波 編著

這是一本對阿里巴巴云計算基礎設施技術實踐的全面總結,并被贊譽對當前國內外云計算基礎設施技術發展具有里程碑式的指導意義!它就是由阿里巴巴官方團隊編著、承載著云計算技術風云變幻的著作 ——

image

本書將詳細地闡述阿里巴巴在基礎設施上的實踐細節及先進技術,包括數據中心、網絡、服務器、計算硬件、存儲硬件,以及智能化運營與自動化運維等內容。

本書得到了阿里巴巴集團CTO兼阿里云智能事業群總裁張建鋒(行癲)、阿里巴巴集團副總裁基礎設施事業部負責人周明、中國信息通信研究院云計算與大數據研究所所長、開放數據中心委員會名譽主席何寶宏三位的親筆作序推薦。

※ 強大的作者團隊

本書由AIS (Alibaba Infrastructure Service )組織編寫,主要作者為高山淵,蔡德忠,趙曉雪,劉禮寅,劉水旺,陳義全,徐波。歷時三年,前后百余位技術專家參與寫作。( AIS是負責阿里巴巴集團所有基礎設施的研發、運營、維護等工作的部門)

※ 全面扎實的內容

本書不僅闡述數據中心、網絡、服務器、計算硬件、存儲硬件、智能化運營與自動化運維,而且梳理了基礎設施演進過程中的思路、得失、最佳實踐、未來路徑規劃。

※ 全彩印刷

閱讀體驗友好,圖表均經過精心配色設計和描繪。每一處知識點的寫作都經過了阿里巴巴云計算基礎設施技術專家們的推敲與斟酌。

image

※ 核心內容

  • TCO分析和建模
  • 數據中心能效
  • 數據中心的核心技術,包括供電、制冷等
  • 數據中心網絡架構和關鍵技術
  • 服務器技術:服務器的硬件組成、演進、挑戰等。
  • 計算硬件技術:通用計算、異構計算、總線互聯等。
  • 存儲硬件技術:內存、HDD、SSD
  • 及阿里巴巴自研存儲產品AliFlash等。
  • 基礎設施智能化運營與自動化運維
  • IDC、網絡、服務器的一體化

讀者評論

無意中朋友圈看到何萬青博士推薦《企業數字化基石:阿里巴巴云計算基礎設施實踐》這本書,隨手天貓下單,沒過2天就到貨了,但是因項目上事情多,一直沒有時間看。最近正好年末得空閱讀,給我的震撼非常打大,本人從事系統集成10來年,陸陸續續也讀很多關于基礎設施相關的書籍,可惜的是大多市面上的書籍技術深度和廣度都不夠。但是這本書涉及領域多,專業度強,從多個維度闡述如何構建高效、清潔、可靠、安全的企業數字化基石,對我來說是不可多得的好書。

—— 來自首批讀者留言

▲ 掃碼獲取本書詳情 ▲

讀者評論

相關專題

相關博文

  • Get不到AI的點?一定要看《程序員的AI書:從代碼開始》!

    Get不到AI的點?一定要看《程序員的AI書:從代碼開始》!

    陳曉猛 2020-03-30

    機器學習火起來也有幾年了, 當老姑大伯們漸漸把AI和程序員畫上等號時,我大腿一拍大事不妙!生怕疫情后的家庭聚會上,讓我表演才藝:做個什么狗陪他們下棋、做個什么精靈跟他們嘮嗑…… 程序員群體很廣的!我們也不是什么都懂,更何況我還...

    陳曉猛 2020-03-30
    176 0 0 1
  • 聊聊高并發之隔離術

    聊聊高并發之隔離術

    張開濤 2017-04-21

    隔離是指將系統或資源分割開,系統隔離是為了在系統發生故障時能限定傳播范圍和影響范圍,即發生故障后不會出現滾雪球效應,從而保證只有出問題的服務不可用,其他服務還是可用的;而資源隔離有臟數據隔離、通過隔離后減少資源競爭提升性能等。我遇到的比...

    張開濤 2017-04-21
    1417 0 0 0
  • 了解智能一體化

    了解智能一體化

    陳紹英 2017-04-21

    了解智能一體化測試平臺 智能一體化測試平臺是為支持智能一體化測試理論而開發的平臺,這個平臺主要面向后臺系統的服務/接口測試。借助這個平臺,開發測試人員進行服務/接口測試時可以將工作重心集中在測試案例設計與管理上,測試執行與分析主要交...

    陳紹英 2017-04-21
    383 0 0 0
国际官方棋牌下载中心 河北快三最新开奖号码 山西快乐十分奖金对照表 广东快乐10分投注 主升浪配资 河南11选5第27期 腾讯分分彩最新漏洞 江西十一选五走势图一定牛 中卫期货配资 云南快乐10分新版一共几期 电子游戏娱乐城