應用

技術

物聯網世界 >> 物聯網新聞 >> 物聯網熱點新聞
企業注冊個人注冊登錄

上云十年:阿里云的奇幻漂流

2019-11-14 09:51 腦極體

導讀:回到真實的商業故事中,很少有人會將阿里與“困境”這樣的字眼聯系在一起,尤其是在花團錦簇、全民狂歡的雙十一之后。

現代人的生活是不缺乏刺激的。我們總能在電影院或化身“沙發土豆”,作為旁觀者,與鳳凰社、夜魔俠、蜘蛛俠等諸多主角們經歷了一場場“安全的冒險”,體會他們掙脫束縛的破釜沉舟,欣賞他們踏上未知冒險的勇氣。

回到真實的商業故事中,很少有人會將阿里與“困境”這樣的字眼聯系在一起,尤其是在花團錦簇、全民狂歡的雙十一之后。

但少有人知道,這場剁手黨的“春晚”,卻是技術人眼中冰峰林立、人跡罕至的“珠穆朗瑪峰”。而阿里云的工程師們,剛剛經歷過一場大汗淋漓的搏斗。

01

極致雙11:阿里云的技術攀爬

11月11日0點,阿里云的數據顯示,雙11訂單創建峰值達到了54.4萬筆/秒。這個“數據海拔”有多恐怖呢?

面對這個全球最大規模的流量洪峰,就連在商海身經百戰的阿里巴巴CEO張勇,都有點“上頭”。

當天他坦誠道,自己心里最關心的,不是銷售數字,而是整個技術的峰值。“我們能夠每秒鐘支撐多少筆訂單的處理,既不發生錢的錯誤,又不發生錯誤的庫存,被錯誤地記錄,這個才能保證整個商業順暢運轉。”

而這些沉甸甸的指標,被百分之百地押注在了阿里云上。就在兩個月前,阿里巴巴將數以十萬計的物理服務器從線下數據中心遷移到了云端。

雙11核心系統全部云化,意味著什么?

意味著,當有客戶問起,“你們阿里巴巴自己的業務也跑在阿里云上嗎??”“沒錯,全部都在,包括雙11”——阿里云終于可以這樣回答了。

意味著在中國鮮少能搶到“首發權”的技術高嶺地帶,亞馬遜、微軟、谷歌等云計算巨頭都沒能實現的壯舉, “飛天”首次實現了!

而從100%依托海外廠商(數據系統),到100%的自研云,“飛天”這艘巨艦航行了整整十年。

它是如何在充滿危險與未知的商業大海中遠征,跨越一個個暗礁生存下去的,或許會是雙11之后,另一場人人都會極有代入感的大冒險。

02

使命召喚:少年阿里的“飛天”遠征

所有英雄電影的開頭,主角們總能憑借一個神秘的召喚,打開人生試煉的序幕。

而阿里的云計算遠征,開場并沒有那么多玄幻和浪漫。它源于一筆錙銖必較的經濟賬——彼時阿里巴巴的IT架構,淘寶和支付寶等核心業務都架設在大量IBM小型機、Oracle數據庫,以及EMC、戴爾存儲設備之上。

一臺“小機”要幾十萬到百萬人民幣,數據庫軟件費更高達數千萬,加上維護費和其他支出,普通人掰掰手指都能想到,阿里高速發展的背后,是駭然的算力成本。

有什么具體影響呢?大概也就是錢嘩嘩地花出去了,消費者的用戶體驗也沒能提升多少。

每天早上八九點鐘,阿里的CPU(中央處理器)的使用率會漲到98%。就像電腦內存占用過多一樣,用戶瀏覽、下單、付款等操作的流暢度總令人心驚膽戰。

阿里的流量還在以十倍二十倍的速度狂飆,就連IBM這些IT界的“金字招牌”,也從來沒有應對幾億人訪問規模的經驗。以后該怎么辦?阿里只能自我救贖。

2008年9月,王堅從微軟出走,來到了西湖。此后,他最廣為人知的身份之一,不是阿里首席架構師,而是“忽悠馬云的騙子”。因為,他篤定云計算是未來。

馬云并不懂技術,他沒聽懂王堅講的那些技術優勢,也不了解云計算背后到底是什么。但他聽懂了一點,不上云,光是繼續買服務器就足以讓阿里破產。而這,也將是此后數年間中國絕大多數企業要面對的共同難題。

既然別無選擇,憑著一句“使命召喚”,王堅帶著從微軟過來的幾個舊部,和林晨曦緊趕慢趕才招兵買馬的“水手們”,從零開始,邁出了云計算大冒險的第一步。

2008年10月,一艘載著中國云之夢的船只被定名為“飛天”,正式展開了風帆。

03

打開魔盒:“去IOE”,阿里云迎擊的第一只巨獸

我愿意以《少年派的奇幻漂流》,來看待“飛天”的起航。

李安導演以派(π)這個無理數當做少年的名字,預示著人生旅途中即將遭遇的一切未知。這與“飛天”團隊當時的境況何其相似。他們都遙望著大洋彼岸的美麗新世界,但航程中勢必充滿了可能被挑戰、被拒絕、以及充滿未知的要素與技術規律。

茫茫大海,掌舵人必須要規劃航線。2009年9月,“阿里云”以子公司的身份正式亮相,它接收了命運派送的第一個重大任務盒子,放出了“去IOE”這頭“巨獸”。

今天看來,這是個潘多拉魔盒,里面裝著麻煩與幸福的種子,同樣也有著希望和力量。

所謂的“去IOE”,就是采用自主研發和替代性方案來重構阿里的數據系統,以擺脫過去對IBM小型機、Oracle數據庫和EMC2存儲設備這“三大件”的依賴。

勝利的獎賞將非常豐厚,一方面能幫助阿里巴巴節約非常可觀的運營成本;同時有望成為幫助眾多中小企業降低技術應用門檻的“基礎設施”。

但“巨獸”的鎧甲也同樣堅硬。“去IOE”,不僅要將傳統的集中式系統架構全部改為云計算的分布式架構,還要確保業務跑在上面,性能和穩定性能夠超越IOE。

除了自研技術本身相對稚嫩之外,當時的“飛天”團隊,手里現成的武器只有兩把——一個是以開源軟件為基礎的數據計算系統“云梯1”,和以“飛天”為基礎、完全自研云計算系統的“云梯2”。

兩套系統都需要內部測試。林晨曦先找了淘寶技術團隊,拼命“賣安利”。負責人同意了,但底下的Oracle 工程師一聽就急眼了——這豈不是砸自家兄弟的飯碗嗎?!

差點引發人員動蕩的“內部試用”,最終在各方的講事實擺道理前得以順利開展。但拆掉了傳統的IOE,自研架構就真能頂上了嗎?

恐怕連王堅都不敢打包票。

“明明可以坐高鐵,卻偏偏要騎自行車去上海”——這是當時阿里內部工程師們對“飛天”的普遍看法。

被強行趕鴨子上架的,恰恰是最“趕時間”的阿里金融。馬云親自跟時任阿里金融的胡曉明下了任務書——必須將系統架構搭建在阿里云上。

穩定性要求極其嚴格的金融系統,如何與初生的“飛天”(Apsara)平臺融合,打造一個“去IOE樣板”?“牧羊犬”計劃就這樣誕生了。

中間有許多“打怪”的有趣細節,堪稱技術界的“吐槽大會”:比如問題層出不窮,系統總愛出錯,“分布式計算”也被調侃為“分步試計算”。又比如工程師必須24小時緊盯著系統,“人肉云計算”由此得名。

戲謔的背后,是阿里云的“至暗時刻”。不少集團員工質疑這個業績常年墊底的子公司為何還要繼續存在,許多“飛天”戰友也在長久的攻堅戰前倒下,出逃的出逃、轉崗的轉崗,2012年的阿里云“共創會”上,王堅甚至摔了話筒。

好在故事的結尾,以喜劇收場。

在一次較大的升級之后,“飛天”系統穩定得“不像是阿里云的作品”。2012年底,王堅將“飛天獎”頒給了阿里云的全體員工,頒獎詞是——堅持就是偉大。

這一堅持,就堅持到國內云市場爆發,阿里云成為數萬個網站、游戲和應用的承載者,“去IOE”這只歷史的大boss也最終倒下。2013年5月,阿里最后一臺小型機下線。7月,淘寶最后一個Oracle數據庫下線。

這場戰役中,“飛天”和阿里云奇跡似的活了下來。

04

由一入多:阿里巴巴的集體“登月”

剛推倒boss的興奮沒有持續多久,阿里云的探險家們又刷新出了一張刺激無比的“新地圖”。

2013年,正式完成“去IOE”運動的阿里云意氣風發。但記性好的同學一定還記得,前面我們提到的阿里云“兩板斧”——基于開源Hadoop的云梯1和基于飛天的云梯2(此時已經改叫ODPS)。

在墾荒階段,左右開弓是個不錯的選擇。不過3012年了,也是時候搞搞“精細化”運營了。不然兩邊分別投入,家大業大也經不起這么造啊。

選A還是選B,成為阿里技術的關鍵選擇。答案大家已經知道了,那就是——自主可控的飛天。

經過研發團隊數月的優化和開發,ODPS順利實現5K升級,也就是5000臺規模集群投入運營,這項技術究竟有多厲害呢?在當時,創造了計算100TB排序只需30分鐘的新世界紀錄。

與此同時,“云梯1”也逐漸向ODPS遷移。于是到了2013年底,更加強大的“飛天”和ODPS服務正式一統江山,并開啟了自己的新征程——登月計劃。

以“登月”來形容其難度,并不夸張。因為任務目標——用“飛天”系統打通阿里巴巴和小微金服的所有事業部,讓流淌在各個業務中的數據實現“大一統”,當時即便是Amazon和google都沒有在自家的業務集群中實現。

如果我們用真實世界中的方式來拆解這個項目,會發現它分為三個步驟:

首先,統一化數據平臺。“登月計劃”設計搜索、廣告、物流等多個數據源必須先實現系統化的統一;

其次,將其送上當時算力領域的“土星五號火箭”——ODPS。

最后,各個業務組件需要在極高的相對運動速度中,被無縫銜接,實現平穩著陸。

內部的遷移固然困難,但水滴石穿,最終完成了這個壯舉。到2014年的時候,阿里云不僅承載著阿里巴巴集團自身的諸多線上業務,還正式將ODPS開放,并進軍國際,與亞馬遜AWS在海外云計算市場狹路相逢。

要馴服這頭名為商業的“猛虎”,就需要新的秘密武器了。

05

以虎為鄰:布道者的AI試煉之路

如果要給2015-2017這三年想一個關鍵詞,答案可能是AI。而云,成為阿里向產業輸送智能的最佳管道。它的效力,在這三年間展現的淋漓盡致。

站在2015年的開端,當時已經躋身云計算前列的阿里云,面對一個兩難的選擇:一是“飛天”要俯下身去,擁抱廣大中小微企業用戶;二是阿里云要仰起頭來,與全球云計算巨頭一起沖擊天頂技術。

但如何擁抱?天頂在哪兒?

要知道,在服務公有云和私有云用戶的過程中,阿里云的數據規則和計算能力在持續優化。2015年1月,12306網站將春運高峰的75%余票查詢業務切換到了阿里云上;10月,阿里云又用不到7分鐘(377秒)的時間,完成了100TB的數據排序競賽。

阿里云“飛天”分布式計算系統的性能與可靠性,已經毋庸置疑。接下來去往哪里?AI,就在這時登場了。

2015年的時候, AI能做什么、會改變什么,產業端一臉蒙圈。直到2016年4月,阿里云在年會上展示了實時語音識別技術,并現場戰勝了世界速記大賽亞軍得主姜毅,這是阿里云人工智能ET的前身,也是阿里AI的起點。

2019年的云棲大會上,一張阿里云的技術圖譜震驚了現場的所有人。從AI芯片含光800,到“飛天”AI平臺,再到各種垂直智能應用模塊,軟硬件、云端芯,想要哪里點哪里。然而當我們將時間倒回到三年前,會發現當時的阿里AI是如此稚嫩,又震驚于它成長的如此快速。

2016年8月9日的云棲大會,阿里云只推出了一款AI——人工智能ET。它的技能也遠沒有現在豐富,模仿馬云說話、圖像識別、交通預測等,今天看來顯得有些原始,在當時卻迅速激活了產業對AI的價值想象。


原來除了無人車、阿爾法狗,AI還能幫助城市治堵、農場養豬、工廠升級?2016年9月,ET城市大腦落戶杭州蕭山,將道路車輛通行速度平均提升了3-5%,云服務的邊界迅速浦沿。

次年,阿里云ET更是勢不可擋,一口氣搞出了工業大腦、醫療大腦、環境大腦,將AI的觸角深入到了許多“重產業”。

阿里云拓展了AI的邊界,AI也改變著云服務的商業模式。非網絡客戶的信息化能力相對較弱,能否把各種算法打包成現成的模型和解決方案?軟件好用,硬件該怎么鋪,如何節省成本?小微商戶也想上云,更加微量級的按需購買能不能實現?

眾多新的問題襲來,專注“吃軟飯”的阿里云必須向更高的科技樹繼續攀爬了。那些等待點亮的技術名詞,有量子計算、芯片技術、嵌入式系統等等。

馴服商業與技術這兩頭猛虎的過程中,阿里云也逐步成為了阿里巴巴征戰智能時代的最大希望。

06

中場對決:勇者和神龍的“虛擬化”故事

故事講到這里,大家似乎可以發現,“阿里云”這位主角總能在危與機之間順利逃出生天,似乎并沒有遇到什么“極限挑戰”——這很不英雄。

放心,“絕境”可能會遲到,但絕不會缺席。鑄造了阿里巴巴集團商業神話的“雙十一”,也是阿里云的“絕望時刻”。

作為全球僅此一家有資格挑戰這種極限場景的平臺,雙11之于阿里云,就像少年派所途徑的島嶼,它是如此壯闊而美麗,各種奇幻的水下生物游來逛去,靜謐的大海與夜空的繁星交相輝映,派的小船如同停靠在一個美好的夢里。

不過,夢里可沒有宕機。

要把危機四伏的雙十一練兵場,變成自己的高光舞臺,而不是打臉現場,真的有點困難。

等等!前面說好的全集團業務上云呢,怎么還遺漏了個雙11,難道阿里“登月”也成歷史懸案了?!

沒錯,天貓和淘寶兩位“阿里印鈔機”,說不上就不上。

不怪它們太“作精”,盡管2016年的時候,阿里云的底層虛擬化技術,已經可以實現極端場景下10%的性能損耗。但對于電商業務,尤其是雙11來說,這依然是不可接受的。

10%意味著什么?就是雙11的20億預算,白白損失了2億,有這點錢捐給我(劃掉)給用戶發紅包不好嗎?

“能不能把虛擬化的損耗降到0?”——2016年雙11結束后,阿里巴巴CTO行癲在復盤會上一錘定音。

這意味著他們要解決至少三個問題:1.在虛擬層達到和物理機一樣的性能;2.滿足用戶靈活部署的需求;3.虛擬化的同時保證硬件隔離與安全。

同時具備物理機和虛擬機的雙重優勢,這可能嗎?2017年云棲大會上,阿里云突然就召喚出了“神龍”這頭“性能怪獸”。

“變態”如阿里云,終于從馴龍走向了造龍。他們為這條龍搭建了全新的骨架,采用裸金屬的虛擬化,設計了專用的芯片、主板以及MOC卡,調度性能更高的虛擬化中間層,再注入配套的整套軟件,“神龍”就這樣上天了。

“奶爸們”也毫不留情,讓這條剛出生兩個月的“奶龍”正面迎上了雙11的狂風暴雨。2017年,天貓雙11正式登上公有云,“神龍”完成了絕無僅有的一次巔峰壓力測試,實現了每秒32.5萬筆交易峰值,每秒25.6萬筆支付峰值。

養成之路就此開啟。為了讓損耗無限接近0,工程師們需要挑戰的是將原本虛擬化切分時所消耗的計算也塞進MOC卡里。得,又得繼續搞新硬件了。

所以到了2018年,神龍2.0有了更強大的虛擬化算力。單挑雙11不在話下,眼看“神龍”的日子剛剛過的有點滋潤,行癲又不樂意了。

2019年春節剛過,他給“奶爸們”下了新的任務——全集團不再購進一臺物理機,今年雙11,讓這條龍把全集團的算力撐起來。

龍生艱難,工程師們不得不對其進行了極致改造——神龍芯片IO加速,彈性計算平臺架構,軟硬一體化的安全防護,最終當第三代神龍與我們見面時,它已經接近于“龍生巔峰”——不僅損耗接近零,性能還比上一代提升了5倍。

不能下單、網絡崩潰、支付卡頓等情況,再也沒有出現在雙11現場,背后最大的支撐,就是來自技術的洪荒之力。

伴隨著“神龍”將雙11挑落馬下,至此毫不夸張的說,阿里云已經成為阿里巴巴集團名副其實的產業基柱。

07

十年阿里云:英雄歸來與再出發

英雄的歷險,至此,達到了一個短暫的尾聲。

阿里云這群“技術宅”,似乎非常青睞神話所傳達的浪漫情懷,從他們為飛天內部模塊的命名就能看出來:阿里云的操作系統叫“飛天”,存儲系統叫“盤古”,調度系統是“伏羲”,而網絡通訊則是追日“夸父”。

而我覺得他們更像是童話故事中遠方的少年,當他們拿到地下魔鬼城中的寶物、龍怪寶庫中的金子、巨人看守的金羊毛,未來還將走向新的探險。

十年,對于阿里云來說作為“成年禮”還有些早,但鍛造它的此間少年們已經經歷了各種考驗,征服了雙11的洪流(但謀殺了我們的錢包),以無名英雄的身份,現實歸來。

從一窮二白到核心系統100%上云,這一刻的到來,也意味著阿里云有能力去應對商業世界任何復雜的技術挑戰。

在觀看英雄電影時,我們總是青睞那些面對困境死磕到底的人設,虛幻的故事盡管生動,卻始終缺少代入感。但阿里云這群少年們的奇幻漂流卻不同,因為有上億人,都在跟他們一起冒險,并且快樂歸來。這背后的時代意蘊,是更具生命力的都市神話。



公式规律七尾