sponsored links

重新理解“無容災不上雲”:應用多活將成為雲原生容災新趨勢

作者:Tina

網際網路技術發展到了 2021 年,上雲也更加普遍,但宕機事件卻似乎沒怎麼減少。

去年 10 月,擁有 30 億使用者的臉書 (Facebook) 遭遇大規模宕機,中斷服務約 7 小時後大部分服務才重新上線。據說,這是 Facebook 創辦以來最嚴重的一次網路訪問事故,導致臉書一夜之間市值蒸發約 473 億美元 (約合 3049 億元人民幣)。

而在更早些時候,國內某影片網站也因機房故障導致網站崩潰,大量使用者“流浪”到其他網站,巨大的流量洪峰又讓其他平臺也連鎖式癱瘓了。此外,擁有 15 萬家客戶的 Salesforce 在這一年也遭遇了一次長達 5 小時的全球性質的宕機事故,線上遊戲平臺 Roblox 還曾發生過長達 73 小時的宕機事故......網際網路技術發展到現在,理論上來說是可以做到“永不宕機”的,但為什麼還有這麼多規模大、時間長的系統故障發生?如何減少宕機事故的發生?InfoQ 採訪了阿里雲全域性高可用技術團隊,談談如何保證複雜系統中的業務可持續性。

從眾多宕機事件說開去

雲計算的蓬勃發展,催生了越來越多的“國民級應用”,但傳統的災備架構已很難滿足業務快速恢復的需要。

有統計資料表明,96% 的企業曾在過去三年中至少經歷過一次系統中斷。對於小型企業來說,一小時的宕機時間會造成平均 25,000 美元的損失。對於大型企業來說,平均成本可能高達 540,000 美元。

如今,停機時間越長,這意味著產生永久性損失的可能性越大。然而宕機事故又不可預測,因此它也被稱為系統中的“黑天鵝”。阿里雲全域性高可用技術團隊負責人周洋表示,當前大型網際網路系統架構日趨複雜,穩定性風險也在升高,系統中一定會有一些沒被發現的黑天鵝潛伏著。雖然預測不了“黑天鵝”什麼時候會出現,但是能從故障中去尋求一些分類,並有針對性地對一類問題進行防禦。比如現在的容災架構就是一種災難防禦手段,它主要針對的是機房級的故障場景。機房級的故障場景,從 IDC 的維度上看,主要有機房入口網路故障、機房間網路故障以及機房掉電。如果精細化到應用層,又可以分為接入閘道器故障、業務應用故障以及資料庫故障等,背後的故障原因可能是軟體 BUG 或者部分硬體故障,比如機櫃掉電、接入交換機故障等等。

容災架構的目標是,在單機房出現任何故障的情況下,能夠快速恢復業務,保障 RTO 和 RPO。RTO(恢復時間目標)是指使用者願意為從災難中恢復而花費的最長時間。一般來說,資料量越大,恢復所需的時間就越長。RPO(恢復點目標)是指在發生災難時使用者可以承受的最大資料丟失量。例如,如果使用者可以承受 1 天的資料丟失,RPO 就是 24 小時。

重新理解“無容災不上雲”:應用多活將成為雲原生容災新趨勢


RTO 和 RPO

針對不同種類的故障,災備行業有三種不同等級的防禦方式:資料級、應用級、業務級。

現在業內主流的容災架構還是災備容災,屬於資料級的容災方案。由於災備中心平時不工作,應用服務的完整性和執行狀態未知,在發生故障的關鍵時刻會面臨敢不敢切的問題。有些企業會因為無法確定能否承載流量而不敢切,有些決定切換的企業也可能因為備用機房的應用狀態不對而不能完全恢復業務,最終造成的影響就是 RTO 或者 RPO 較長,反應給外界就是大型“宕機”事件。

源自阿里實踐的 AppActive

2021 年,國內外多家知名公司、雲平臺出現較嚴重服務中斷、宕機事件,為企業敲響了警鐘,越來越多的企業把容災建設提上日程。在解決容災問題的同時,為保持對成本的控制、支撐未來的多雲架構演進和災難容災的確定性,許多企業選擇嘗試採用多活容災的方式。當災難發生時,多活容災可以實現分鐘級的業務流量切換,使用者甚至感受不到災難發生。

應用多活針對不同的部署場景有三大典型架構:在同城機房物理距離小於 100 公里的場景下建設同城應用多活,在異地機房物理距離大於 300 公里的場景下建設異地應用多活,在混合雲多雲融合的場景下建設混合雲應用多活。在多活模式下,資源不閒置不浪費,而且能夠突破單地域的機房容量限制,從而獲得跨地域的容量擴充套件性。多活容災在阿里內部實踐了多年。

早在 2007 年到 2010 年,阿里巴巴就採用同城多活架構支撐業務容量和可用性。到了 2013 年,由於機房容量有限以及杭州機房有限電風險,阿里巴巴開始探索異地多活的架構方案,那就是後來大家都知道的所謂“單元化”。單元化架構在 2014 年完成了試點驗證,2015 年正式在千里之外實現三地四中心,從而具備了生產級別的異地多活能力,2017 年完成了在雙 11 凌晨切流。2019 年,阿里巴巴系統全面上雲,異地多活架構跟隨上雲的節奏孵化成阿里云云原生產品 AHAS-MSHA,服務阿里巴巴和雲上客戶,先後幫助數字政府、物流、能源、通訊、網際網路等十餘家不同行業中的大型企業成功構建應用多活架構,包括菜鳥鄉村同城應用多活、聯通新客服異地應用多活、匯通達混合雲應用多活等。

在採訪阿里雲全域性高可用技術團隊時,大家普遍的感受是,“業內對於多活沒有統一的認知,並且重視度不夠。”首先,不同的人對於“多活”這個詞會有不同的定義,人人都說自己是“多活”,可當故障來臨的時候,才發現當前系統並不是真正的多活。其次,有些企業並不瞭解異地多活,有些瞭解的企業會認為異地多活的成本高、難落地。還有些企業在瞭解“多活”之後,下意識想要先在企業內部投入資源進行技術預研,抗拒雲廠商的商業化產品輸入。“多活”的認知偏差會讓使用者錯用或者不用,從而享受不到“多活”帶來的穩定性紅利。

在阿里雲全域性高可用技術團隊看來,應用多活將成為雲原生容災領域的趨勢,與其等待趨勢到來,不如透過開源來推動應用多活的發展。他們希望透過開源協同,形成一套應用多活的技術規範和標準,使得應用多活技術變得更易用、通用、穩定和可擴充套件。

2022 年 1 月 11 日,阿里雲將 AHAS-MSHA 程式碼正式開源,命名為 AppActive。這也是開源領域首次提出“應用多活”概念。

專案地址:https://github.com/alibaba/Appactive

重新理解“無容災不上雲”:應用多活將成為雲原生容災新趨勢

AppActive 的實現與未來規劃

阿里雲也曾在 2019 年開源了自己的混沌工程專案,旨在透過混沌工程幫助企業解決雲原生過程中的高可用問題。AppActive 更偏防禦,ChaosBlade 更偏攻擊,攻防結合,形成更加健全的落地安全生產機制。

ChaosBlade 專案地址:

https://github.com/chaosblade-io/chaosbladeAppActive

的設計目標是多站點生產系統同時對外提供服務。為了達到這一目標,技術實現上存在流量路由一致性、資料讀寫一致性、多活運維一致性等難點。為應對以上挑戰,阿里雲全域性高可用技術團隊做了各類技術棧的抽象以及介面標準定義。周洋介紹,他們將 AppActive 抽象為應用層、資料層和雲平臺 3 個部分:

  1. 應用層是業務流量鏈路的主路徑,包含接入閘道器、微服務和訊息元件,核心要解決的是全域性流量路由一致性問題,透過層層路由糾錯來保障流量路由的正確性。其中,接入閘道器,處於機房流量的入口,負責七層流量排程,透過識別流量中的業務屬性並根據一定流量規則進行路由糾錯。微服務和訊息元件,以同步或非同步呼叫的方式,透過路由糾錯、流量保護、故障隔離等能力,保障流量進入正確的機房進行邏輯處理和資料讀寫。
  2. 資料層核心要解決的是資料一致性問題,透過資料一致性保護、資料同步、資料來源切換能力來保障資料不髒寫以及具備資料容災恢復能力。
  3. 雲平臺是支撐業務應用執行的基石,由於用雲形態可能包含自建 IDC、多雲、混合雲、異構晶片雲等形態,雲平臺容災需要進行多雲整合和資料互通,在此基礎來搭建和具備雲平臺、雲服務 PaaS 層的容災恢復能力。

重新理解“無容災不上雲”:應用多活將成為雲原生容災新趨勢

應用多活應對的 6 大災難故障目前 AppActive 處於 v0.1 版本,開源內容包括上述應用層和資料層在資料平面上的所有標準介面定義,並基於 Nginx、Dubbo、MySQL 提供了基礎實現。開發者可基於當前的能力,進行應用多活的基本功能執行和驗證。短期內,AppActive 的規劃會對齊應用多活標準,提升 AppActive 的完整性,具體包括以下幾點:

  1. 豐富接入層、服務層、資料層外掛,支援更多技術元件到 AppActive 支援列表。
  2. 擴充應用多活的標準和實現,比如增加訊息應用多活的標準和實現。
  3. 建立 AppActive 控制平面,提升 AppActive 應用多活實現的完整性。
  4. 遵循應用多活 LRA 標準擴充套件支援同城多活形態。
  5. 遵循應用多活 HCA 標準擴充套件支援混合雲多活形態。

未來,阿里雲將不斷打磨 AppActive,努力使之成為應用多活標準下的最佳實踐,以達到規模化生產可用的嚴格要求;也會順應雲的發展趨勢,探索分散式雲,實現跨雲、跨平臺、跨地理位置的應用多活全場景覆蓋。

隨著“無容災不上雲”共識的逐漸達成,阿里雲希望幫助更多企業的應用系統構建應對災難故障的逃逸能力,也希望能跟 GitHub 社群裡的開發者共建應用多活容災標準。(正文完)

重新理解“無容災不上雲”:應用多活將成為雲原生容災新趨勢

分類: 科學
時間: 2022-02-15

相關文章

學術頭條:寮國發現和新冠病毒最接近的冠狀病毒,科學家研究出可充電的發光植物,火星生命的產生或受火星大小限制

學術頭條:寮國發現和新冠病毒最接近的冠狀病毒,科學家研究出可充電的發光植物,火星生命的產生或受火星大小限制
莫德納疫苗加強針的安全性和效力 隨著多種新冠病毒變異株的出現以及抗體對一些突變株的中和作用減弱,科學家開始關注疫苗加強針.為了評估新冠疫苗加強針的安全性和效力,研究人員讓打過2針莫德納mRNA-127 ...

新冠疫情和晶片對車市影響將逐步改善

新冠疫情和晶片對車市影響將逐步改善
根據乘聯會資料,2021年8月乘用車市場零售達到145萬輛,同比2020年8月下降15%,而且相較2019年8月下降7%,增速偏弱. 今年8月零售環比7月下降3%,與歷年的正常月度環比正增速6-10% ...

研究:鼻喉部微生物群或含可評估新冠感染者患病嚴重程度的生物標誌物

研究:鼻喉部微生物群或含可評估新冠感染者患病嚴重程度的生物標誌物
據外媒報道,研究人員稱,鼻子和上喉部的微生物群很可能含有可用於評估感染SARS-CoV-2的人可能會得多大的病並用於開發新治療策略以改善他們的結果的生物標誌物. 來自奧古斯塔大學喬治亞醫學院醫學系的老 ...

治新冠將有國產特效藥,“疫苗+特效藥”齊頭並進的防治策略將成可能

治新冠將有國產特效藥,“疫苗+特效藥”齊頭並進的防治策略將成可能
來源:生命時報 □全球健康與傳染病研究中心主任 張林琦 □復旦大學基礎醫學院病原生物學系副教授 陳捷亮 □中日友好醫院呼吸與危重醫學科主任 曹 彬 本報記者 李珍玉 最近,福建的新冠疫情持續讓人擔心, ...

首個新冠抗病毒口服藥有望獲批 昂貴的抗體藥走向何方?

首個新冠抗病毒口服藥有望獲批 昂貴的抗體藥走向何方?
製藥巨頭默沙東和Ridgeback Biotherapeutics公司合作開發的口服抗新冠病毒治療藥物莫諾匹拉韋(molnupiravir)三期臨床試驗資料週五公佈,顯示能將新冠早期患者的住院或死亡風 ...

尋找“零號病例”全球疫情時間線前移 新冠病毒多地多點起源證據更多顯現

尋找“零號病例”全球疫情時間線前移 新冠病毒多地多點起源證據更多顯現
2021年9月3日,2021中國國際貿易服務貿易交易會在北京舉行.首鋼園醫藥館國藥集團展臺的新冠病毒模型. 視覺中國供圖 繆毒株已蔓延到全球數十個國家.視覺中國供圖 尋找"零號病例" ...

中國生物新冠疫苗3-17歲人群臨床資料已出爐,耐受性良好且安全

中國生物新冠疫苗3-17歲人群臨床資料已出爐,耐受性良好且安全
目前,國內新冠疫情硝煙瀰漫,福建疫情至今仍然沒有得到緩解,從9月10日仙遊縣在"抽檢"中發現第一例感染者至今,短短几天確診病例就已破百,傳播鏈條超過4代,不僅在小學.鞋廠等人群密集 ...

法老科學家在寮國發現迄今為止和新冠病毒最接近的冠狀病毒,同樣具有感染人類細胞的潛力

法老科學家在寮國發現迄今為止和新冠病毒最接近的冠狀病毒,同樣具有感染人類細胞的潛力
北京時間9月18日,發表在預印本伺服器<Research Square>上的一篇最新研究中,來自法國巴斯德研究所和寮國大學的研究團隊在寮國北部石灰岩喀斯特的洞穴中發現的蝙蝠攜帶與SARS- ...

新冠治療現曙光?多款抗病毒口服藥進入臨床試驗

新冠治療現曙光?多款抗病毒口服藥進入臨床試驗
華輿訊 據美國中文網報道 全世界的科學家正在研發多種新冠特效藥,這些藥物在感染初期服用,能有效減輕新冠症狀. 據NBC新聞報道,研究人員正在測試"短期每日服用方案",初步研究顯示, ...

高福:新冠病毒的宿主擴充套件尚未結束,可被感染的已遠不僅是人類

高福:新冠病毒的宿主擴充套件尚未結束,可被感染的已遠不僅是人類
除了人類之外,越來越多動物被發現可感染新冠.其中,水貂被發現可將變異病毒再傳回人類. 近日,題為Perspectives: COVID-19 Expands Its Territories from ...

畢業於湖南大學,她45歲成牛津大學終身教授,如今當選英國院士!

畢業於湖南大學,她45歲成牛津大學終身教授,如今當選英國院士!
近日,英國社會科學院釋出今年新入選院士名單,湖南大學校友.牛津大學技術與管理發展研究中心主任傅曉嵐教授當選英國社會科學院院士. 社會科學院是由社會科學領域的學者.從業人員和學術團體組成的國家學術機構. ...

糖尿病等基礎病患者易得新冠 感染新冠易誘發糖尿病:新冠大流行中的另一場大流行病

糖尿病等基礎病患者易得新冠 感染新冠易誘發糖尿病:新冠大流行中的另一場大流行病
最近,斯坦福大學微生物學家彼得·傑克遜收到了一位新冠肺炎康復患者的郵件,對方表示自己"在感染新冠病毒前沒有糖尿病,但如今卻每天都在服用大量的糖尿病藥物." 傑克遜稱,近段時間以來, ...

新冠後遺症是什麼樣子?《柳葉刀》交出答案,給所有人提了個醒

新冠後遺症是什麼樣子?《柳葉刀》交出答案,給所有人提了個醒
全球仍處於新冠疫情高潮期,甚至個別國家疫情已經到達了難以控制的地步.據統計,全球疫情蔓延已經導致全球確診人數超過2.2億,2億人治癒出院,恢復正常生活.然而疫情形勢仍未穩定,各國仍需加強警惕.關於新冠 ...

高血壓增加感染新冠肺炎的風險,有高血壓,還能不能打新冠疫苗?

高血壓增加感染新冠肺炎的風險,有高血壓,還能不能打新冠疫苗?
高血壓是新冠肺炎患者最常見的合併症,但尚不清楚不受控制的高血壓是否是感染的危險因素. 我們所知道的是,血壓控制是減輕疾病負擔的關鍵,即使可能對新冠肺炎的易感性沒有影響.這是因為高血壓會使患心血管疾病. ...

美國兒童新冠確診病例激增 兒科醫生直言不知所措

美國兒童新冠確診病例激增 兒科醫生直言不知所措
近期,美國每週新增兒童新冠確診病例創疫情以來新高,部分地區的兒科重症監護室人滿為患,美國兒科醫生直言不知道該如何面對這種情況.與此同時,大量美國兒童正在缺少防護措施的狀態下返校上課. 根據美國兒科學會 ...

連花清瘟治療新冠肺炎的有效性在歐洲引發關注

連花清瘟治療新冠肺炎的有效性在歐洲引發關注
國內20餘家醫院共同參與的"中藥連花清瘟膠囊治療新型冠狀病毒肺炎前瞻性.隨機.對照.多中心臨床研究"結果發表於國際植物醫學領域有影響的雜誌<植物醫學>(<Phyt ...

廈大發現能抵禦新冠病毒變異株的廣譜中和抗體和精確靶點
來源:科技日報 經歷了大量的實驗探索後,廈門大學公共衛生學院夏寧邵教授團隊聯合深圳市第三人民醫院和加州大學洛杉磯分校研究團隊,找到了抵禦新冠病毒及其變異株的兩株廣譜中和抗體,揭示了它們誘導病毒刺突蛋白 ...

新模型可評估辦公室和學校新冠病毒傳染風險
版權歸原作者所有,如有侵權,請聯絡我們 圖片來源:英國劍橋大學官網 科技日報記者 劉霞 據英國劍橋大學官網近日報道,來自英國劍橋大學.帝國理工學院和利茲大學的科學家開發出一種預測新冠病毒在辦公室和學校 ...

約翰斯·霍普金斯大學:美國累計新冠死亡病例超過70萬例
新華社快訊:美國約翰斯·霍普金斯大學1日釋出的最新統計資料顯示,美國累計新冠死亡病例超過70萬例. 來源: 新華社

新冠疫情捲土重來,特效藥能成為下一道防線嗎?
新冠病毒的變異對藥物作用的影響 很可能會同疫苗一樣,很難有一個 治療方案能夠做到完全覆蓋 新冠疫情正在福建捲土重來,這再次給我們敲響了警鐘. 而就在幾天前,關於新冠特效藥的訊息接二連三,給應對疫情帶來 ...