簡介:本文以雲原生為時代背景,介紹了阿里雲塊儲存快照服務如何基於高效能 ESSD 雲盤提升快照服務效能,提供輕量、實時的使用者體驗及揭秘背後的技術原理。依據行業發展及雲上資料保護場景,為企業使用者及備份廠商提供基於快照高階特性的資料保護的技術方案,滿足雲上使用者資料保護的迫切需求,保障雲上企業業務連續性。
2021年7月份,國際知名諮詢公司 Gartner 釋出了公有云的 IaaS(基礎設施即服務)和 PaaS(平臺即服務)平臺的“魔力象限(Magic Quadrant)”,阿里雲憑藉其領先的技術能力首次成為“遠景者”象限的公有云服務提供商,其中阿里雲塊儲存獲得單項得分第一的成績,阿里雲計算、儲存,網路及安全得分獲得全球第一。儲存領先業界的背後離不開高效能的 ESSD 雲盤產品為使用者提供高可用、高可靠、高效能的塊級隨機訪問服務及原生的快照資料保護能力。
原生業務新需求
隨著雲原生技術的發展,越來越多的企業基於雲計算的虛擬化、彈性擴充套件及蓬勃發展的雲原生技術的分散式框架,容器技術、編排系統、持續交付及快速迭代,構建起大規模、彈性擴充套件強、豐富的雲上分散式業務場景。企業應用的部署規模,儲存,計算等資源需求隨之成指數增長,導致傳統的資料保護方案無法滿足雲端新的技術變化。使用者面臨的市場競爭環境更加激烈,迫切需要適應業務規模及發展的雲端資料保護方案來滿足自身競爭力及業務的發展需要。雖然資料保護的業務背景及場景因雲計算及雲原生而發生變化,但使用者對資料保護的訴求沒有發生變化,衡量的標準依然是恢復時間點目標 RTO 及恢復點目標 RPO。
使用者追求的首要目標依然是業務連續性,即在業務面臨中斷威脅,迅速實現業務恢復;業務面臨增長壓力,迅速實現業務擴充套件。使用者根據業務場景對雲上的資料保護及快照服務提出瞭如下的迫切需求:
- 建立時間短:快照極速完成,關鍵業務即刻進行資料備份。
- 極速可用:快照極速可用,應對突發事件,完成雲盤迴滾恢復。
- 業務擴充套件:業務量突增需要業務擴容。
- 整機保護:單 ECS 例項及多 ECS 例項的關聯多盤的一致性資料保護。
- 測試驗證:生產環境以外即可進行資料測試驗證及恢復。
- 恢復速度快:檔案系統及應用資料處於應用一致性的備份狀態,避免應用宕機恢復過程。
- 容器備份:容器業務環境的快速迭代及釋出,迫切需要保護元資料及應用業務資料。
根據儲存網路工業協會 SNIA 對快照的定義:快照是指定資料集合的一個完全可用複製,該複製包括相應資料在某個時間點(複製開始的時間點)的映像。阿里雲塊儲存快照就是提供 ESSD 雲盤某一時刻的一致性資料映象。適應行業的發展趨勢,快照服務不斷髮現使用者的新需求及新場景,不懈地進行了新功能開發及迭代演進,極致升級最佳化 ESSD 雲盤快照的高階企業新特性:快照極速可用特性、應用一致性快照及適應分散式應用架構的一致性組快照及快照跨地域複製的異地災備功能。在不斷獨立輸出及被整合的發展過程中,滿足了雲上企業使用者的需求,服務大資料、遊戲,人工智慧、金融行業等領域,也得到了阿里雲其他團隊如:雲資料庫團隊 RDS、混合雲備份團隊、彈性容器例項 ECI、容器服務 ACK 等業務團隊及使用者的反饋:
- 雲資料庫團隊 RDS 行業使用者的評價是:RDS 的秒級備份產品對齊業界的資料庫備份產品,降低原有物理檔案備份對例項資源佔用,有效降低了資料保護風險。
- 彈性容器例項 ECI 容器加速收益客戶圖森的評價是:極速型快取加速功能加速了容器應用釋出,降低了模擬平臺的計算時間,將計算任務降低到平均 5 分鐘以內,產品釋出週期極大縮短。
- 按照混合雲備份客戶的說法,應用一致性整機備份能力完全對標 VMware 虛擬化平臺的快照功能。
- 快照服務提供的一致性組快照及應用一致性能力,完全滿足 2021 年 Gartner 對阿里雲塊儲存服務評測能力。容器業務 ACK 團隊透過 2021 年 Forrestor 容器備份評測能力
典型場景
輕量、實時的快照極速可用特性,一致性組快照及應用一致性快照的高階特性,為企業使用者及第三方備份廠商快速構建起:極速備份恢復、容災測試、副本利用及容災切換的副本資料管理(Copy Data Management)應用場景。Gartner 於 2021 年 7 月份釋出的關於儲存及資料保護的技術趨勢(Hype Cycle)分析中,將容器備份、雲資料備份及副本資料管理(CDM)列為未來幾年的資料保護的行業發展趨勢。Gartner 對副本資料的管理的基本定義為:基於應用一致性的主儲存快照在輔助儲存上生成“Golden Image”,並利用其進行備份,容災及測試,而且異構儲存作為能力的基本條件。阿里雲的 ESSD 的高階快照服務特性完全滿足構建 CDM 的條件,幫助使用者實現雲上副本資料管理的原生資料保護典型場景:
備份恢復:極速型備份及標準型備份相結合,提供近密遠疏的備份可恢復點。基於雲上的 ECS 例項的整機保護及 K8S 環境的容器應用,定期創建極速可用快照。在啟用一致性組快照特性及極速可用特性後,本地即時快照的生成間隔可以到秒級。快照即時副本本地保留,成為極速型備份,用於秒級 IO 效能無損恢復。週期性基於上層的企業應用生成整機應用一致性快照。本地快照副本同時透過網路上傳到物件儲存 OSS 上作為標準型備份。標準型備份在完成備份資料上傳後,本地域全可用區可見,適合保留時間長的歷史資料。
容災測試:基於極速型備份的容災測試。副本資料管理中要求對災備環境定期測試。定期的測試可以提高災備環境的可靠性,避免配置問題和環境變更問題使得真的災難發生時,容災切換無法正確完成,從而導致業務無法快速進行容災系統恢復。基於本地快照副本的極速克隆技術,災備例項及拉起容器應用,週期性進行掛載及備份資料測試驗證。傳統基於複製技術的方案,需要等待快照在災備端複製可用後才能進行測試演練。而採取極速型備份方式後,實現災備端的秒級克隆,秒級掛載及秒級啟動測試。
副本利用:基於極速型備份的資料分析。在不影響生產環境的情況下,災備環境下基於極速克隆技術,進行容器應用的定時拉起,對副本進行大資料計算及分析,挖掘資料價值。副本利用在實踐中也體現在 MySQL 資料庫應用基於極速型備份進行只讀備庫的即時拉起,進行離線資料分析。
容災切換:業務從生產環境切到災備環境。當生產發生較大災難時,短時間無法恢復業務,生產無法繼續,將業務從生成中心切換到災備中心;在生產中心業務恢復後,再將業務進行容災切回。
相比於傳統的副本資料管理 CDM 方案,雲計算環境及雲原生環境擁有大規模彈性的同構的計算環境,企業使用者不必進行裝置資源及軟體投入;極速型備份及極速型克隆技術極大地降低了副本開發、測試及容災切換的恢復時間點目標 RTO;雲上快照服務的統一的備份資料格式降低了各種管理流程中所需的副本數量,消除了備份軟體之間資料格式相容性問題。
技術原理
我們對分散式快照演算法和實現進行了大量最佳化,讓使用者可以拋開影響效能的顧慮,隨時進行輕量、實時的資料保護。“輕”: 在快照建立期間不影響 IO 讀寫效能。“快”:ESSD 雲盤快照可以在秒級建立、秒級回滾和秒級克隆-極速可用特性,滿足使用者實時資料保護和 DevOps 快速編排上的需要。
極速可用特性
具有極速可用特性的快照服務,不僅能夠進行資料備份、合規場景及長期歸檔業務,而且雲盤資料可以一鍵備份到阿里雲的物件儲存服務(Object Storage Service)上,與秒級間隔的本地快照副本保留形成近密遠疏的快照保護策略,實現快照輕量建立,實時可用的極速克隆,秒級無損回滾的高階特性。
極速克隆:在隔離於生產的跨可用區的容災環境,快照克隆新盤實現可寫快照,應用測試驗證及業務恢復準備;消除雲上業務壓力,實現業務橫向擴容。比如 MySQL 資料庫應用的橫向擴容、備庫搭建,例項建立及讀寫分離的都需要秒級拉起,極速克隆透過延遲載入技術實現本地快照副本的本地域內及跨叢集的秒級資料可用,迅速克隆新盤,實現例項秒級拉起。
秒級回滾:本地快照副本資料與雲盤本地儲存,實現秒級 IO 無損回滾恢復。快照生成過程基於改進型的 ROW 技術及全息索引技術,隨著寫入 ESSD 的雲盤資料塊變化,依據 ESSD 雲盤 IO 效能讀取的最佳模式進行雲盤讀取效能的最佳化。無需從遠端物件儲存上拉取資料,達到秒級回滾 IO 效能無損。
在雲盤建立多個極速可用快照後及發起回滾後的測試條件下,雲盤效能讀取效能基本無變化。某友商的雲盤在保留多個本地快照後,IO 讀取效能出現不同程度的延遲抖動。
一致性組快照
容器環境及 ECS 例項需要保護關聯多盤的有狀態應用。單盤快照的最大問題是:有狀態應用基於跨多雲盤LVM、Windows 動態盤及檔案系統作為持久化儲存,單雲盤快照資料備份錯誤;資料庫應用既兼顧效能又兼顧資料安全性,將日誌檔案 WAL 與資料檔案分別位於不用的儲存裝置,無法定期進行系統整機備份及容災。
除了 K8S下的 POD 內有狀態應用的部署及單 ECS 例項部署方式外,雲環境下還存在著分散式應用的部署架構、應用高可用叢集如:Windows Failover Cluster、主備應用伺服器高可用架構、Oracle RAC 基於共享儲存的應用架構,而這些分散式架構同樣需要跨雲盤及跨節點的資料一致性保護要求。
雲計算儲存後端往往採用分散式儲存架構。在分散式環境下缺少全域性邏輯時鐘,這就使得實現單 ECS 例項及跨 ECS 例項,K8S 環境下的單 POD 及跨節點的多雲盤的一致性組快照不是件容易的事情。要實現快照對 IO 效能影響最低更是富有技術挑戰性的。業界針對多盤崩潰一致性快照的實現技術主要分為兩大類:
- 採取快照期間阻塞寫 IO 的方式,實現基於時間點的跨多盤資料崩潰一致性
- 採取邏輯時鐘的定序演算法,但依賴於分散式儲存實現,實現難度較高。
一致性組快照採取第二種方式,追求快照對 IO 效能無損,實現快照對應用效能影響到最小
實現原理:採取基於 IO 定序演算法,快照建立無需寫 IO 阻塞。很多使用者擔心建立快照影響 IO 效能,只在業務低谷期才進行快照資料保護。我們最佳化提升的多盤一致性組快照演算法打破了人們對快照 IO 影響印象,基於寫順序保序機制,主動按照寫 IO 到達底層儲存的順序,採取 IO 打標及定序過程。基於快照完成時刻點及 IO 定序來確定快照中應該包含的 IO 資料集合。由於快照定序過程相對於傳統的方式,不會阻止 IO 寫入過程;相比於傳統的寫時複製 COW 方式,快照生成過程採取寫時重定向 ROW 的寫入方式,後臺資料集合引用生成過程對 IO 鏈路無影響,降低快照對 IO 效能的影響最小,對資料庫業務的讀寫場景實現了 IO 效能無損。
對資料庫應用使用 2 塊盤, 2 個客戶端,容量為 4TB,隨機寫,iodepth=16,jobs=1, 寫入塊大小 16KB 的測試資料庫高 IOPS 場景中,快照建立過程中對 IO 影響測試,友商1及友商2的快照建立過程中對 IO 的效能影響幾乎增加了 1 到 3 倍。
應用一致性快照
ESSD 雲盤快照資料的一致性型別主要分為崩潰一致性和應用一致性。崩潰一致性要求檔案系統及應用程式具有宕機恢復能力,其特點是恢復點目標 RPO 低,業務影響小。但在以下場景無法滿足資料備份可靠性高及秒級恢復時間點目標 RTO:
- 原子性缺陷風險:檔案系統及資料庫應用實現事務原子性的實現具有一定的難度,可能存在缺陷。系統頂級會議 USENIX 上發表的《All File Systems Are Not Created Equal》一文闡釋了應用程式及核心保證原子性可能存在實現缺陷。
- 資料丟失風險:主流檔案系統預設以效能優先方式工作,崩潰一致性備份存在資料丟失風險。 Linux 上 ext4 檔案系統預設資料寫入模式為 ordered 模式,檔案系統校驗修復過程存在資料丟失風險;資料庫應用配置為效能優先,業務資料有丟失風險。
- 生成時間長及影響大:傳統檔案級物理備份方式及備份代理方式依賴於邏輯卷快照的生成,耗時長及系統影響大。備份代理需要安裝核心驅動,相容性差及維護成本高;檔案備份過程需要讀取資料,耗費系統 CPU 及 IO 資源。應用一致性快照僅在生成一致性時間點與應用互通,無增量資料生成及備份讀寫操作。
實現原理:與傳統備份方式相比,應用一致性快照對使用者的價值在於提供雲原生的無代理應用一致性快照,簡化了客戶使用傳統備份方式所產生的:資源消耗,釋出複雜性、軟體相容性,核心開發,軟體維護的成本。採取跨平臺外掛與專有一致性元件相結合的方式,基於檔案系統核心及 Windows 上的 VSS 機制實現快照期間 IO 及應用事務的資料靜默,達到企業應用程式在儲存快照中的資料一致性要求。所採取的生成協議基於影響時長自動恢復 IO 影響,快照一致性型別取決於建立協議提交結果及應用狀態,最佳化從上層應用到底層儲存的鏈路長度及一致性元件效能,將 IO 影響時長降低到秒級。建立頻率間隔可根據業務要求做到檔案系統一致性秒級完成建立及分鐘級應用一致性快照間隔。
從崩潰一致性到應用一致性,從單盤一致性快照到多雲盤組快照的一致性,ESSD 快照的一致性分類實現完全對標業界塊儲存公有云全型別的快照一致性分類。從安全風險及應用支援可擴充套件性上與友商實現對比,實現的原生無代理快照的優勢:無常駐服務,無公網 IP 地址及埠開放風險,角色安全授權,無額外核心驅動參與;支援動態發現邏輯卷及企業應用。基於 ESSD 雲盤儲存快照,無代理備份,無需維護核心驅動,虛擬機器內部無資料讀取搬運。
透過實際對國內外主要雲廠商的快照建立時長及 IO 影響時長測試,基於 ESSD 系統盤及資料盤的 SQL Server 資料庫應用能夠實現秒級寫 IO 阻塞及分鐘級快照間隔,應用一致性快照的建立時長比友商降低了 2 到 3 倍。應用一致性的整機恢復,避免崩潰一致性快照恢復時日誌重放過程,從而提高了資料庫應用的啟動速度。
業界功能對比
與業界公有云其它友商的快照特性橫向對比,ESSD 雲盤是目前唯一個全面支援快照極速可用特性及一致性組快照的雲廠商,滿足企業核心應用上雲的資料保護場景對快照 RTO 及 RPO 的要求。
未來展望
資料保護不是亡羊補牢而應未雨綢繆。隨著雲原生技術的蓬勃發展,特別是容器技術的演進,企業使用者對雲上保護的恢復點目標 RPO 及恢復時間點目標 RTO 的要求越來越高。後續,我們也將基於 ESSD 雲盤推出更多新功能,比如:高密快照、連續資料保護,基於多 ECS 例項的應用一致性保護能力,繼續為使用者提供快照特性的“輕”、“快”及“彈”的特性品質,降低企業資料保護的 RTO 及 RPO,提供更多原生快照服務高階特性,助力企業資料保護。
作者:阿里雲端儲存 凡鈞
原文連結:http://click.aliyun.com/m/1000303900/
本文為阿里雲原創內容,未經允許不得轉載。