2021年,分散式雲成為雲計算領域關注的熱點。經過一年時間的探索與沉澱,分散式雲開始從理論走向實踐,諸多雲計算頭部企業夯實分散式基礎設施建設、最佳化分散式資源排程、開發分散式應用,為構建分散式雲打下了堅實的基礎。
12月15日,以“引領分散式雲變革 助力灣區數字經濟”為主題的全球分散式雲大會在深圳隆重召開,本屆大會由全球分散式雲聯盟、深圳科技交流服務中心、深圳市通訊學會、眾視Tech聯合主辦。組委會攜手阿里雲、騰訊雲、Google Cloud、華為雲、螞蟻集團、浪潮雲、金山雲等海內外頂尖雲計算團隊和分散式雲先鋒企業,為粵港澳大灣區數字經濟發展注入分散式雲動力,更將中國分散式雲計算發展推上全新高度!
在16日下午舉辦的分散式安全儲存論壇上,騰訊雲高階產品經理匡浩發表了題為《騰訊雲TStor OneCOS雲同源的私有化海量物件儲存》的精彩演講。
“十四五”軟體和資訊科技服務業發展規劃中間明確指出了軟體定義儲存是重點之一,引發了儲存行業的熱議。儲存作為規劃的重點,除了軟體定義之外,超大規模、安全和高容量也是非常重要的要素。軟體定義的目的是為了加快產業創新,應對於當前各種新型的工業網際網路、雲計算、大資料、人工智慧、自動駕駛等平臺,而新興平臺的核心是規超大規模佈局、前瞻性佈局。只有前瞻性佈局才能避免資料增長渠道瓶頸;而大規模意味著大容量,才能滿足大資料平臺的發展,滿足高效能業務的採集需要。匡浩總結說,分散式儲存將會變得更大容量,這些整個資訊行業會覆蓋包括不限於工業、通訊、金融、醫療、應急、農業、公安、交通、電力等行業。
經歷了長時間的發展,目前國內的軟體定義儲存軟體應用大致可以分為三類,基於開源架構或者就是開源架構,主要適合小規模的場景,有極高的價效比。這種價效比主要在私有云場景下,主要考量的是初始規模和軟體成本等。但這種架構存在一定的弊端,那就是一般只能支撐小於100個節點的單叢集,容量一般不超過1PB,超過後建議分叢集,否則叢集的穩定性和管理性都難以保證。
第二類,基於開源架構或其他分散式架構進行自研,在很大程度上提升了儲存軟體的能力。儲存的節點數可超過100,但還是很難超過1000,容量可以支撐到10PB或者幾十PB,但很難超過100PB。同樣由於進行深度自研,穩定性面臨更大挑戰,且成本相對更高。
第三類顯而易見,就是公有云架構,最初就是面向公有云設計,面向整體提供儲存服務,而不是提供基礎設施。為了給所有使用者提供儲存服務,所以它的設計非常大,容量可以達到EB級。部分非中心區域的容量規模相對小以一些,但也都達到上百PB的級別。雲上架構的缺點是並不適合直接搬到雲下,直接複用會面臨成本過高,無法支撐演進和成本的擴容等問題。所以需要一種介於自研架構與公有云架構之間的儲存架構覆蓋。匡浩認為這也是“十四五次規劃中所重點佈局的領域。這種儲存架構需要支撐非常廣泛的擴充套件性。從比較小的PB級到EB級的規模,節點數從幾十、上千甚至上萬,這樣才能保證未來儲存發展的需求得到滿足。
實現這種架構有兩種方式,一種是繼續提高自研架構的功能,另一種是把雲上架構往下搬,兩者都需要很大程度的最佳化,騰訊雲的TStor就是經由這兩種方向的思路誕生的。
騰訊雲TStor的產品體系
TStor定位於騰訊雲混合雲、私有云場景的雲端儲存。底層兩大平臺,一是CSP統一儲存平臺,向上提供分散式的塊儲存、分散式檔案儲存和分散式物件儲存,向上支援各類一體機,滿足統一儲存、高效能計算和網盤等一系列服務的快速部署需求。
另一大平臺就是Yotta海量儲存平臺。騰訊雲基於Yotta海量儲存平臺打造了私有儲存OneCOS。除了自身能力外,還基於騰訊雲其他水平方案能力整合和行業垂直方案整合優勢,為整個行業提供全流程的儲存解決方案。方案包括TCE專有云,TCS雲原生,以及CDC,此外還為工業雲、智慧學習、機器學習、醫療、IoT全流程提供解決方案。同時TStor還跟所有的行業生態整合,資料與其他雲產品無縫流動,共同打造儲存生態。
TStor OneCOS的特性
TStor OneCOS依託的是公有云架構Yotta海量,匡浩解釋說,Yotta是公制的最大單位,大概等於1億個億再乘上1個億。依託於公有云架構,TStor OneCOS可以支援超大規模和高容量,單叢集規模超級大,能高度自治,無感知擴容。基於公有云架構,經過了十多年的技術積累和使用檢驗,價效比毋容置疑。第三是穩定可靠,主要是私有云儲存的可靠性、永續性,效能有保證,專門針對海量小檔案進行索引和元資料的最佳化,叢集高度自治,滿足管理的靈活性。第四個特點是功能全面,私有云相對公有云,需要更全面的運維管理,這也是大廠商所需要重點補齊之處;TStor OneCOS依託於雲上的豐富的監控和管理,保證線下也能帶來同樣的運維體驗,同時支援混合雲能力,滿足容災備份。
TStor OneCOS的架構與通用的分散式軟體定義架構是一致的,從上到下大致分為接入管理層、業務邏輯層、儲存引擎層和運維管理。接入層是業務對接、頻控中心、許可權管理。邏輯層主要是為了支援統合物件的各種高階和基本能力,保證生命週期的管理,空間的回收、高速便利、複製上雲等等功能。底層引擎層是Yotta儲存和DB資料索引。運維管理覆蓋叢集、機器、硬碟、告警監控、日誌搜尋等。
TStor OneCOS支援大規模叢集的優勢
在硬體上採用大規模叢集,可以明顯降低部署成本,避免分叢集管理。而成本上從利用率來看,TStor OneCOS可以做到95%以上,避免不均衡帶來的空間浪費。多個叢集通常需要每套叢集有單獨的控制節點,而如果是大叢集一個叢集控制節點的數量大大降低,基本上在叢集量很大的時候,如EB級上千節點,控制節點的代價基本忽略不計。接入節點基本上是全部混局,不需要每套叢集佈局閘道器節點。運維上保證一套叢集無限擴容,按照通常的儲存要達到EB級會超過幾十個、甚至上百個叢集,帶來的管理非常複雜。其次是擴容縮容,可以支援持續單臺粒度的擴冗,無需拆叢集。效能方面,全節點分散式支撐上層業務,不需要其他叢集的負載均衡。而一旦分叢集,上層分佈不均就會導致資源浪費;上一層多叢集多個排程也會多增加一層排程導致增加時延。冗餘度方面,TStor OneCOS支援單一的任意副本和EC模式,永遠只有一個物理池,滿足所有的小檔案、大檔案以及低頻儲存型別。所有的節點屬於一個池,修復效率高,分散式規模越大修復就會越大,所有節點都會參與重構。故障防禦方面,單叢集可以防禦更高的故障,而小叢集則是不可能的。
TStor OneCOS的高度自治
TStor OneCOS的高度自治是向雲上對齊的,可以實現故障的感知、預判、避讓及自動處理,降低運維人力的管控;此外還有磁碟壓力的感知、避讓,資料的均衡、資料的巡檢,垃圾資料的識別和自動清理,過載保護、智慧限流。
以圖上為例可以看到,每個節點都有健康檢查,一旦檢查出來情況,就會進行狀態推送,傳送到叢集思考的大腦上,大腦經過分析處理之後就會下發計劃,比如資料均衡或是校驗修復,再執行到每個節點上。同時這些修復過程還會通知避讓到上層業務節點,保證一個業務的智慧規避,降低對業務的影響。
TStor OneCOS:功能全面
除了本身儲存的安全可靠之外,TStor OneCOS有很多齊全的功能,比如全面管理,包括雲上豐富的資源監控和精細的告警規則配置;私有化儲存的視覺化運維,這都是私有云所必不可少的功能。第二是混合雲能力,雲邊協同,與公有云介面相容,雲上雲下資料完全共享,實現混合雲資料生命週期管理。第三是容災備份,OneCOS支援跨區複製,滿足資料中心間的異地容災,高效率備份恢復;其次OneCOS的最大亮點是它支援原生的AZ,支援原生的資料多活,可以保證資料在所有資料中心的全域性跨區域冗餘,這樣可以更大降低資料冗餘的成本。
TStor OneCOS的應用場景
第一個是影片監控中的雲端儲存。近年來國內的影片監控每年都在高速增長,各級政府也在大力推進,包括常見的安平類專案。隨著專案慢慢擴大,影片監控容量越來越大,而且部分法律規定要求影片保留期限從30天延長至90天。我們從實際經驗看到,一個大型城市單園區的監控專案都至少需要10-20PB的可用容量,而安平類行業的雲端儲存規模更大,超過100PB,所以影片監控主要的特點需要更高的頻寬來支援更大路數的攝像頭。目前是成千上萬攝像頭對接到一個叢集上,儲存需要更高的吞吐才能滿足業務需要,同時為了保證攝像頭的密度規劃和不同子區域規劃,儲存需要快速擴容、按需擴容,同時儲存的影片需要進行自動刪除和一些資料性的保護,這些是影片監控場景的特點。
TStor OneCOS支撐影片監控產品非常遊刃有餘,基於雲上架構能力高吞吐可以實現上百GB的頻寬,單一資源池超過EB,不需要分池,整個儲存空間的利用率一致,不需要跨池的轉移和處理。另外依託於行業的的處理能力,TStor OneCOS能實現業務的高效能轉碼,滿足人工智慧的人臉驗證追蹤統計等。
第二類場景是自動駕駛中的大資料。汽車廠家自動駕駛場景和影片監控有類似的特點,同樣資料量很大,而且都是以影片監控為主。但自動駕駛中的影片監控會更大,某硬體廠商自動駕駛每年上傳的資料超過100TB,一年1EB只能支撐10輛車。因此,自動駕駛比影片監控的需求更加誇張,更加快速。TStor OneCOS基於雲上資料的能力最佳化,支撐大吞吐,自動按照檔案大小進行儲存策略來滿足效能要求。因為容量更大,所以成本更加敏感,大的EC在這一場景會變得更加重要,但EC在傳統實現中也會存在空間浪費,TStor OneCOS可以保證分片不對齊時也能保證節省空間,同時提高效能,在自動駕駛場景,不管是資料採集這種高頻寬要求,還是資料分析、機器學習這類快速場景,都能夠有效保障和支援。
匡浩說,大家都懷疑物件儲存能不能真正像檔案儲存那樣支援HDFS的解決,從行業來看肯定是可以的。騰訊雲推出的資料湖加速器GooseFS就是這樣一款加速器產品。GooseFS可以實現高效能、高可用、彈性的分散式快取方案,配合OneCOS作為資料湖中間的儲存底座,可以在資料湖生態中為計算提供統一的資料湖入口,加速這個海量資料的分析,機器學習、人工智慧等業務訪問儲存。
最後匡浩總結說,騰訊雲TStor OneCOS雲同源架構,專一物件儲存,超大規模,EB級容量,無限擴充套件,一套儲存永久適用,歡迎大家瞭解和使用這樣一款優秀的儲存產品。