2021年,分散式雲成為雲計算領域關注的熱點。經過一年時間的探索與沉澱,分散式雲開始從理論走向實踐,諸多雲計算頭部企業夯實分散式基礎設施建設、最佳化分散式資源排程、開發分散式應用,為構建分散式雲打下了堅實的基礎。
12月15日,以“引領分散式雲變革 助力灣區數字經濟”為主題的全球分散式雲大會在深圳隆重召開,本屆大會由全球分散式雲聯盟、深圳科技交流服務中心、深圳市通訊學會、眾視Tech聯合主辦。組委會攜手阿里雲、騰訊雲、Google Cloud、華為雲、螞蟻集團、浪潮雲、金山雲等海內外頂尖雲計算團隊和分散式雲先鋒企業,為粵港澳大灣區數字經濟發展注入分散式雲動力,更將中國分散式雲計算發展推上全新高度!
在16日上午舉辦的分散式資料論壇上,巨杉資料庫 首席架構師&研發副總裁 陳元熹發表了題為《資料湖 Data Lake釋放全量資料價值》的精彩演講。
為何需要資料湖
數字化轉型過程就是資料充分挖掘應用的過程,在這一程序中,為什麼需要資料湖呢?首先要從傳統資料分析模型的弊端說起,傳統資料分析中,資料是透過一條的模式,從核心資料庫下移到資料倉庫中,在資料倉庫中進行報表分析以及演示,這一過程當存在幾大侷限性。
第一,當資料下移之後,無法對資料進行有效的聯機快速訪問,通常由於資料倉庫的併發模型所控制。
第二,由於整個過程全部是結構化的單一型資料模型,流程當中無法處理非結構化資料以及半結構化資料。
第三,由於資料正規化模型轉換是非常長的開發週期,需要非常多的業界經驗和專家經驗,週期長、開發成本高。
新的資料生態對資料流程的要求,首先是業務向前推進。從傳統的T+1模型轉換為實時處理,這種流式的模型帶來了對傳統統計分析型業務模型轉換成向更前端進行前瞻性預測分析型的模型,能夠達到實時資料分析共享的業務需求,同時由於結構化資料逐漸向多模模型轉變,結構化、半結構化、非結構化的模型同時在業務中應用將成為越來越廣泛的需求。
資料湖能夠天然容納結構化、半結構化以及非結構化的資料;區別於傳統模型,資料湖是一種全量資料,而不是最終資料,所以能夠容納資料的原始模式以及各種資料型別。上述特性帶來的第一個好處就是保證性,業務層面講能夠掌握資料的來龍去脈,靈活使用原始資料,避免ETL過程中的失真,導致只能使用轉換之後的資料。這也是建立在資料建模的基礎上,而越來越多的業務需要原始資料做統一模型之外的資料探勘,包括機器學習。
資料湖模式可以實現高併發、高可用以及高拓展的能力,突破了傳統資料倉庫當中資料容量的限制,不光實現了傳統的資料倉庫的能力,還能提供資料集市以及再建分析的能力。
傳統的資料倉庫是一種無法理解的資料模型,沒有高階的長期的經驗是無法做到資料建模的,同時它還是一種架構後正規化化抽象過的資料,需要資料專家進行資料建模應用,且最大的弊端是形態單一。
資料湖提供了多模資料格式,保留了資料的真實性、原始性,方便各種從業人員進行靈活的、實時的資料分析。
資料湖中非結構化資料管理的一體化融合
傳統的模型中,業務引入多模的資料處理,通常是煙囪型,一套資料庫處理一套資料模型,有傳統的RDBMS處理結構化的資料,有大資料模型處理半結構化的資料,而非結構化的模型通常由NAS儲存或物件儲存處理。如此帶來的弊端是,各個業務模型、各條資料線都是獨立的、分散的,無法實現統一的資料使用以及統一的資料運維管理,無論對業務、應用開發人員還是運維人員,都帶來了極大的挑戰。
對於非結構化的資料,包括各類影音影片影象,是透過檔案或物件的模式引入到資料庫當中,巨杉資料庫是天然的多模資料庫,所以在資料入庫的過程中可以透過AI、機器學習以及科學計算的方式給各種資料打標籤,生成半結構化或者是結構化的標籤模型,整個過程非常靈活。這一過程中,得到就是非結構化資料,天生沒有任何的業務模型,需要不斷進行探索,所以標籤通常也不是結構化的標籤,更多地使用半結構化的方式來儲存標籤。由於業務變化,標籤也會一直處於變化中。這種半結構化的資料通常來源是移動業務、IoT,所以天然儲存在巨杉資料庫當中。
這種半結構化資料業務可以透過共性抽取來找到規律或格式,透過這種形式產生的可能就是結構化的資料。所以在整個流程當中以及原生的結構化資料透過聯機、透過直接的業務線下來的資料,直接接入SQL包。整個流程從非結構化到半結構化到結構化資料有機結合在一起,儲存在一套巨杉資料庫當中,同時資料進入後,產生的半結構化和結構化的資料和原生的半結構化資料或者非結構化資料是一體的,可以在一個事務當中進行處理。這是巨杉資料庫從業務的角度如何統一融合管理結構化、半結構化、非結構化的資料。
傳統的模型通常有集中的NAS儲存或者是物件儲存來存放非結構化資料,打出的標籤通常都是應用層面自行建立的標籤,不是天然原生,所以必須放在另外一套關係型資料庫當中,不管是標籤資料還是非結構化資料產生的資料,有可能存放在原資料庫中,也可以存放在多套不同的關係型資料庫中。如果要求不高,問題並不明顯,但是隨著業務線的引進,很多高要求的企業對這種機房的管理運營要求越來越高主備機房資料同步、兩地三中心場景中帶來很大的困擾;對於運維團隊,必須獨立對物件儲存、NAS儲存進行一套災備機制,同時要管理一套原資料關係型資料庫的災備機制,每一套資料都為運維團隊帶來壓力和挑戰。
巨杉資料庫透過多副本實現強一致性,保證高併發的物件寫入過程中,資料標籤、原資料是同時透過副本方式聯同它的物件一起進入主備中心,主備中心支援進行對外業務。
在實踐中,民生銀行基於巨杉資料庫實現了非結構化的資料管理,這一案例是在影像管理中透過同城以及異地容災來保證替換NAS儲存,使用巨杉資料庫統一管理非結構化資料以及結構化資料。目前已經接入的系統超過100套,影像總容量600TB,日增量超過300GB。
資料湖與資料倉庫的有機融合
金融業的業務種類繁多,不同業務系統當中可能用到主機Oracle。非常典型的場景就是在對外客的業務系統對事務非常具備敏感性,有強一致的要求,但由於各種業務線沒有打通,資料相對獨立,各個業務線都是煙囪型的模型。
對核心系統的資料分析過程中,資料可能流向大資料探勘平臺,也有可能流向數倉平臺進行統計報表分析。這套系統中,業務特性是事務不敏感,很多數倉產品甚至沒有事務支援能力,給使用者呈現就是失真之後抽取轉換的資料。這套系統從業務線角度來說,併發能力非常低,無法對客直接資料訪問。
隨著業務演進,給架構帶來了新的需求,傳統的T+1的方式不再適合業務,各條業務線都剔除了T+1的方式。增加對客和對公業務也提上了現有平臺上,即使是下移後的資料,也要對外實現高併發的訪問,因為資料層積帶來不了更多的價值。
首先,巨杉資料庫本身就是一種分散式資料庫,能夠天生提供高併發的訪問,儘管不及核心資料庫的強一致併發訪問,但也是毫秒級提供對客併發。
巨杉資料庫提供結構化和非結構化的資料融合一致管理,下移資料無論從哪條資料線進入都可以統一存放巨杉資料湖裡。
資料進入後,巨杉提供Hadoop,不需要把資料轉換之後再提供對外的分析能力,可以直接在資料庫實現分析型資料訪問。同時巨杉資料庫是支援多模型的資料庫,支援多種資料引擎,業務可以用不同的資料模型,例如以MySQL的模型訪問全量裸資料。另一個優勢,分散式資料庫模型天然可以實現邊界資料拓展,巨杉資料庫是計算儲存分離的模型,如果資料增長,可以單純對資料進行橫向擴張。
在某個股份制銀行中,巨杉資料庫單機群生產應用環境已經容納超過120個業務系統,單機群的物理機節點數在銀行裡面超過170臺,支撐資料量超過1.2萬億條。
在另一個全國規模的保險公司中,巨杉資料庫一個單叢集同時支撐6個省超過180條業務線,實現物理機超過200個,業務資料超1萬億條。
陳元熹總結說,巨杉資料庫的湖倉一體為業務帶來優勢主要有以下幾點:
1 實現高併發訪問,返貨資料;
2 從資產檢視角度打通各個業務線的資料,真正實現事務的共享、控制;
3 海量歷史資料,以前銀行查詢歷史資料只能看到3個月到半年的資料,基於巨杉資料庫海量儲存,可以支援看到5年甚至更久遠的歷史資料。資產和客戶成長體系基於業務線實現打通,給客戶帶來直觀的價值。
關於巨杉資料庫
巨杉資料庫從2011年開始投入分散式研發,至今已走入第十個年頭,整體服務金融銀行客戶超過100家,擁有單叢集萬億級的資料規模部署在實際生產運營中。
在生產業務中,巨杉也經歷了長達7年的實際生產業務考驗,研發團隊分佈在海內外各地,廣州南沙是研發總部,在北美有實驗室,在北京、上海、武漢、西安等地有分公司。
團隊建設主要分為兩塊,一塊是計算團隊,一塊是儲存團隊,計算團隊成員計算來自於前IBM、DB2的北美實驗室,儲存團隊來自於華為2012年實驗室的分散式儲存團隊。
巨杉資料庫的演變從最初的原生分散式架構核心開始,逐漸向多模資料湖的轉換,5年前開始實現湖倉一體的融合。
巨杉資料庫起步非常早,Databrick於去年正式成立的,早在2013年巨杉就實現了第一個商業版本釋出,巨杉的分散式協議甚至早於Raft協議。
生產和時間是檢驗產品的試金石,巨杉資料庫不斷在眾多客戶的幫助下打磨產品,單叢集達到300臺的規模,資料量超過1.2萬億。
巨杉資料庫的客戶集中在金融業,金融行業對資料庫的可靠性、實時性要求是最高的,巨杉選擇挑戰自己,選擇金融行業賽道,打磨單品,不斷在金融行業中持續穩定的執行,保證向其他行業不斷拓展。其中最長線上時間已經超過7年,超過50家銀行持續4年使用巨杉資料庫。
當能夠處理各種不同型別銀行、不同業務,想把產品推廣到其他事務中是相對容易的一件事,巨杉資料庫已經在國企、商企以等其他行業各類場景展開覆蓋,實現海量的聯機交易場景,資料中臺的場景,實時資料和內容管理型的業務。
巨杉資料庫作為各種會員單位積極參與進行行業標準的制定,進行智慧財產權的定義。在國產化的過程中,巨杉資料庫在廣州從2012年開始研發,過程中積極參與了各種對標以及全行業的評測、測試,得到國家認可;在信創過程中實現了上下游對標,獲得了軟硬體協同認證。
巨杉資料庫連續4年獲得了Gartner認可,進入Gartner魔力象限圖,與阿里雲一同成為中國僅有的兩家廠商能夠持續獲得Gartner象限認可的資料庫企業。
巨杉資料庫與產學研各界聯動,構建分散式資料庫實驗室,引入多所高校以及20多家銀行參與共建;積極培養分散式資料庫人才,目前在國內累積培養超過1萬名認證工程師。
演講最後,陳元熹表示,巨杉資料庫將持續深耕資料沃土,提升資料價值,巨杉資料有信心成為資料庫全球的領導者!