本文是“2021 InfoQ 年度技術盤點與展望”系列文章之一,由 InfoQ 編輯部製作呈現,重點聚焦作業系統在 2021 年的重要進展、動態,希望能幫助你準確把握 2021 年作業系統的核心發展脈絡,在行業內始終保持足夠的技術敏銳度。
“InfoQ 年度技術盤點與展望”是 InfoQ 全年最重要的內容選題之一,將涵蓋架構、AI、大資料、大前端、雲計算、資料庫、中介軟體、作業系統、開源、程式語言十大領域,後續將聚合延展成專題、迷你書、直播周、合集頁面,在 InfoQ 媒體矩陣陸續放出,歡迎大家持續關注。
特此感謝方勇、黃東旭、李海翔、羅榮龍、楊傳輝(花名日照)(按姓名首字母排序)對本文的貢獻,他們的真知灼見,是本文能與大家見面的關鍵。
2021 年以來,企業數字化轉型進入深水區,行業數字化場景爆發式增長,資料以指數級數量增長。就在去年,我國也明確了資料在市場化配置過程中成為了繼土地、勞動力、技術、資本之後的第五大生產要素,資料在社會發展程序中的重要性不言而喻。
承擔資料儲存與計算的資料庫與作業系統、中介軟體並列為三大基礎軟體,資料庫的種類非常多,常見的有從資料模型上對其進行劃分的,包括關係型資料庫、文件型資料庫、圖模型資料庫,以及綜合了多種模型的多模資料庫等;再有從架構角度區分的,有單機型資料庫、主備資料庫、分散式資料庫等;還有從應用型別的角度區分的,如 OLTP、OLAP 等;以及從技術特徵區分的,帶有時代特性,如 NoSQL、NewSQL 等。所以嚴格來講,資料庫沒有固定的劃分標準。
那麼,整體來看,資料庫領域 2021 年發生了哪些值得關注的大事件?業內資深大咖們又觀察到了哪些技術趨勢?
2021 年資料庫領域重大事件回顧
2 月 24 日,華為雲正式釋出雲資料庫 GaussDB(for openGauss)全網商用。GaussDB(for openGauss)是華為基於 openGauss 自研生態推出的企業級分散式資料庫,能為企業提供高可用、功能完備、效能卓越、開放生態、極致彈性的企業級資料庫服務。
2021 年 3 月 19 日,中央政府採購網釋出《中央國家機關 2021 年資料庫軟體協議供貨採購專案成交公告》,21 家資料庫廠商入圍,其中除了甲骨文的 Oracle 和微軟的 SQL Server,其餘全部為國產資料庫,份額達到 90%。
3 月 12 日,新華社受權全文播發《中華人民共和國國民經濟和社會發展第十四個五年規劃和 2035 年遠景目標綱要》。其中值得關注的是,“開源”首次被明確列入國民經濟和社會發展五年規劃綱要。
4 月 25 日,PingCAP 正式釋出面向企業級核心場景的 TiDB 5.0 版本。TiDB 5.0 在效能、穩定性、易用性等方面均取得了巨大進步,並在事務處理、高可用與容災、安全合規等方面新增多項企業級特性,透過引入 MPP (Massively Parallel Processing,即大規模並行處理)架構成為具備完整 HTAP 能力的分散式資料庫,為企業數字化轉型提供一棧式資料服務平臺。
5 月 11 日,浪潮釋出開源國產資料庫 ZNBase 2021 發展規劃。ZNBase 是浪潮開源的一款 NewSQL 分散式資料庫,具備強一致、高可用分散式架構、分散式水平擴充套件、高效能、企業級安全等特性,支援完整 ACID,支援 PostgreSQL 協議訪問,同時提供自動化運維、監控告警等配套服務。可為使用者提供完整的分散式資料庫解決方案。
5 月 18 日,騰訊雲釋出首款全自研分散式分析型資料庫 TDSQL-A,以應對海量資料實時分析需求。這是騰訊雲資料庫在品牌升級後的首次新品釋出。TDSQL-A 是騰訊首款全自研的分散式分析型資料庫,支援行列混合儲存,適應於海量 OLAP 關聯分析查詢場景,全面相容 PostgreSQL 語法、高度相容 Oracle 語法。
6 月 1 日,螞蟻集團自研資料庫 OceanBase 宣佈開源,開放近 300 萬行原始碼,採用木蘭協議,程式碼託管主站在 Gitee,映象在 GitHub,同時成立 OceanBase 開源社群,社群官網同步上線。最新的 OceanBase 3.0 版本,讓 OceanBase 同時具備了在事務處理和資料分析兩類任務的高效能能力,升級為一款支援 HTAP 混合負載的企業級分散式資料庫。和過去相比,事務處理效能提升 50%,資料分析效能提升 10 倍。
6 月 10 日,《中華人民共和國資料安全法》(簡稱《資料安全法》)經十三屆全國人大常委會第二十九次會議表決透過,並將於 2021 年 9 月 1 日起正式施行。《資料安全法》出臺,標誌著我國將資料安全保護的政策要求,透過法律文字的形式進行了明確和強化,為資料作為新的生產要素推動創新和經濟發展提供了法律依據,將為下一階段數字經濟的安全發展保駕護航。
6 月 20 日,全球公認三大資料庫頂尖會議之首的 SIGMOD 在西安舉辦,這也是時隔 14 年後 SIGMOD 大會再度迴歸(2007 年 SIGMOD 第一次在中國北京舉辦)。
7 月 8 日,阿里雲 RDS 資料庫進行品牌升級,推出雲原生企業級自治資料庫。
7 月 9 日,國家電網有限公司具有自主智慧財產權的電力行業圖資料庫產品“GridGraph”在 2021 世界人工智慧大會正式釋出。中國工程院院士倪光南表示:“在圖資料庫自主創新方面,我國從 2019 年起開始自主研製電力專用圖資料庫,實現了核心技術工具的技術創新和自主可控,有力支撐了‘電網一張圖’建設。
經過了近三個月的沉澱後,9 月 1 日,《資料安全法》正式落地實施。中國資訊通訊研究院聯合 30 餘家單位正式發起“資料安全推進計劃”(Data Security Initiative,以下簡稱“DSI”)。DSI 是一個公益性合作專案,將依託大資料協同安全技術國家工程實驗室、中國通訊標準化協會大資料技術標準推進委員會、中國網際網路協會資料治理工作委員會開展具體工作,致力於打造健康規範的資料安全生態體系,幫助企業瞭解監管要求,全方位提升企業資料安全能力。
9 月 17 日,TiDB 社群首批透過可信開源社群評估,獲評 OSCAR 尖峰開源專案及開源社群。會上中國信通院雲大所所長何寶宏釋出了由 PingCAP 和中國信通院聯合撰寫的業內首個《開源社群成熟度白皮書》。
10 月 20 日,阿里雲在 2021 雲棲大會現場宣佈正式開源雲原生分散式資料庫 PolarDB-X 的原始碼,將自研雲原生分散式核心技術分享出來,進一步推動雲原生分散式資料庫發展。
12 月 20 日,OceanBase 透過工信部電子標準院首批開源專案成熟度評估。
這一年,從業者看到的幾大現象
近兩年,作為基礎軟體之一,資料庫可以稱得上是最火熱的一個賽道,這背後根本的原因是因為大家認識到了資料的重要性。技術發展到如今,上層應用和底層基礎設施發生的了翻天覆地的變化,而這種變化一定會推動中間層——資料庫的變化,也就是說,光靠傳統的狹義的資料庫已經無法解決當下的新需求了,我們需要一些新內容注入到資料庫中。而這一年,關於資料庫的發展,從業者眼中看到了幾大現象。
資料庫產品工程化程度變高
多家產品走向金融行業,開始落地生產環境
2010 年起,隨著雲計算技術的快速興起,雲資料庫技術也順勢得到了迅猛發展,這給了國產資料庫廠商彎道超車的機會。多家產品走向金融行業,開始落地生產環境。在過去的一年裡,騰訊雲 TDSQL 落地在中國銀行和農業銀行等;OceanBase 在金融行業擁有多個標杆案例客戶如工商銀行、建設銀行、南京銀行、廣東農信、中華財險等,另外在運營商場景中也有落地,客戶數突破 400+;而華為 GaussDB(for openGauss),主打政企核心業務負載的金融級分散式資料庫,在效能、可用性、彈性方面全面提升,並且已經受金融業務全場景的嚴苛考驗;PingCAP TiDB 成功應用於浦發銀行、北京銀行、浙商銀行、中國人壽、平安科技、微眾銀行等多家金融企業的聯機交易、線上支付、信貸管理、實時風控等場景。
各型別資料庫走向“大一統”
隨著雲上技術和基礎設施的日臻成熟,資料庫領域迎來了的“大一統”。
資料庫的種類紛繁複雜,以前集中式資料庫和分散式之間有明顯的邊界,而近年來,這條邊界正在逐漸模糊,集中式資料庫和分散式資料庫在慢慢融合,兩者能夠在同一套架構裡互有補益,這是第一種融合。
其次,OLTP 資料庫跟 OLAP 資料庫也在融合,比如 OceanBase 底層是基於原生分散式架構,在解決資料量問題的同時,在一套系統裡又能做好交易、也能做好分析,這是 OLTP 和 OLAP 的融合;TiDB 今年釋出的 5.0 版本也提供了完整的 HTAP 混合負載處理能力,引入了 MPP 引擎,在實時性與一致性前提下實現 OLTP 和 OLAP 負載完全隔離,在中通快遞雙十一等讀寫雙高的極致場景下提供優異的效能和穩定性。
第三個融合,是傳統資料庫跟炙手可熱的大資料之間的融合。傳統資料庫更偏向結構化、事務化的資料的處理,大資料更偏向非結構化、非事務化的資料的處理。當前新型的資料庫,既能處理傳統資料庫擅長的事務型工作,又能適配大量的 SQL 語法相容當前的資料開發工作,甚至能進行非結構化、分散式計算的大資料型別工作,所以資料庫基本上是朝著一個融合的趨勢發展的。
其實資料庫的“大一統”是業內人士一直在嘗試去做的事情,只是彼時苦於雲上技術和基礎設施不夠成熟而無法實現。但是最近兩年,這些條件基本已經成熟了,所以 HTAP 才能變成了可能。
甩掉“落伍”資料庫的包袱
因此甩掉“落伍”的資料庫的包袱,對資料庫的發展來說是一個利好。
新型資料庫的迅速崛起,給傳統資料庫帶來了一定衝擊。以 Hadoop 為例,Apache Hadoop 作為一個完整的開源大資料套件,在過去的十多年裡深刻影響了整個計算機界,但隨著各類新興技術的發展,面對種種新需求時,Hadoop 已經明顯“力不從心”了。就在今年,13 個與大資料相關的 Apache 專案(包括 Sentry、Tajo 和 Falcon)宣佈取消,這就給了新技術庫騰出了更多的發展空間。
資料庫的發展必須要跟業務場景相結合,新的技術要有場景和人去使用才會有它的進步空間,如果老舊的資料庫架構一直佔用著有限的應用場景,那麼新技術的發展空間就會受到限制,因此甩掉“落伍”的資料庫的包袱,對資料庫的發展來說是一個利好。
資本進入,為資料庫添了一把火
資本的進入,為資料庫領域添了一把火。
資本都是逐利的,而在基礎軟體領域,資料庫無疑是最受資本青睞的一塊“大蛋糕”。2020 年 9 月,Snowflake 在紐約證券交易所上市,讓人震驚的是,上市首日股價大漲超 110%,估值翻了一番多,從 330 億美元增至 700 多億美元,並一舉成為了美國有史以來 IPO 規模最大的一家軟體公司。
Snowflake 在股市中的強勁表現背後釋放出了一種訊號:開源及數字基礎設施被資本盯上了!據《2021 年資料庫發展研究報告》顯示,從融資總量上看,我國資料庫產業投融資在近幾年呈井噴式爆發。從 2013 年開始,資料庫企業逐步吸引了資本的目光。
據不完全統計,2021 年各企業完成千萬級甚至上億級融資數量在 14 輪以上。對比我國資料庫初創企業成立時間分佈可以看出,眾多初創資料庫企業經過幾年的技術積累與市場運作,已逐步在資本市場嶄露頭角。資本的進入,為資料庫領域添了一把火。
2022 年資料庫未來展望
資料庫並不是一個新領域,它已經發展了 40 年,可作為基礎軟體之一,它是一個既傳統又古老的領域。回顧資料庫的發展歷史,1980 年到 1990 年屬於商業起步階段,此時 Oracle、IBM DB2、Sybase 以及 SQL Server 和 Informix 等開始出現。1990 年至 2000 年,開源資料庫開始展露頭角,出現了 PostgreSQL 和 MySQL 等。
在剛剛過去的 2021 年,隨著資本的強勢進入,各型別資料庫趨於融合,資料庫未來的發展趨勢也將會發生一些改變,主要概括為以下幾點:
開源將更加深入
就我國目前基礎軟體的現狀來看,尤其是資料庫領域,如果不做開源,基本上是不太有未來的。
最早的技術軟體,比如一些資料庫、儲存和商業軟體,其他都是不開源的,但是發展到一定階段以後,都要經歷開源的過程,資料庫領域也是如此,主要原因在於:
第一、就我國目前基礎軟體的現狀來看,尤其是資料庫領域,如果不做開源,基本上是不太有未來的。這背後的這個原因很簡單:對於使用者來說,對於資料庫這樣重要的基礎軟體來說,如果它是一個黑盒,那麼使用者很難對它產生信任;
第二、開源的資料庫更容易構建出屬於開源資料庫的生態。如果你是個閉源的資料庫,就會將很多想要尋求合作的夥伴拒之門外,而且資料庫如果最後要成熟、成功,它必須要依靠生態去推進,單純依靠一項技術或者一個軟體很難去構建出生態;
第三、現在的業務場景都是非常敏捷的,如果不是開源資料庫,沒有很好的開源社群來貢獻力量,那麼資料庫廠商的視角永遠是滯後的,因為只有搞業務的人才知道這個東西應該怎麼用以及應該往什麼方向發展。閉源的資料庫反饋鏈條會特別長,而業務變化又很快,所以它是跟不上時代進步的。
而隨著開源的日益深入,商業資料庫的市場也受到了一定的衝擊,有一些閉源的資料庫的廠商,就可能推出歷史舞臺。然而,這種衝擊也並非全是壞事,更多的資料庫廠商在看到了這種衝擊後,很快找到了一條可以平衡開源和商業化的道路。
其實開源資料庫離真正的商業需求還是有一定差距的,開源資料庫無法定製化地滿足一些客戶的特定需求和服務,這時候就需要開源資料庫的商業版來彌補這樣的不足,所以每一家雲廠商還是能夠在開源背後平衡好兩者之間的關係的,當越來越多的人去使用資料庫去解決它的業務問題時,將會創造更大的市場。
“雲 + 分散式”資料庫是大勢所趨
所有面向雲設計的資料庫一定是分散式的。
2021 年,資料庫領域可謂是百花齊放。而這其中,分散式資料庫的表現尤為亮眼,很多業內人士將這一年視為分散式資料庫的元年。
分散式資料庫由多個相互連線的資料庫組成,這些資料庫組合在一起形成一個面向使用者的單個數據庫。實際上它們分佈在各個資料中心,透過中央伺服器進行通訊。分散式資料庫具有高可擴充套件性、高併發性和高可用性的特點。
根據 Gartner 測算,全球分散式資料庫軟體市場規模持續走高,年複合增長率達 16.9%;而根據 IDC 的預測,中國的關型資料庫的市場則發展更加迅猛,年複合增長率接近 30% 左右,在這其中雲資料庫和分散式資料庫的增長貢獻非常大。
所有面向雲設計的資料庫一定是分散式的。Gartner 指出,雲計算將主導資料庫市場的未來,到 2022 年,75% 的資料庫將被部署或遷移至雲平臺,只有 25% 的資料庫會在本地執行。隨著企業業務更加數字化、智慧化,企業面臨的資料儲存量將會更加巨大,面臨著更多突發狀況帶來的挑戰,想要進一步降本增效並讓資料更好地進行決策,那麼就需要進入“雲 + 分散式”的時代。
DB-Engines 今年 12 月份資料庫排名顯示,傳統資料庫霸主 Oracle 依然穩居榜首,但據去年同期分數下跌 43.86;知名開源資料庫 MySQL 位列第二,分數較去年同期下跌 49.41,較上個月下跌 5.48;而位居榜三的微軟 SQL Server 分數較去年同期下跌 84.07,穩佔“同期跌幅榜冠軍”。
此外,從 DB-Engines 釋出的資料上還可以看出,開源資料庫 PostgreSQL、MongoDB 雖然排名不及 Oracle 和微軟 SQL Server,且短時間內與兩者有一定差距,但 PostgreSQL 的分數較去年同期上漲 60.64,穩穩拿下了“本月同期漲幅冠軍”。
在全社會都在積極進行數字化轉型的大背景下,傳統資料庫的很多技術如緩衝區管理、各種物件的建立等都受到了資源的限制,因此很難有更廣闊的發展空間,而云原生資料庫、開源資料庫等新一代資料庫正在加速崛起。
原創硬核技術將成為驅動企業成長的原動力
原創硬核技術的核心價值在於具有突破性,能帶來巨大的增量空間。
任何一項技術,沒有原創性、沒有壁壘,都不過是空中樓閣,資料庫產品也是如此。最近幾年,對於資料庫基礎理論的研究也更加深入,許多廠商開始重視基礎技術理論研究,這是一個好的開端。如 TDSQL 在事務處理的併發訪問控制層面,對最核心的資料異常問題能展開體系化的研究,提出資料異常並指明造成問題的本質,並對資料異常進行分類研究,指出資料異常和隔離級別等的關係等。這就是基礎理論的進步推動了具體技術的迭代。國產自研資料庫技術要想進步,就需要在基礎理論層面多做工作,基礎理論的突破,會帶來巨大的增量空間。
AI 和資料庫更加融合
AI 與資料庫是相互輔助的關係。
在過去的五十年中,資料庫(DB)和人工智慧(AI)技術都得到了廣泛的應用。資料庫系統已在金融、醫療等多個領域中得到使用,而人工智慧技術藉助演算法、資料集、硬體等方面的進步,近三十年取得了飛速發展。二者的交叉技術透過結合資料庫中系統設計、查詢最佳化、資料管理等方面的技術和人工智慧從歷史資料中學習的優勢,幫助解決各自的問題。
資料和人工智慧,像一枚硬幣的正反面,兩者是不分家的。作為承載資料的資料庫,它與人工智慧的關係也同樣十分緊密,人工智慧中間的一些過程,比如儲存、智慧推薦等都要用到資料庫,而人工智慧也需要為資料庫服務,比如當下很火的自治資料庫,能做一些智慧的搜尋、最佳化、運維等工作,背後也都是 AI 的力量在推動,在資料庫中融入 AI,會讓那些靠人工操作基本搞不定的工作變得更簡單,所以 AI for DB 是一條很新,但必須要走的路。
採訪嘉賓(按姓名首字母排序):
方勇,好大夫基礎架構部高階工程師
黃東旭,PingCAP 聯合創始人兼 CTO
李海翔,騰訊 TDSQL 分散式資料庫首席架構師
羅榮龍,中國電子科技集團子公司金信軟體股份有限公司 高階技術專家
楊傳輝(花名:日照),螞蟻 OceanBase CTO