作者 | 關濤
編輯 | 蔡芳芳
本文是“2021 InfoQ 年度技術盤點與展望”系列文章之一,由 InfoQ 編輯部製作呈現,重點聚焦大資料領域在 2021 年的重要進展、動態,希望能幫助你準確把握 2021 年大資料領域的核心發展脈絡,在行業內始終保持足夠的技術敏銳度。
“InfoQ 年度技術盤點與展望”是 InfoQ 全年最重要的內容選題之一,將涵蓋架構、AI、大資料、大前端、雲計算、資料庫、中介軟體、作業系統、開源、程式語言十大領域,後續將聚合延展成專題、迷你書、直播周、合集頁面,在 InfoQ 媒體矩陣陸續放出,歡迎大家持續關注。
2021 年,大資料領域發展到哪一階段?
2021 年是大資料發展的第 21 個年頭(從 Google 開始構建大資料平臺做搜尋業務算起)。針對一個技術領域的發展趨勢,參照 Gartner Hype Cycle 來描述會更加直觀。
(圖:Gartner Hype Cycle mode / Reference: Hype Cycle for Data Management 2021)
Gartner Hype Cycle 把整個發展週期分成 5 個部分,第一個部分叫做“技術的創新期”,在這個點上技術開始興起,可能只是一個純粹的小眾技術;然後是“技術的狂熱期”,每個人都在討論,很多企業會開始投資;經歷了第二個階段的發展之後,會進入到“技術的冷靜期”,大家開始審慎思考,也許這是很酷的技術,但是不是真的有產品和業務價值?很多技術其實在這個階段之後就衰敗了,因為大家可能覺得它並沒有太多的用處,或者很難形成進一步的突破。
而有一些技術會走過第三階段,真正開始進入到“技術的復興期”,開始有部分技術和產品得到業務認可,形成至少 5% 的 Adoption。這些技術最終會走到所謂的“技術的普惠期”,開始有足夠好的產品和業務發展。能走到這個階段的企業和技術,也從紅海競爭中存活下來了,他們開始得到更大的市場份額,並形成好的商業價值。
大資料技術體系 1.0 基本建成
最近這幾年,大家可以看得到很多因資料而生的創業公司逐步進入到 IPO 階段,並開始成為市場上的業務營收明星。從這個角度看,大資料平臺可以認為已經開始進入復興期和普惠期。
很多人會問,既然已經走到了第 4/5 階段,再往後是不是就意味著消亡了?其實並非如此。從圖中可以看到,資料領域中不同技術正處在不同階段,很多新興技術(例如湖倉一體、邊緣計算、區塊鏈賬本)開始自第一階段誕生,在繼續推動領域迭代發展,帶來蓬勃的生機。
從技術角度看,整個領域進入第 4/5 階段,意味著技術整體完成了 1.0 的建設。領域內幾乎每一個子領域都有相應的技術去匹配,很多領域可能有多個技術同時在發展,然後經過紅海競爭之後開始慢慢消亡或勝出。
大資料平臺領域技術整體完成 1.0 建設,就會開始向 2.0 的方向演進。這個演進過程通常是 1.0 的替代過程,因此要求 2.0 在技術上做到更好的技術分層和更強的專業化。
資料平臺賽道價值顯性化,帶來大量投資和創業機會
資料普惠化並不是一個新話題,但領域規模和增長情況究竟怎樣,一直未有明確的判斷(在 Snowflake 上市之前,主流商業資料平臺發展情況均被雲廠商隱藏在後臺)。一年前上市的 Snowflake,將資料平臺這個領域的商業價值第一次完整地暴露給公眾。其 10 億美金以上的營收規模、110% 的高增長率和 70% 的高毛利率(與 Tesla 對比,據最新財報,Tesla 的增長率和毛利率分別為 57% 和 30.5%),讓公眾和投資者第一次透過資料看到資料領域的價值和發展前景。這進而在接下來一年引爆了一輪圍繞資料平臺領域的投資和創業熱潮。
- 2021 年 6 月 25 日,Apache Kafka 商業化公司 Confluent 正式登陸納斯達克,首日開漲 25%,市值超過 110 億美元。
- 2021年 8 月 29 日,Apache Iceberg 的建立者 Ryan Blue、Dan Weeks 和 Netflix 資料架構總監 Jason Reid 宣佈從風投 a16z 處拿到了 A 輪融資,正式成立圍繞 Apache Iceberg 構建新型資料平臺的商業公司 Tabular。
- 2021 年 8 月 31 日,大資料初創公司 Databricks 宣佈獲得 16 億美元 H 輪融資,最新估值飆升至 380 億美元,距離上一輪 10 億美元的 G 輪融資僅僅過去 7 個月時間。
- 2021 年 9 月 20 日,ClickHouse 的建立者 Alexey 正式從 Yandex 獨立出來併成立了一個公司:ClickHouse, Inc。同時 ClickHouse 公司獲得由 Index Ventures 和 Benchmark 領投的 5000 萬美元 A 輪融資,Yandex 也參與其中。
- 2021 年 10 月 12 日,基於開源的 Apache Pulsar 的商業化公司 StreamNative 宣佈獲得 2300 萬美元 A 輪融資。
2021 年,Clickhouse、Tebula(Apache Iceberg 背後的商業公司)、Firebolt 以及國內諸多新興創業公司為這一領域帶來了很好的討論度。2022 年,也許會成為企業級大資料平臺 / 服務一個新興週期的“元年”。
客戶開始明確分層,帶來平臺架構的不同取捨
處於技術發展不同階段的客戶,對於技術的訴求通常不同,大資料平臺技術也不例外。隨著領域技術冷靜期到來,越來越多企業開始放棄自建平臺,轉而採購商業化雲產品 / 服務,以實現規模靈活和總成本低的目標。
筆者在之前多年的工作中,接觸 / 支援過很多不同型別的客戶,客戶大致可以分成如下三類:
1.頭部網際網路技術公司,以 Top30-50 一線網際網路公司為代表。技術棧上,以自建平臺為主,且大部分公司採用以開源為基礎的自建方式(其中少數 Top10 頭部廠商會投資 0 到 1 自研)。
2.中腰部技術公司,其中又可以細分為兩類:
- 中腰部網際網路公司,這型別公司大多數誕生於雲時代(近 8 年),通常處於成長期並聚焦自身業務發展,對基礎設施投資有限,同時追求更低的 TCO(包含硬體和人力的總成本),傾向直接採用公共雲平臺架構併購買 PaaS 服務。(注:這型別客戶是 SnowFlake 的典型客戶)。
- 有技術能力的非網際網路公司,以銀行 / 通訊等領域企業為主。因監管或者資管要求,通常採用專有云或者混合雲模式,企業具備資料開發人員,能夠在資料平臺上完成資料應用 / 解決方案的開發。這型別客戶通常負責關鍵業務,對平臺的企業級能力(包括穩定性、安全性、免運維能力)要求很高。
3.純甲方應用型客戶,以線下大型非技術型企業為主。這型別客戶通常沒有資料開發和應用建設的經驗和團隊,對資料類應用的需求多透過與合作伙伴(ISV)合作或者外包方式完成。對技術棧和技術選型通常不敏感,但對穩定性要求很高。
客戶的分層,必然會帶來平臺架構設計的不同取捨。
從技術架構角度看,第一代大資料技術(以 Hadoop 為基礎)基本做到“能用 / 可用”,完成了 0 到 1 的奠基。Snowflake 等新興產品,開始推動資料平臺從“能用 / 可用”向“高效 / 易用”進化(進而讓更多不太精通資料技術的人 / 企業能用上資料平臺)。
2021 年的很多趨勢已經預示,2022 年資料平臺技術領域註定火熱。
正值 2021 年末,應 InfoQ 編輯邀約,筆者嘗試結合自身經歷和經驗,總結 2021 的技術熱點、領域趨勢和麵臨的挑戰。下文部分內容來源於筆者 2021 年 11 月在 ArchSummit 全球架構師峰會(深圳站)2021 主論壇的演講。
大資料領域仍然處於發展期,部分技術收斂,但新方向和新技術層出不窮。本文內容和個人經歷相關,洞察來自個人視角,難免有缺失或者偏頗,同時限於篇幅,也很難面面俱到。僅作拋磚引玉,希望和同業共同探討。
當下技術架構的五個熱點
引擎架構的進化,向進一步解耦和池化發展
整個大資料領域裡有非常多不同的引擎設計。整個引擎的架構,可以分成三種體系:Shared-Nothing(MPP)、Shared-Data、Shared-Everything。目前架構整體在向更解耦和靈活的 Shared-Everything 架構演進。
第一種 Shared-Nothing 架構,是從傳統資料庫做分散式演化而來,也叫做 MPP 模式。它的優點在於儲存計算一體化之後帶來很好的效能最佳化。但因其資料和計算的繫結,會帶來擴充套件性和彈性問題,整體在轉向 Shared-Data 架構。
第二種 Shared-Data 架構是 MPP 架構的演進,透過計算與儲存系統解耦(即儲存計算分離),儲存完全做成一個獨立的池化形態,不僅做到了儲存器的分離,還做到儲存的共享。它解決了 MPP 架構耦合導致的擴充套件性問題,因而得到廣泛歡迎,Snowflake 是其中的代表。
第三種架構叫做 Shared-Everything,這類架構是隨著大資料技術興起的。不僅僅是儲存共享,所有的資源都統一共享。透過進一步解耦帶來更好的擴充套件性、靈活性和資源利用效率。Hadoop/Spark、Google BigQuery、阿里雲 MaxCompute 等系統都採用了這種架構。
面向未來,我們可能會看到獨立的分散式記憶體池(Disaggregated Memory Pool)、分散式 Cache 池等等。
面向雲原生、雲中立的系統架構設計
(圖:CloudNative Applications,來源:https://www.vamsitalkstech.com/architecture/the-seven-characteristics-of-cloud-native-architectures/)
第一點中談到的資源解耦和儲存計算分離其實離不開雲技術,因為雲技術實現了更好的規模化、彈性擴充套件性,並以及集約化帶來了更低的成本,所以它會全面替代 IDC。因此現在幾乎所有資料平臺的設計已經不再是面向硬體直接設計的,而且是面向雲平臺。
目前雲基礎平臺的 IaaS 層經過十幾年發展,已經逐步標準化和統一化。基本以物件儲存、基於 Kubenates+ 容器的資源排程、VPC 雲網絡為統一標準。因此 IaaS 之上的資料平臺可以設計得越來越“雲中立”。
特別值得一提的是,因為各種原因,很多客戶實際還是需要線下自建機房,但當代線下 IDC 的建設其實也會用到雲的技術和思想,比如說做分層的解耦,把 IaaS 層的各個層次區分清晰,實際也促進了整個資料平臺設計逐步深化並變得更為全面。
資料湖與資料倉庫技術相互融合:湖倉一體
上面談到的兩點主要是從系統架構角度出發,但整個大資料平臺的發展實際上還涉及另外一個維度,就是資料組織和管理,這就不得不談到兩個概念,一個叫做資料湖,一個叫做資料倉庫。
關係型資料倉庫在過去幾十年一直是主流技術,現在業界大多數企業級產品幾乎都是這個形態,比如 AWS 的 RedShift、谷歌的 BigQuery、Snowflake 都是以資料倉庫的形態提供服務。
同時,以開源 Hadoop 為軸的大資料體系是以資料湖的形態發展起來的,它強調的是儲存與計算分離,以及各種元件靈活組合。比如儲存系統、資源排程系統、多種不同的計算引擎其實都可以靈活地組合。
這兩種不同的資料技術和形態在過去十年裡一直並行發展,而且兩邊的發展趨勢都不錯。有些人會問,開源的技術幾乎都更偏向資料湖,然後企業級的付費服務更偏向於資料倉庫,背後有什麼原因嗎?其實是這樣的:很多企業級平臺面向的是企業級使用者,這些使用者很多原來是資料庫的使用者,對數倉系統更熟悉,同時,企業級資料服務的設計更偏向於託管化和更好的資料組織方式,因此資料倉庫的體系其實更適合這類場景。而開源體系更偏向靈活組裝、偏模組化,更匹配資料湖的技術發展。
在過去大概兩三年的時間裡,這兩項技術開始出現非常強的相互融合的趨勢,各自吸取對方的長處,進入到湖倉一體這樣一個時代,這是當前的第三個技術熱點。
這裡稍微介紹一下兩種設計的不同,上圖按照 5 個維度對比了資料湖和資料倉庫體系。
第一個維度是方法論,資料湖其實是一個檔案儲存系統,使用者可以往裡面放任何一種檔案或者資料,它的一個典型特點是事後建模,它的方法論是使用者先把資料放上來,然後再考慮如何使用,也叫做 SchemaOnRead。資料倉庫正好相反,它是事前建模的模式,當你在把資料推進資料倉庫的時候,要求先 CreateTable/Schema,這是方法論上的不同。
在儲存的形態上,資料湖儲存的是檔案,資料倉庫儲存的是表(具體表如何儲存對使用者不可見)。資料倉庫是面向結構化關係表達設計的,因此面向 AI 這種非結構化資料,存在很大挑戰,它幾乎不支援音檢視型別的資料。而資料湖可以儲存所有型別,更靈活更有優勢。
面向計算引擎,資料湖天然是一種更開放的架構,適配更容易,但是幾乎也很難做到非常好的端到端最佳化。舉個例子,當客戶把資料上傳到資料湖上,可能是一個行存的 Log 檔案格式,上層的分析引擎幾乎很難跟它做非常好的最佳化分析(因為非列存、缺乏統計資訊和索引的支援)。而資料倉庫因為是偏端到端的設計,很難做到開放,但是端到端的最佳化更容易。
從成本層面看,資料湖非常容易上手,它就是個儲存系統,你只要把資料放上去就形成了一個數據湖。但隨著資料量的增長,運維管理會越來越困難,所以有很多資料湖最終有可能變成資料沼澤(比如,大家也不知道這個資料屬於誰,該被誰來用,能不能刪掉,應該怎麼治理),這是資料湖面臨的一個問題。
而資料倉庫在把資料上傳之前要事先建模,而且大多數資料倉庫建立之初要有一個有關整體資料模型的頂層設計,所以資料倉庫的啟動的成本很高。但是這種很好的頂設規劃,會使資料倉庫在日後擴充套件時的運維和管理成本變得更低,使得它長線的成本優勢變得非常明顯。從這個層面看,資料倉庫的資料質量高,也容易管理和治理,資料湖相對難一些。
從上述五個對比維度去看資料湖和資料倉庫,這兩個體系可以說是硬幣的兩個面。現在很多廠商開始考慮怎麼在資料湖上應用更多資料倉庫技術,反過來資料倉庫廠商也希望用資料湖的技術使自己更開放,這兩個技術在互相學習和融合,最終催生了一個新的技術熱點,也就是湖倉一體。
實際上湖倉一體有兩個流派,第一個流派是以數倉這種方式誕生的,它是一個左右派,左邊是一個數據倉庫,右邊是一個數據湖,中間以高速網路相連形成一個反對式的聯動;第二個流派是從資料湖向數倉演進,整體架構是在資料湖上搭建資料倉庫。這兩個流派的代表分別是 AWS Redshift/ 阿里雲 MaxCompute,以及 Databricks,目前這兩個流派都還在發展中。
雖然湖倉一體是目前的熱點,但它仍然是一個新興方向,還有非常多未知的問題要解決。
AI 成為資料平臺的一等公民
大資料平臺的發展在很長一段時間幾乎都是以分析(BI)為軸的,主流介面是 SQL,側重結構化的資料和二維關係表達的運算模式。資料來源以歷史資料為主,在之上做統計和分析。例如,統計今年聖誕節某電商平臺各個廠商總銷售額,這其實是一個基於歷史資訊的統計。但如果我們希望知道:明年同期營收大概是怎樣的?資料分析幾乎很難回答這個問題,它需要機器學習演算法做一個向前的預測。所以從這個層面看,資料分析和 BI 更側重於歷史資料的總結,而演算法 /AI 具備越來越好的面向未來做預測的能力,也能給大家帶來更多決策支撐。
特別要提的是,非結構化資料的處理過去其實一直是瓶頸,但 10 年前誕生的深度學習技術突破了這樣一個瓶頸。所以在過去五年裡,演算法類負載在資料中心裡從一個很低的比例增長到了 10 %-30%。AI 正成為資料平臺的一等公民。
既然 AI 成為一等公民,面向 AI 的平臺設計和最佳化就開始變得關鍵。從儲存到元資料到計算模式都需要重新思考。從這個層面上說,筆者認為當下技術發展的第四個熱點是平臺如何更好地支撐 AI。
“1+N+1”的系統架構
一個數據平臺通常包括多個元件,不同的組合會帶來多種系統架構形態。經過多年發展,筆者看到很多大廠和雲上的客戶最終迭代誕生出來了“1+N+1”這樣一個系統架構。
第一個 1,代表儲存和資源的統一。從底層看,統一的儲存系統把資料統一在一起,它有可能是數倉,有可能是資料湖,甚至有可能是湖倉一體的。然後再向上是統一排程層,所有的資源統一(很多大廠的混部專案,都是為了統一資源池)。
中間的 N 指代的是多種運算引擎和模式,例如批處理、流處理、機器學習、圖計算等等,不同的計算引擎共享底層的資料和資源池。
最後一個 1,是指統一的接入層和資料開發應用層,這個層次是可選的。有些企業選擇統一入口管理的架構,做更好的許可權管理等。有些企業和廠商選擇不再收斂了,引擎可以被各種團隊或者各種使用者獨立使用。
面向未來的四個發展趨勢
實現從離線到實時的全頻譜
批處理、流處理、互動分析領域已經基本成熟,最近兩年,以 Apache Delta、Hudi 為代表的近實時化技術逐漸興起,給了使用者在資料新鮮度和資源消耗平衡中的一個新選擇(更偏重成本)。從批處理、流處理到互動分析,每個系統都有各自的特點,但場景相互交織。使用者如果想要搭建一套完整的平臺,往往需要自己組合多個系統,這種組合工作給使用者帶來了額外的挑戰。
面向未來,新一代資料平臺系統需要形成一個從離線到實時的全頻譜計算能力,並在 Data Freshness、Resource Costs 和 Query Performance 的不可能三角里邊給使用者提供多種不同平衡的選擇。面向未來的系統應該能夠做到一套系統一套資料一套資源,針對上述三個方向的不同平衡點,為使用者提供多種選項,實現從離線到實時的全頻譜。
IoT 類資料處理成為新熱點
目前大資料系統處理的資料主要來源是人的行為的資料日誌。比如說人的瀏覽記錄、使用者在手機上對 App 的點選等操作,都會以日誌的形式傳到系統裡,反饋給推薦系統、廣告系統。
面向未來,隨著通訊(5G)技術和硬體裝置的智慧化,大量硬體裝置的資料會接入進來,硬體裝置的數量慢慢會超過人的數量,這些資料會超過人產生的資料,形成一個更大資料規模、更低資料密度的新資料來源。
同時,裝置產生的資料特性不同,比如大多數時候裝置資料並沒有太多意義和價值,只有出問題的時候資料才會產生波動,在這種情況下如何有效收集裝置產生的資料,如何處理這種海量的無法全量上雲、需要在邊端做一定處理的資料,就成了新的需求。為了解決這些問題,雲邊端協同的計算模式會成為熱點,統稱 IoT。
資料安全、共享與隱私保護的矛盾需要新解法
資料本身已經成為一種資產,有非常好的資產變現或產生額外價值的能力和需求。同時資料很可能涉及隱私洩露(前段時間國家釋出了資料安全相關的保護法規),這就形成了有關資料安全、隱私保護和資料共享的矛盾。如何在保證資料安全和隱私的情況下,做到更好的資料共享和資料變現成為新熱點。
資料安全不僅僅是一個許可權問題,還涉及很複雜的系統架構,包括許可權管理、使用者隔離、儲存加密、異地備份、敏感資料 / 風險行為的識別等等。資料安全共享這個方向包括兩個核心場景:一方資料對外共享,多方資料共同計算。
一方資料共享,典型場景是企業自己擁有完整的資料產權,同時又希望透過共享獲得價值。目前在主流的雲數倉產品裡,很多平臺都開始提供資料共享方案,比如說 Snowflake 推出的 DataSharing 功能。
多方資料共同計算,典型場景是每一方可能都不具備完整資料,但希望跟不同的資料來源透過資料求交或共享的形式獲得價值,這就是多方的資料交叉計算或者叫聯邦計算。這裡麵包含兩項核心技術,一個是基於隱私計算的資料互動,一個是基於聯邦學習(Federated Learning)的資料互動。不論是一方域內多租的安全模式,還是跨域多方的安全共享模式,目前都是領域熱點。
AI for System (DW Automation)
隨著大資料領域逐步發展和普惠化,主流客戶其實都可以做到 PB 級的資料規模,甚至很多客戶可以達到百 PB 規模。國內最大的網際網路公司,內部資料量均在 EB 級別,作業量在每天百萬級別以上。
面對這麼大的資料規模,傳統 DBA 以人為軸的資料管理和最佳化方式不再勝任。這種複雜的資料組織和最佳化需要更多基於機器學習、深度學習的自動化技術來完成。比如,透過機器學習自動進行資料分層,依據訪問的統計判斷什麼樣的資料更重要、什麼樣的資料其實不重要,哪些作業可以放在冷儲存上,哪些是關鍵作業需要放在更高優先順序的儲存上。
當作業量達到百萬量級時,這些決策應該由機器來自動完成,而不應該由人來完成。
這個方向在學術屆非常火熱,已經有大量研究工作和論文發表(例如,Learned Index、CloudView 自動中間結果統計,Ottertune 引數自動化調優等等)。工業界也有很多這方面的工作在推進,不過主要集中在大廠裡面,因為這部分工作需要海量資料支援。
目前這個方向整體處在相對早期的階段,如果我們用自動駕駛類比 AutoDW,現在大多數系統可能都處在 L1 或者 L2 的水平,有些系統能達到初步的 L3,未來還有非常大的發展空間和潛力。
三個未解的挑戰
如上所述,初代大資料體系已經基本建成。同時,在筆者看來,還有很多未解問題擺在從業者面前。
疑問 1:引擎多樣化,最終是否能誕生一套 OneSizeForAll 引擎滿足多樣的計算需求,併兼顧通用性和效率?
現在大家幾乎還是透過拼接不同引擎來搭建自己的計算平臺。如果採用開源系統,可能就是 Spark 做批處理、Flink 做流處理、Clickhouse 做互動分析,這是最簡單的一套。再複雜一點,可能還要部署 HBase 做 KV 查詢,用 ElasticSearch 做文字檢索。雖然每個單獨產品都已經比較成熟,但整個系統的複雜度非常高。因此很多客戶期待能簡化架構,用一套 OneSizeForAll 的系統解決多個場景問題,這也是面向從業者的一個關鍵挑戰。
疑問 2:基於開源自建與直接選購企業級產品,誰更能獲得使用者的認可?
很多客戶都問過筆者這樣一個問題:我是應該用開源系統自建一個大資料平臺,還是應該去買一個企業級服務?
於我而言,這個答案可能需要結合客戶分層來看。如前文講到的,不同層次的客戶可能會選擇不同產品,開源自建軟體幾乎都是免費的,但是你可能需要一個獨立的團隊去支撐這樣一個大資料平臺的部署和運維,帶來了相對較高的維護成本(一個簡單的經驗公式是,對於百臺規模的平臺,基於開源軟體自建的總 TCO= 物理硬體成本 + 開發和維護人力成本 = 物理硬體成本 *2)。
對於頭部的網際網路技術公司,大多在資料基礎設施方面有大量投入且具備較高的技術能力,能夠組裝和改造好開源產品,形成為自己量身定製的平臺。而且他們規模比較大,人力邊際成本低。
對於很多非頭部網際網路企業,直接購買 SaaS 化的企業級平臺,綜合成本反而更低。同時還能享受到更好的效能、安全性、穩定性和兜底能力。但也會面臨技術黑盒以及改造的高成本(需要平臺廠商來做)問題。
Snowflake 作為開箱即用的全託管平臺大受歡迎,Databricks 以開源生態為主線也形成了廣泛客戶群體。“散件組裝攢機”VS “直接買膝上型電腦”,最終答案還是在客戶手裡。
疑問 3:關係模型之外,是否會發展出其他主流計算正規化?
資料庫和數倉已經發展了 40 多年,主流的計算正規化就是二維關係表達。近 10 年,深度學習帶來了一個新的計算方式。那除此以外,還有沒有一個更新一代的計算方式會產生?
圖計算是目前最被看好的方向,它是點邊模型,與二維關係表達並不相同。但是資料庫技術發展過程中也誕生了圖計算模式,並且已經發展多年,但目前仍然不是主流。筆者並不確定,隨著圖學習 GraphEmbedding 技術的興起,圖計算是否能煥發新生變成一個主流的計算正規化。但是我們仍然期待隨著大資料體系的發展,能夠看到更多計算正規化誕生,並進一步推動資料價值發掘。
寫在最後
筆者引用了 19 世紀物理學的一個說法作為開篇的題目。19 世紀末期,物理學界普遍認為物理學的體系幾乎已經建成,但頭上仍有兩朵烏雲。事實上那兩朵烏雲是現代物理學誕生最重要的兩個標誌,也就是量子力學和相對論,它們標誌著經典物理學向現代物理學的演進。
筆者用這個題目做完 2021 的總結,也是希望能表達類似的觀點:以 Hadoop 為基礎的第一代大資料體系架構已基本建成,但是面向未來的更現代的資料平臺架構仍有非常多的疑問還沒有得到解答。值此年終年初,期待能和所有的讀者 / 從業者一起,把大資料平臺體系向新一代推進。
作者介紹:
關濤,分散式系統和資料研發平臺專家。2006 年至今,經歷了大資料平臺技術發展後 15 年,是大資料核心技術最早期的研究和實踐者之一。曾任阿里巴巴技術委員會計算平臺組負責人,阿里雲架構組大資料組負責人,阿里雲通用計算平臺(MaxCompute/Dataworks)負責人。微軟 Azure 雲大資料平臺研發經理。深度主導 / 參與微軟和阿里雲大多數核心大資料平臺專案的初創和迭代發展。ArchSummit 全球架構師峰會(深圳站)2021 明星講師和優秀出品人。