本期嘉賓:
李飛飛 阿里巴巴集團副總裁、達摩院資料庫與儲存實驗室負責人
王建民 清華大學軟體學院院長
安筱鵬 阿里研究院副院長
螺旋式上升:資料庫的發展歷史
李飛飛
阿里達摩院資料庫與儲存實驗室負責人
現代資料庫系統發展有三個里程碑。
第一個里程碑就是IBM科德(E. F. Codd)提出大型共享資料庫的關係模型,科德因此獲得圖靈獎,這一進展也與華人陳品山提出的關係代數Er模型(Entity relationship model)有關。在這些理論基礎上,衍生出關係代數,成為現代資料庫系統的核心和基礎。
第二里程碑是事務處理(transaction processing)領域的突破。事務處理最關鍵的是ACID(atomicity,consistency,isolation,durability),就是原子性、一致性、合理性和永續性。ACID保證了使用資料庫時可以極大簡化應用開發邏輯。
第三個里程碑是在資料分析、資料倉庫領域,衍生出像資料塊以及資料數倉、互動式分析等技術。
資料庫系統關係模型、事務處理、資料倉庫,這是早期資料庫系統發展的三大基石。
2000年以後,隨著美國網際網路產業蓬勃發展,資料庫出現了新變化。第一,以谷歌為代表的網際網路公司需要處理的資料規模越來越大。第二,這些資料是半結構化、非結構化資料,處理這些資料衍生出今天耳熟能詳的所謂大資料。
大資料領域的核心技術基本上都是從資料庫系統和分散式系統衍生出來的。
在資料庫領域谷歌三個經典的貢獻非常重要。一是谷歌的MapReduce,對應後來的第一代開源大資料系統Hadoop;二是谷歌的分散式檔案系統;三是針對半結構化、非結構化的分散式儲存:谷歌Bigtable。
這三駕馬車是今天資料庫系統、大資料系統的連線紐帶,也是早期大資料系統的基石。
隨著雲計算技術演進,傳統大資料的離線計算和資料庫領域所擅長的線上處理和分析又在發生融合。站在業務角度、使用者角度,需要一個一站式資料處理平臺。
這一領域的進展除了之前提到了Snowflake,2021年Oracle釋出了最新產品Oracle 21c。在舉行釋出會時,Oracle提到兩個關鍵詞:一個叫做“Any Data”,也就是任何資料;一個叫做“Any Workload”,也就是任何負載。
在資料庫系統裡面,除了傳統事務處理、分析處理,Oracle提出要開發資料庫內的機器學習,甚至在資料庫中支援區塊鏈來驗證資料不可篡改等一系列新技術。Oracle 21c希望提供一個一站式的資料管理服務平臺。
從歷史演進視角看,就像古人說的,天下大事分久必合、合久必分。技術發展是一個螺旋式上升過程,這是事物發展的客觀規律。
王建民
清華大學軟體學院院長
我補充一點對理論的認識,理論、技術、工程之間是什麼關係?什麼是理論、技術、工程?
理論要簡化問題,要易於傳播。
第一個資料庫的理論真正流行的是什麼?是關係模型。關係模型在大學計算機學科中,是大一大二的課程,也就是離散數學,是一個集合論。集合論特別基礎,但為什麼這個模型一下子統治了資料庫世界?因為我們這個世界各行各業都在資料庫上面,它構造一個數字孿生世界的底座。
我研究了關係模型發明人科德(E. F. Codd)的經歷。他是英國人,二戰時當空軍飛行員,所以他讀書很晚,第一個學位是數學,後來又到 IBM去工作。他其實在工程領域中做資料庫開發,給銀行開發資料庫應用。他最痛苦的是工作量不可預期,經常不能按時交付資料庫應用。他當時就在反思能不能有更簡單的辦法來解決問題?
據說,他們有一天中午吃飯時突然想到,如果用關係模型來表達,可能把一個需要一頁半紙的查詢變成半頁甚至兩行。
所以,我認為在大資料時代,缺一個類似當年關係模型的理論突破,大資料智慧時代需要一種能簡化問題的關係模型。
安筱鵬
阿里研究院副院長
從經濟學來說什麼叫理論?理論是一種節約資訊的工具。
在一個紛繁複雜的經濟現象中間,有各種各樣的投入和產出,這種投入產出是非常複雜,但在各種紛繁複雜的投入產出中間,能夠找出幾個最核心的變數,這個變數就構建起了理論的一個基礎。事務發展的影響因素很多,但是我知道出現“果”的時候有兩三個最核心的影響變數,決定了這個“果”,這可以稱之為經典的理論。理論中涉及因素越少,同時越能描述事物的執行規律,可能越經典,越有生命力。
物聯網時代,資料庫技術的趨勢和挑戰
安筱鵬
阿里研究院副院長
分析過去的三四十年工業軟體的發展歷程可以看到,工業軟體的發展是與工業技術本身的進步、與一個複雜產品的開發密切相關。只有一個複雜的場景需求才能帶動工業軟體的發展。
比如說像洛克希德·馬丁、通用、波音、NASA、麥道、達索、福特等公司,在面對複雜的工業場景中間,催生孵化出了各類工業軟體,之後進行各種兼併重組融合,企業不斷髮展壯大。在某種程度上反映了工業軟體產業發展的規律,在觀察資料庫產業時,它有沒有類似規律?
王建民
清華大學軟體學院院長
時序資料庫歷史很長,它是伴隨著統計應用發展起來的。最早期的應用場景是美國的人口普查,後來又用到股票交易。但物聯網資料庫還不僅是時序資料庫,資料庫應用場景和執行平臺變了。
第一個變化是,近年來隨著工業場景數字化步伐加快,“邊”“端”出現,不僅後臺在儲存資料,“端”和“邊”也在處理資料。原來人們在建資料庫的時候,一定先要建立表格,然後往表格中填資料。但是在物聯網場景中,資料是“端”說了算的,不是後臺雲說了算,“端”決定了物聯網資料庫的元資料及模型。元資料如果再按資料庫傳統邏輯先建“表”,“端”就來不及。前端增加了一個感測器,要改變感測器的度量,傳統方式要到後臺去操作,會比較麻煩。
第二個變化,從工業角度來講,就是OT和IT的融合。OT和IT的融合核心是“端邊雲”融合問題。在“端”的方面,人們關注的是保序、守時、可靠;在“雲”的方面,關注的是海量、有效、深入。IoT資料庫就是“端邊雲”融合。
第三個變化,物聯網資料來自感測器,原來訊號處理變成資料庫的一等公民。傳統資料處理就是最大值、最小值、平均值,現在不夠了,時域分析、頻率分析成為資料庫的標準操作。
安筱鵬
阿里研究院副院長
傳統資料庫有一套規則、體系、方法,今天當感測器資料輸進來之後,當OT資料輸進來之後,資料庫底層的功能、技術路線、模式正在發生變化。
事實上工業網際網路、IT跟OT的融合,有兩條路線:
一條路線,原有的技術架構體系沒有發生根本性變化,它透過資料、網路、模型標準的統一,推動了資料跨系統的融合。目前大部分融合是在這個層面上。
另一條路線,叫做原生式融合,這種融合需要最底層“雲邊端”資料的儲存、分發模式的融合,是底層資料處理方式的變革。
目前的融合方案是在多個系統、裝置之間做各種翻譯,你講英語,他講法語,有人講中文,然後大家在裝置之間、網路之間、標準之間進行翻譯。而所謂的原生概念則是人出生的時候都說世界語,不需要翻譯了。
李飛飛
阿里達摩院資料庫與儲存實驗室負責人
物聯網帶來的不僅僅是資料從感測器產生這麼一個事實,而是需要以智慧化的方式進行雲邊端的協調、協同。哪些資料在雲上處理,哪些在邊,哪些在端?需要更多的智慧方案。
物聯網資料庫是一個多模資料庫,時序是其中很重要的一個型別,但不只是時序,它需要支援各種各樣型別的感測器資料。
因為在物聯網的應用中不僅有裝置感測器的時序數值,還有日誌資料。機器產生的或者人產生的日誌資料,需要一個雲邊端協同處理機制。
數字技術為什麼要開源?
李飛飛
阿里達摩院資料庫與儲存實驗室負責人
資料庫等數字技術發展到今天,開源功不可沒。開源是技術創新的新載體和新模式,讓產學研用等各個群體一起合作推進技術演進。開源帶來兩大好處。
第一,開源帶動數字技術能夠更快的進入應用場景,在應用場景中加速閉環迭代,在系統應用中發現問題、解決問題。
第二,開源推動技術生態的形成與演進。今天的數字生態有很多種,如應用生態、開發者生態等。這些生態的發展會加速系統迭代的速度。一個封閉的系統如同溫室中的花朵,無法和草原上風吹日曬的花朵一樣快速進化與迭代,開源帶來了系統的高速迭代。
今天在資料庫系統領域有很多開源系統,如MySQL等美國主導的主流開源資料庫。
國內過去幾年也產生出了很多的優秀的開源資料庫系統。如TiDB、面向物聯網的IoTdb,阿里決定把雲原生資料庫的一部分的元件拿出來開源,螞蟻金服OceanBase也在開源。
這些實踐說明在資料庫領域產業界和學術界對開源這件事越來越重視。但開源帶來的挑戰是,技術公司的商業模式如何構建?傳統模式是透過資料庫技術優勢和能力,提高效率、降本增效,並分享一部分價值。企業幫客戶節省了20%的成本,或者提升了20%的效率,分享一些增量價值也是合情合理的。
但是今天資料庫開源了,客戶透過開源版本可以直接獲取這些差異化能力,為什麼還要去付費?它商業模式到底是什麼?
如何思考開源資料庫的商業模式?
第一種模式是,開源版本和企業版本存在一些能力化差異。把一些常見的功能放在開源社群,但有一些核心能力是閉源的。使用者或者開發者,透過開源版本,喜歡或者覺得有必要用這個產品時,特別是需要獲得更高階的能力時,會主動升級到企業版。
第二種模式是SaaS(software as a service )。開源以後SaaS商業模式不一定成立了,因為軟體開源了。但把這個詞再反過來,service as a software,也就是使用了開源產品後,一定會產生運維管控等一系列服務新需求,這是企業商業價值的來源。
今天特斯拉越來越便宜,但是車上服務的相關功能打包成軟體,在升級軟體版本時要付費。升級特斯拉車控軟體時,其實不是在為這個軟體付費,而是在為服務付費,這是數字時代的一個核心商業邏輯。
王建民
清華大學軟體學院院長
對開源的認識是一個逐步深化的過程。
2000年前後,我們開始關注開源。2003年,我們把中國開源領域的權威專家請到清華軟體學院做報告,但當時反響並不強烈。2013年清華提出躋身世界一流大學,世界一流大學軟體學院不僅看研究成果,也看在全球開源社群中的貢獻。清華大學過去幾年在開源社群也做出了自己的貢獻,這種貢獻價值在於4個方面:
一是高階人才培養,特別是國際化的人才培養。在培養引領未來軟體發展的人才過程中,這些人應該有開源的知識、開源的經歷,這是世界一流軟體人才培養的需要。
二是科技成果傳播。每個老師都做了很多成果,但隨著學生畢業,很多研究中斷了,如果這些研究放到開源社群中,就更多的人會把知識傳承下去。
三是吸引使用者參與。透過開源成果可以讓有興趣的使用者參與進來,加速技術的應用普及及協同創新。
四是提升國際影響力。我們在享用開源的好處,也需要為開源做出貢獻。