近日,2021騰訊數字生態大會在武漢舉行,大會以“數實融合·綻放新機”為主題,邀請了300多位產業領袖和專家,展示前沿技術成果、創新服務場景、細分行業數字化轉型的實踐案例。
作為騰訊雲最佳生態合作伙伴,作業幫受邀出席,作業幫大資料平臺技術部負責人劉晉在“大資料”專場與參會者分享作業幫大資料平臺架構的演進之路,系統地介紹了作業幫大資料平臺概況、面臨的問題和解決方法,以及在彈性、資料湖、資料安全的實踐經歷和取得的效果。
劉晉表示,作業幫從2015年開始就使用存算分離的架構來構建離線的資料體系,該系統架構讓計算、儲存資源具備極好的擴充套件性,降低運維成本、最佳化TCO。為了提升線上叢集資源利用率、滿足突發的資源使用需求,團隊正在將計算層從自建CDH到EMR的遷移。
為了實現平滑的遷移,團隊採用了漸進式的方案,首先對任務進行標準化測試,對一些不適合高版本Hive環境的任務進行了改造,之後進行資料準確性的檢驗,透過對任務在不同叢集的結果對比來驗證資料,這個過程中對發現的開源版本缺陷進行修復,最後進行分佇列的遷移。
從遷移後的效果來看,基於EMR-EKS能快速的彈性擴容,今年上半年團隊基於彈性在短時間內擴容了上萬核,很好的滿足了計算需求。同時正在實施線上離線混布的方案,透過彈性網絡卡做了硬體層面的網路隔離,並且對Yarn的原生排程模式進行最佳化,縮短了節點回收的時間,避免慢節點影響任務執行效率。
在傳統基於Hadoop的數倉應用裡,存在著資料查詢慢,資料模型更新成本過高、以及資料冗餘等諸多的缺點,作業幫透過Iceberg的資料湖技術,結合實際的使用場景,在數倉和即席查詢領域進行了積極的探索和實踐。
首先透過Flink構建實時Pipeline,生成ODS層分鐘級的IceBerg數倉表,再透過事件驅動來週期性的做流轉批生成具有時間邊界的分割槽,對分割槽內資料透過Zorder、DataSkipping技術來做查詢加速,在流量域的使用者行為查詢中,使用Iceberg的查詢相比傳統模式有近10倍以上的提升。
劉晉表示,作業幫在批計算、實時、OLAP等領域有豐富的應用場景,未來作業幫技術團隊將持續建設創新技術體系,在資料治理、資料湖、自動排程、離線上混布、OLAP、實時計算等領域不斷的實踐和突破,充分發揮資料價值,賦能教育創新。(永文)
來源: 光明網