OpenBMC 是 Linux Foundation 組織裡的一個專案,也是目前開源 BMC 裡方案最成熟、社群最活躍的專案。日前,我們得知位元組跳動系統部 STE 團隊自研的 OpenBMC,已在內部成功上線,並穩定運行了兩個多月。這也是位元組跳動首次正式上線並初步產品化的 OpenBMC 方案。
為此,我們專訪了位元組跳動系統部 STE 團隊工程師,他為我們分享了位元組跳動自研 OpenBMC 的佈局和推進過程。
傳統 BMC 生態封閉,及時響應困難重重
BMC 是伺服器上的管理模組,它包含獨立的 SoC 以及 SoC 上執行的系統,完成對伺服器的管理、監控、並對外提供服務。對於伺服器來說是不可或缺的重要組成部分。
目前伺服器 BMC 的方案裡,部分廠商有完全自研的方案,部分廠商則會基於 IBV (Independent BMC Vendor) 的商業 BMC 進行定製化開發,但這些都是閉源的,伺服器使用者無法掌控 BMC 的完整功能。
同時,商業 BMC 也具有諸多侷限,比如一些不必要的功能,可能影響網路和系統穩定性;修復 bug、漏洞往往需要反饋 ODM 廠商,甚至需要 IBV 支援,這使得修復時間過長;部分 bug 只在特定環境下復現,更增加了修復的難度。
隨著網際網路的不斷髮展,資料中心的不斷壯大,對資料中心服務的運維需求,也越來越呈現出精細化、定製化的趨勢。
嚴重依賴各 ODM 廠商、IBV 的傳統 BMC 開發模式,開發週期長,無法實時響應網際網路多變的需求。一個更加開放、更加現代的 BMC 方案,成為當務之急。
功能新架構優,OpenBMC 成位元組跳動首選
OpenBMC 是 Linux Foundation 裡的一個開源專案,它方案成熟、社群活躍,受到 IBM、Google、Facebook、Intel、Inspur 等國內外各大廠商的支援。
在架構方面,OpenBMC 支援 Aspeed、Nuvoton 等多種 BMC 晶片,以及 x86、ARM、OpenPOWER 等多種伺服器架構,更是採用 Linux kernel 5.15、Systemd 249 (249.4+)、GCC 11.2.0、C++20 等最新的現代化技術架構。
但是 OpenBMC 最初是為了解決國外企業的資料中心需求設計開發的,無法完全適配國內網際網路資料中心需求。基於 OpenBMC,結合位元組跳動伺服器管理和運維,開發自研版本,成為更理想的選擇。
從社群版本到落地應用,OpenBMC 在位元組跳動產品化
為了加快 OpenBMC 與位元組跳動內部業務的適配,STE 團隊調研了 OpenBMC 社群裡,各個模組的技術方案,對比位元組跳動內部對伺服器的管理和運維,挑選出適用的方案。
對於能滿足位元組跳動內部需求的模組,STE 團隊決定直接使用社群版本;對於額外的需求,則會基於社群模組,新增並增強功能,最終形成一個完整的解決方案,進行深度測試。
STE 團隊工程師,為我們分享了具體的方案:
- 對於 x86 specfic 的模組,複用 Intel 的模組,例如 PECI,node-manager
- 對於 power control,複用x86-power-control
- 對於各類感測器,基於現有的entity-manager/dbus-sensors/virtual-sensor,新增 yaml 來定義需要的 sensor
- 對於風扇控制,複用phosphor-pid-control並添加了單、雙轉子的檢測和適配
- 對於 FRU,根據硬體情況改造相關程式碼,使其支援非標準 FRU 格式
- 對於 SEL,實現新的統一的 logging 方式,把 log entry 轉化為標準 SEL
- 對於 code-update,基於phopsphor-bmc-code-mgmt添加了 BIOS、CPLD、FPGA 等模組的支援
- 對於位元組跳動內部的管理、運維,新增了程式碼來完成線上的適配工作
此外, STE 團隊也在位元組跳動內部搭建了 CI 伺服器,完成了自動化的編譯和測試,並且與開源社群的 Gerrit 打通:
- 對於內部的每一個 Push/MergeRequest,會跑 CI
- 對於每一次編譯,都會透過 QEMU 來跑基本的測試
- 對於重要的 release tag,還會透過 HW CI 在實際伺服器上驗證
- 對於開源社群裡meta-bytedance的每一個改動,也會跑編譯和 QEMU CI
積極呼籲行業合作,共同參與社群共建
據 STE 團隊工程師介紹,OpenBMC 專案目前已經在兩種不同配置的機器上順利完成上線,並持續穩定運行了兩個多月。
同時,STE 團隊的工程師們,也在 OpenBMC 開源社群裡提交了涉及新 feature 及 bug fix 的諸多 commits,目前已經成為了 OpenBMC Technical Oversight Forum (TOF) 的一員。
- https://github.com/search?p=1&q=org%3Aopenbmc+bytedance.com&type=Commits
- https://github.com/openbmc/docs/blob/master/tof/contract.md
未來,位元組跳動系統部 STE 團隊將在更多的平臺上持續研發 OpenBMC,來更好、更快速地支援伺服器的管理和運維。工程師還表示,在後續開發中,STE 團隊希望能與更多廠商進行全方位、多維度的緊密合作共建,共同開發更符合國內網際網路資料中心需求的開源 BMC 方案。
專訪最後,STE 團隊的工程師也充分表達了對於優秀人才的渴求,歡迎對新技術、開源感興趣的小夥伴加入位元組跳動系統部 STE 團隊,用最新的 kernel、最新的編譯器,寫最 modern 的 C++。
關於位元組跳動系統部 STE 團隊:
位元組跳動系統部 STE 團隊 (STE=System Technologies & Engineering,系統技術與工程) 一直致力於作業系統核心與虛擬化、系統基礎軟體與基礎庫的構建和效能最佳化、超大規模資料中心的系統穩定性和可靠性建設、新硬體與軟體的協同設計等基礎技術領域的研發與工程化落地,具備全面的基礎軟體工程能力,為位元組上層業務保駕護航。同時,團隊積極關注社群技術動向,擁抱開源和標準。
更多招聘資訊,可聯絡 [email protected] 獲取。