InfoWorld 的 2021 Bossie Awards 旨在表彰年度軟體開發、開發運營、資料分析和機器學習領域的最佳開源軟體。
金錢可能不會長在樹上,但它確實在 GitHub 儲存庫中增長。開源專案產生了地球上最有價值和最複雜的軟體,免費獲取,大大降低了所有公司的資訊科技成本。如果您正在尋找軟體的前沿,請關注當今的開源專案。
在InfoWorld 的2021 年度最佳開源軟體獎中,您將在這裡找到最佳的開源應用。我們的 2021 年 Bossie 獎獲獎者代表了當今開源必須提供的最佳和最具創新性的軟體一一用於軟體開發、開發運營、雲原生計算、機器學習等。
MLflow
當一個技術領域變得足夠流行和複雜時一一有很多活動部件和很多人參與一一它最終會有同樣複雜的操作或-操作"對應物。機器學習也不例外, 因此我們有“MLOps”。透過Databricks建立,由Linux基金會主辦,MLflow是MLOps平臺,可以讓一個軌道,管埋和維護各種機器學習模型,實驗,他們的部署。它為您提供工具來記錄和查詢實驗(程式碼、資料、配置、結果),將資料科學程式碼打包到專案中,並將這些專案連結到工作流中。考慮機器學習的DevOps 和生命週期管理。
Orange
Orange承諾讓資料探勘“富有成果且有趣”。它的血統可以追湖到近四分之一世紀,但今天仍在廣泛使用和積極發展。Orange 允許使用者建立資料分析工作流並執行各種機器學勻和分析功能以及視覺化。與RStudio 和Jupyter 等程式設計或文字工具相比,Orange 非常直觀。您可以將小部件拖到畫布上以載入檔案、使用模型分析資料並可視化結果。具有蛇形傾向的使用者可以使用 Python 指令碼小部件以程式設計方式操作資料。
Flutter
Flutter是 Google 的U工具包,用於從單個程式碼庫為移動、web、桌面和嵌入式裝置構建本地編譯的應用程式。它基於 Dart 語言和一組豐富的完全可定製的 Material Design 和Cupertino 風格的小部件來構建原生介面。Flutter 的小部件整合了所有關鍵的平臺差異,例如滾動、導航、圖示和宇體,以在 ios 和 Android 上提供完整的原生效能。
Apache Superse
Apache Superse是一個現代的、企業就緒的商業智慧 Web 應用程式。它快速、輕量目易於使用,允許各種技能的使用者探索和視覺化他們的資料,從簡單的餅圖到高度詳細的deck.g(地理空間圖表。Superset 提供了用於視覺化資料集和製作互動式儀表板的直觀介面、大量資料視覺化、無程式碼視覺化構建器和用於準備視覺化資料的 SQL IDE。在後端,您會發現對大多數SQL資料庫、記憶體中非同步快取和查詢以及從頭開始設計的雲原生架構的支援。
Presto
Presto是一個開源的分散式 SQL 引擎,用於在叢集中執行的線上分析處理。Presto 可以查詢各種資料來源,從檔案到資料庫,並將結果返回到許多 B1和分析環境。更重要的是,Presto 允許查詢資料所在的位置,包括 Hive、Cassandra、關係資料庫和專有資料儲存。單個Presto查詢可以組合來自多個來源的資料。Facebook 使用 Presto對多個內部資料儲存進行互動式查詢,包括他們的300PB 資料倉庫。Presto 基金會是監督 Presto 開源專案開發的組織。Facebook、優步、推特和阿里巴巴創立了Presto 基金會。其他成員現在包括 Alluxio. Ahana、 Upsolver 和 Intel。
Apache Arrow
Apache Arrow為平面和分層資料定義了一種獨立於語言的列式記憶體格式,為現代 CPU 和CPU 上的高效分析操作而組織。Arrow 記憶體格式還支援零複製讀取,無需序列化開銷即可實現閃電般的快速資料訪問。連續的柱狀佈局支援使用現代處理器中包含的最新 SIMD(單指令多資料)操作進行向量化。Arrow 的庫實現了該格式併為一系列用例提供了構建塊,包括高效能分析。許多流行的專案 使用 Arrow 來高效地傳送列資料或作為分析引l擎的基礎。Arrow 庫可用於C、C++,C#、Go、 Java、 JavaScript JuliaMATLAB、Python、R、 Ruby和Rust。
InterpretML
可解釋人工智慧( xAl),也稱為可解釋人工智慧,是指機器學習和深度學習方法,可以用人類可以理解的方式解釋他們的決定。希望 XA1 最終會變得和黑盒模型一樣準確。InterpretML是個開源XAI 包,它結合了幾種最先進的機器學習可解釋性技術。InterpretML 可讓您訓練可解釋的模型並解釋黑盒系統。InterpretML 可幫助您瞭解模型的全域性行為以及各個預測背後的原因。在其眾多功能中,InterpretML有一個來自Microsoft Research 的“玻璃盒“模型,稱為Explainable Boosting Machine,它支援Lime用於透過黑盒模型近似的事後解釋。
Lime
Lime (區域性可解釋模型不可知解釋的縮寫)是一種事後技術,透過擾亂輸入的特徵並檢查預測來解釋任何機器學習分類器的預測。Lime 背後的關鍵直覺是,透過區域性(在我們要解釋的預測附近)的簡單模型來近似黑盒模型比嘗試全域性近似模型要容易得多。Lime 適用於文字和圖傢域。Lime Python 包在PyP上可用,原始碼在GitHub上,它也包含在InterpretML 中。
Dask
Dask是一個用於平行計算的開源庫,可以將 Python 包擴充套件到多臺機器。Dask 可以在同一系統或多節點叢集中的多個 CPU 上分配資料和計算。Dask 與Rapids CuDF、xGBoost和Rapids cuML整合,用於 GPU 加速資料分析和機器學習。它還與 NumPy、Pandas 和Scikit-learn 整合以並行化它們的工作流程。
BlazingSQL
BlazingsaL是個GPU 加速的SQL 引擎,構建在 Rapids 生態系統之上。BlazingsQL 程式碼是在 Apache 2.0 許叮下發布的開源專案。Blazing Notebooks 是種基於 AWS 構建的雲服務,結合了 BlazingSQL、 Rapids 和JupyterLab。基本上,BlazingSQL 提供了全 GPU 資料科學工作流的 ETL(提取、轉換和載入)部分。在CPU 記憶體中擁有 GPU DataFrames 後您可以使用Rapids CLML進行機器學習,或將 DataFrames 轉換為DLPack或NVTabular以使用 PyTorch 或 TensorFlow 進行 CPU 內深度學司。
Rapids
Nvidia 的Rapide開源軟體庫和 AP1 套件使您能夠完全在 GPU 上執行端到端資料科學和分析管道。Rapids 使用Nvidia CUDA原語進行低階計算最佳化 ,並透過使用者友好的 Python 介面公開GPU 並行性和高頻寬記憶體速度。Rapids 依賴於 Apache Arrow 列式記憶體格式,幷包含cuDF,個類似 Pandas 的資料幀操作庫;cuML,—組機器學習庫,提供 Scikit-learn 中大多數可用演算法的 GPU 版本;和 cuGraph ,一個類似 Networkx 的庫,用於加速圖分析。
PostHog
PostHog是一個易於使用的產品分析工具框架 ,提供了一種快速途徑來深入瞭解您的 web和移動應用程式的使用者行為。只需在您的程式碼中新增一個小的 JavaScript 片段,您就可以開始運行了。PostHog 的白動南獲會收集在使用者會話期間觸發的大量前端互動事件。點選式、 選單驅動的U!可以輕鬆地將大量事件資料提煉成有意義的行動指標、趨勢圖表和一口大小的儀表板。漏斗可幫助您進一步最佳化複合使用模式,以隔離瓶頸並提高跳出率。PostHog 可用於本地部署或在 Saas 產品中 ,消除了最佳化軟體產品使用者體驗的三味和猜測。
LakeFS
LakeFs提供了一種“以管理程式碼的方式管理資料湖"的方法,為物件儲存添加了一層類似於 Git的版本控制。Git 語義對資料的這種應用讓使用者可以建立他們自己的獨立的零複製資料分支,用於工作、實驗和模型分析,而不會破壞共享物件的風險。LakeFS 為您的資料帶來了有用的提交說明、元資料欄位和回滾選項,以及用於維護資料完整性和質量的驗證掛鉤一一在末提交的分支意外合併回生產之前執行格式和模式檢查。藉助 LakeFS,管理和保護程式碼儲存庫的熟悉技術可以擴充套件到現代資料儲存庫,如 Amazon S3 和 Azure Blob 儲存。
Meltano
今年從 GitLab 中分離出來的Meltano是一個免費的開源"DataOps“替代傳統ELT(提取、載入、 轉換)工具鏈。Meltano 的資料倉庫框架可以輕鬆地為您的專案建模、提取和轉換資料,並透過內建分析工具和儀表板來補充整合和轉換管道,以簡化報告。Meltano 提供了一個可靠的提取器和載入器庫,並支援 Singer 標準的資料提取分接頭和資料載入目標,它已經是資料編排的強大動力。
Trino
特里諾-原名Presto sQL-能夠多運行針對大型分散式資料來源極快的查詢的分散式SQL分析引擎。Trino允許您同時對資料湖、關係儲存或跨多個不同來源執行查詢,而無需複製或移動資料進行處理。Trino 可以很好地與您的資料科學家可能使用的任何 BI 和分析工具配合使用,無論是互動式的還是臨時的,最大限度地減少學習曲線。隨著資料工程師努力支援對越來越多的資料來源進行日益複雜的分析,Trino提供了一種最佳化查詢執行和加速來自不同來源的結果的方法。
StreamNative
StreamNative是一個高度可擴充套件的訊息傳遞和事件流平臺,它極大地簡化了為實時報告和分析工具以及流企業應用程式鋪設資料管道。將 Apache Pulsar 強大的分散式流處理架構與Kubernetes 和混合雲支援等企業附加功能、大型資料聯結器庫、輕鬆的身份驗證和授權以及用於健康和效能監控的專用工具相結合,StreamNative 都簡化了基於Pulsar 的開發實時應用程式並簡化大規模訊息傳送背板的部署和管理。
Hugging Face
Hugging Face提供了最重要的開源深度學習儲存庫,它本身並不是一個深度學習框架。該專案對基於變形金剛的景觀的總體控制繼續增加,新模型在論文發表後幾天就被新增到回購中。模型託管正在不斷壯大,Accelerate等新工作使分散式 GPU 訓練的使用變得更加容易。現在 Hugging Face 的目標是擴充套件到遠遠超出文字的範國 ,支援影象、音訊、影片 物件檢測等。未來幾年,深度學習以業者將密切關注這個資源庫。
EleutherAl
OpenAl 的 CPT-3 模型在文字生成方面實現了驚人的飛躍,具有人類級別的效能。但是,儘管可以透過 AP1 獲得有限的訪問許可權,但只有 OpenAl 和 Microsoft 才能完全訪問 GPT-3的訓練版本。進入EleutherAl,這是一個分散式機器學習研究小組,致力於將 GPT-3 帶給我們其他人。2021 年伊始 ,EleutherAl 釋出了The pile,這是一個825GB 的用於訓練的大量不同文字資料集,並於6月釋出了GPT-J,這是個60 億引數模型,大致相當於 OpenAl 的CFT-3的居里變體。使用GPT-NeoX,EleutherAl 計劃一路跑到 1750 億個引數,以與目前可用的最廣泛的 CPT-了 模型競爭。駭客攻擊世界上最大的公司?這就是開源的力量。
傳統上,Bossies 的贏家是庫、框架、平臺和作業系統一一開源的支柱。然而,我認為不止獲獎的這些開源元件,其他的開源元件也值得一些認可,大家可以學習研究。