高效能壓縮 N 維陣列與列式表格工具

資料工具

Python-Blosc2 是一個開源高效能壓縮庫,專為 N 維陣列和列式表格設計,內建計算引擎與延遲求值功能,適用於大數據處理。

此 GitHub 開源專案 Python-Blosc2 是一個高效能壓縮庫,專為處理二進位資料容器設計。它提供計算引擎和格式,支援延遲求值,能在壓縮資料上執行複雜計算,無論資料儲存在記憶體、磁碟或網路(例如透過 Caterva2)。專案優化用於 N 維陣列(NDArray)和列式表格(CTable),並包含查詢與索引功能。主要使用場景是快速、壓縮的 out-of-core 數值資料,特別適用於資料量太大無法舒適放入 RAM 的情況。底層基於 C-Blosc2 壓縮後端,提供多種壓縮策略和可擴展的插件架構。README 說明包括安裝指引、命令列工具如 b2view 和 parquet-to-blosc2,以及豐富的文件和教學資源,方便開發者快速上手。

Stars205
Forks41
語言Python
分類資料工具
標籤
columnar-storagecompressioncomputationallazy-evaluationndimensional-arraystabular-data
GitHub Topics
columnar-storagecompressioncomputationallazy-evaluationndimensional-arraystabular-data