DocLang:全新 AI 友好文件格式發佈
媒體報導指出,Linux 基金會旗下的 LF AI & Data 基金會近期成立了工作組,致力於開發一種名為 DocLang 的 AI 友好文件格式。該工作組由 IBM、NVIDIA、Red Hat、ABBYY、HumanSignal 和 Forgis 等公司共同發起,旨在解決現有文件格式如 PDF、Markdown、HTML 和 LaTeX 在 AI 文件解析方面的不足。DocLang 被設計為優化大型語言模型(LLM)的標記器,通過一對一的標記映射來減少令牌消耗並提高準確性。ABBYY 的 AI 策略副總裁 Maxime Vermeir 在聲明中表示,DocLang 引入了最小化、標準化且 AI 原生的文檔結構表示,為現代 AI 系統提供更確定的基礎。根據 ABBYY 的初步基準測試,使用 DocLang 可將成本降低 4 到 30 倍以上,具體取決於模型和文件複雜度。例如,在處理 IBM 2025 年年度報告時,DocLang 版本的輸入令牌數從 PDF 的 8,421 減少到 5,310,延遲也從 4.2 秒降至 2.7 秒,同時提高了質量。DocLang 還有助於保留文檔來源數據和元數據,增強治理能力。媒體報導中,ABBYY 的 AI 價值與啟用主管 Jon Knisley 強調,DocLang 能帶來更好的準確性、更低的成本和更一致的輸出,目前該標準處於早期階段,但已開放邀請更多技術提供商和企業加入。
來源:媒體報導