研究06/02 24:10

Count Anything：跨領域文本引導物體計數模型

根據HuggingFace上發布的研究論文，物體計數任務目前存在碎片化問題，現有模型多針對特定場景如人群、車輛、細胞等設計，難以跨領域泛化。為此，論文提出Count Anything，一個通用模型用於文本引導的物體計數，接受圖像和自然語言查詢作為輸入，輸出實例點集合以計數。為了支援此研究，作者構建了CLOC數據集，涵蓋六個視覺領域，包括通用場景、遙感、病理學等，包含約22萬張圖像、619個類別和1500萬個物體實例。Count Anything模型採用雙粒度實例枚舉，包括區域級稀疏計數器處理大型稀疏目標，和像素級密集計數器處理小型擁擠目標。實驗顯示，Count Anything在多領域泛化上表現優異，超越現有開源計數方法。論文代碼已公開於GitHub，為研究人員提供進一步探索的資源。

來源

來源：Hugging Face / 論文來源

Hugging Face / 論文來源Count Anything