返回事件流

Count Anything:跨領域文本引導物體計數模型

根據HuggingFace上發布的研究論文,物體計數任務目前存在碎片化問題,現有模型多針對特定場景如人群、車輛、細胞等設計,難以跨領域泛化。為此,論文提出Count Anything,一個通用模型用於文本引導的物體計數,接受圖像和自然語言查詢作為輸入,輸出實例點集合以計數。為了支援此研究,作者構建了CLOC數據集,涵蓋六個視覺領域,包括通用場景、遙感、病理學等,包含約22萬張圖像、619個類別和1500萬個物體實例。Count Anything模型採用雙粒度實例枚舉,包括區域級稀疏計數器處理大型稀疏目標,和像素級密集計數器處理小型擁擠目標。實驗顯示,Count Anything在多領域泛化上表現優異,超越現有開源計數方法。論文代碼已公開於GitHub,為研究人員提供進一步探索的資源。

來源

來源:Hugging Face / 論文來源