科學島團隊提出零樣本視頻理解新框架DYTO

作者：吳銀亭發(fā)布時間：2025-12-05【打印】【關(guān)閉】

近日，中國科學院合肥物質(zhì)院智能所運動健康團隊丁增輝研究員聯(lián)合芝加哥大學團隊，在國際上提出一種零樣本視頻理解動態(tài)令牌合并框架DYTO（Dynamic Token Merging framework for zero-shot video understanding），首次在視頻理解中系統(tǒng)引入了類腦式的動態(tài)選擇與壓縮機制，為解決“效率-語義”權(quán)衡問題提供了新路徑，為智慧醫(yī)療、在線視頻分析、人機交互等應(yīng)用場景的高效AI落地奠定了技術(shù)基礎(chǔ)。該成果入選國際計算機視覺頂級會議ICCV 2025。

近年來，多模態(tài)大模型（MLLMs）極大推動了視頻理解的發(fā)展，但高效、精準的零樣本視頻理解仍面臨挑戰(zhàn)。傳統(tǒng)方法依賴大量標注數(shù)據(jù)和計算資源進行微調(diào)，而現(xiàn)有免訓練方法雖效率高，卻在復雜視頻中難以兼顧語義完整性與上下文連貫性。如何在計算效率與語義豐富性之間取得智能平衡，成為該領(lǐng)域的關(guān)鍵難題。

DYTO框架借鑒人腦處理視覺信息的核心機制，提出一種完全無需訓練的動態(tài)令牌合并方法。其突破在于通過“分層注意力選擇”與“自適應(yīng)信息壓縮”兩大策略，在計算效率與語義理解之間實現(xiàn)高效平衡。DYTO可無縫接入現(xiàn)有圖像MLLMs，顯著提升零樣本視頻理解性能，并具備進一步強化已微調(diào)模型的潛力。該框架的技術(shù)創(chuàng)新主要體現(xiàn)在以下三個方面：首先，DYTO模擬人腦的對運動、高對比的信息的“選擇性注意力機制”，通過分層聚類分析視頻幀的語義表示（CLS令牌），自動識別并聚焦于關(guān)鍵事件片段，避免對冗余信息的均勻處理，實現(xiàn)高效的事件感知與時間結(jié)構(gòu)建模。其次，受大腦信息壓縮與抽象記憶機制的啟發(fā)，DYTO采用動態(tài)二分圖令牌合并策略，依據(jù)每幀內(nèi)容自適配地合并語義相近的視覺令牌，在減少計算負擔的同時，最大程度保留語義完整性，避免信息丟失與語義失真。最后，通過模仿大腦從局部到整體的認知過程，DYTO將分層聚類與令牌合并相結(jié)合，實現(xiàn)從幀級視覺特征到事件級語義結(jié)構(gòu)的遞進式理解，增強對長視頻復雜內(nèi)容的整體把握能力。

實驗結(jié)果證實DYTO全面刷新SOTA基準。在視頻問答任務(wù)的NExTQA、EgoSchema、MVBench等多個權(quán)威基準上，DYTO的表現(xiàn)全面超越了所有免訓練方法，甚至應(yīng)用在圖像模型上也會優(yōu)于許多經(jīng)過視頻微調(diào)的模型。

博士研究生張一鳴為論文第一作者，丁增輝研究員為通訊作者。該研究獲國家重點研發(fā)計劃等項目支持。

文章鏈接：https://openaccess.thecvf.com/content/ICCV2025/html/Zhang_Beyond_Training_Dynamic_Token_Merging_for_Zero-Shot_Video_Understanding_ICCV_2025_paper.html

圖1：DYTO 技術(shù)框架的模型

科研進展

科學島團隊提出零樣本視頻理解新框架DYTO

相關(guān)鏈接

附件下載