欧美国产在线播放欧_国产大片免费在线观看_黄色大片在线视频_亚洲国产精品欧美日韩一区二区_精品人妻va一区二区三区_99久久无码一区人妻A片蜜_国产高清精品久久久w影院_亚洲自偷自拍熟女另类_日韩一级色片免费_98国产精品午夜免费福利视频

科研進展

當前位置:首頁 > 科學研究 > 科研進展

科學島團隊提出零樣本視頻理解新框架DYTO

作者:吳銀亭發(fā)布時間:2025-12-05【打印】【關(guān)閉】

近日,中國科學院合肥物質(zhì)院智能所運動健康團隊丁增輝研究員聯(lián)合芝加哥大學團隊,在國際上提出一種零樣本視頻理解動態(tài)令牌合并框架DYTO(Dynamic Token Merging framework for zero-shot video understanding),首次在視頻理解中系統(tǒng)引入了類腦式的動態(tài)選擇與壓縮機制,為解決“效率-語義”權(quán)衡問題提供了新路徑,為智慧醫(yī)療、在線視頻分析、人機交互等應(yīng)用場景的高效AI落地奠定了技術(shù)基礎(chǔ)。該成果入選國際計算機視覺頂級會議ICCV 2025。

近年來,多模態(tài)大模型(MLLMs)極大推動了視頻理解的發(fā)展,但高效、精準的零樣本視頻理解仍面臨挑戰(zhàn)。傳統(tǒng)方法依賴大量標注數(shù)據(jù)和計算資源進行微調(diào),而現(xiàn)有免訓練方法雖效率高,卻在復雜視頻中難以兼顧語義完整性與上下文連貫性。如何在計算效率與語義豐富性之間取得智能平衡,成為該領(lǐng)域的關(guān)鍵難題。

DYTO框架借鑒人腦處理視覺信息的核心機制,提出一種完全無需訓練的動態(tài)令牌合并方法。其突破在于通過“分層注意力選擇”與“自適應(yīng)信息壓縮”兩大策略,在計算效率與語義理解之間實現(xiàn)高效平衡。DYTO可無縫接入現(xiàn)有圖像MLLMs,顯著提升零樣本視頻理解性能,并具備進一步強化已微調(diào)模型的潛力。該框架的技術(shù)創(chuàng)新主要體現(xiàn)在以下三個方面:首先,DYTO模擬人腦的對運動、高對比的信息的“選擇性注意力機制”,通過分層聚類分析視頻幀的語義表示(CLS令牌),自動識別并聚焦于關(guān)鍵事件片段,避免對冗余信息的均勻處理,實現(xiàn)高效的事件感知與時間結(jié)構(gòu)建模。其次,受大腦信息壓縮與抽象記憶機制的啟發(fā),DYTO采用動態(tài)二分圖令牌合并策略,依據(jù)每幀內(nèi)容自適配地合并語義相近的視覺令牌,在減少計算負擔的同時,最大程度保留語義完整性,避免信息丟失與語義失真。最后,通過模仿大腦從局部到整體的認知過程,DYTO將分層聚類與令牌合并相結(jié)合,實現(xiàn)從幀級視覺特征到事件級語義結(jié)構(gòu)的遞進式理解,增強對長視頻復雜內(nèi)容的整體把握能力。

實驗結(jié)果證實DYTO全面刷新SOTA基準。在視頻問答任務(wù)的NExTQA、EgoSchema、MVBench等多個權(quán)威基準上,DYTO的表現(xiàn)全面超越了所有免訓練方法,甚至應(yīng)用在圖像模型上也會優(yōu)于許多經(jīng)過視頻微調(diào)的模型。

博士研究生張一鳴為論文第一作者,丁增輝研究員為通訊作者。該研究獲國家重點研發(fā)計劃等項目支持。

文章鏈接:https://openaccess.thecvf.com/content/ICCV2025/html/Zhang_Beyond_Training_Dynamic_Token_Merging_for_Zero-Shot_Video_Understanding_ICCV_2025_paper.html

圖1:DYTO 技術(shù)框架的模型

附件下載

康马县| 吕梁市| 钦州市| 寿阳县| 六安市| 新余市| 余姚市| 博野县| 绍兴县| 蓬安县| 麻阳| 资阳市| 黑水县| 焉耆| 安平县| 沙田区| 阿坝| 华安县| 南通市| 金门县| 林口县| 乾安县| 拜泉县| 疏附县| 沈丘县| 大名县| 葵青区| 江油市| 吉林市| 隆昌县| 承德县| 海盐县| 惠来县| 卢湾区| 张掖市| 乌审旗| 抚远县| 罗田县| 德庆县| 晴隆县| 清水河县|