AIxiv专栏是呆板之心宣布学术、技巧内容的栏目。从前数年,呆板之心AIxiv专栏接受报道了2000多篇内容,笼罩寰球各年夜高校与企业的顶级试验室,无效增进了学术交换与传布。假如你有优良的任务想要分享,欢送投稿或许接洽报道。投稿邮箱:
[email protected];
[email protected]明天向各人先容一项来自喷鼻港年夜学黄超教学试验室的最新科研结果 VideoRAG。这项翻新性的研讨冲破了超长视频懂得义务中的时长限度,仅笔据张 RTX 3090 GPU (24GB) 就能高效懂得数百小时的超长视频内容。论文题目:VideoRAG: Retrieval-Augmented Generation withExtreme Long-Context Videos论文链接:https://arxiv.org/abs/2502.01549代码开源地点:https://github.com/HKUDS/VideoRAG试验室主页:https://github.com/HKUDSVideoRAG 采取了翻新的多模态常识索引框架,将这些海量视频内容稀释为简练、构造化的常识图谱,从而支撑跨视频推理。其多模态检索范式可能无效对齐文本语义与视觉内容,确保从多个长视频中精准检索出相干片断,天生片面而准确的答复。别的,研讨团队还树立了全新的 LongerVideos 基准数据集,包括 160+ 个视频,涵盖了讲座、记录片跟文娱等种别,为该范畴的将来研讨供给了无力支撑。总的来说,VideoRAG 领有以下上风:高效懂得数百小时的超长视频内容将视频内容稀释为构造化的常识图谱采取多模态检索以精准呼应查问 树立了全新的长视频基准数据集研讨配景RAG (Retrieval-Augmented Generation)技巧经由过程在推理阶段引入外部常识,明显加强了预练习年夜言语模子(LLM)的才能。但是,以后成熟的 RAG 框架重要聚焦于文本事域,在视频懂得义务中的利用仍面对诸多限度。视频数据包括丰盛的视觉、语音跟文本等多模态异构信息,尤其是在处置超长视频(如系列讲座、记录片)时,跨视频语义关系跟长时序依附建模成为两年夜中心挑衅。现有的端到端方式受限于高低文长度或 GPU 显存,难以高效处置长达数小时乃至更长的视频内容;而其余框架平日采取截断或分片处置战略,招致高低文信息割裂,跨视频常识整合艰苦。别的,怎样在年夜范围视频库中高效检索相干内容还是亟待处理的困难。针对上述挑衅,咱们提出了一种翻新的 RAG 框架 ——VideoRAG,旨在实现高效且片面的超长视频懂得。在索引阶段,VideoRAG 采取双通道索引架构,经由过程构建文本常识图谱建模跨视频片断的语义关系与时序依附,并联合层级化的多模态特点编码,保存细粒度的视频信息;在检索阶段,引入自顺应混杂检索范式,融会常识图谱与多模态特点嵌入,精准辨认与查问最相干的视频内容。在首个超长跨视频懂得基准数据集 LongerVideos 上的多维度评价标明,VideoRAG 展示了出色的长视频懂得才能,为庞杂视频场景下的常识提取与整合供给了新的处理计划。VideoRAG 框架计划VideoRAG 经由过程多模态常识索引跟常识驱动的信息检索,高效地捕获、构造跟检索视频中的视觉、音频跟语义信息,支撑为无穷时长的视频输入天生正确的呼应,为懂得超长视频供给了全新的处理计划。双通道多模态视频常识索引与传统文本文档差别,视频经由过程视觉、音频跟文本等多模态通报信息。传统的文本 RAG 方式在视频内容懂得上存在明显范围,重要表现在无奈直接捕获视觉静态、难以坚持视频帧间的时光依附性,以及难以处置视觉与文本之间的跨模态交互。VideoRAG 采取双通道架构,高效构造跟索引长时光视频内容,同时保存多模态信息的语义丰盛性:基于图的文本常识对齐视觉 - 文本对齐:将视频平均分别为多个短片断,并从每个片断中平均采样不超越 10 帧,以高效提取要害视觉元素。随后经由过程视觉言语模子(VLM)天生天然言语描写,捕获工具、举措跟场景静态;音频 - 文本对齐:经由过程主动语音辨认(ASR)技巧转录视频中的对话跟叙说,并与视觉描写融会,天生同一的语义表现;跨视频常识图谱:基于年夜言语模子(LLMs)辨认实体与关联,构建全局常识图谱,并支撑增量式跨视频语义整合(照实体兼并、静态演变),确保跨视频内容的分歧性与关系性。多模态高低文编码 应用多模态编码器将视觉信息与文本查问映射到统一特点空间,实现高效的语义检索,同时保存难以经由过程文本描写的视觉细节,如光照变更跟庞杂工具特点。混杂多模态检索范式咱们提出了一个翻新的多模态检索方式,联合语义懂得跟视觉高低文,精准辨认与查问相干且信息量丰盛的视频片断,天生更正确的答复:文本语义婚配:经由过程常识图谱中的实体婚配找到相干文本块,包含查问重构、实体婚配、文本块抉择跟视频片断检索等步调;视觉内容婚配:将查问重写为描写性语句,与多模态编码器编码的视频片断嵌入停止跨模态检索;LLM 过滤机制:应用 LLMs 进一步评价视频片断的相干性,天生要害词以综合相干信息,确保天生的答复既合乎语义连接性,又与查问高度相干。内容整合与呼应天生在检索到相干的视频片断后,咱们实现了两阶段的内容提取进程。起首,咱们经由过程 LLMs 从查问中提取要害词,而后与采样帧一起作为 VLM 的输入,天生更具体的视觉描写。终极,VideoRAG 应用通用的年夜言语模子(如 GPT-4 或 DeepSeek )依据查问跟检索到的内容天生正确的呼应。试验评价咱们在首个超长跨视频懂得基准数据集 LongerVideos 上对 VideoRAG 停止了片面的实证评价,涵盖了与现有 RAG 方式(NaiveRAG、GraphRAG、LightRAG)、支撑超长视频输入的 LVMs(LLaMA-VID、NotebookLM、VideoAgent)的机能对照,以及模子组件的融化试验(-Graph、-Vision)跟详细案例剖析。LongerVideos 基准数据集与评价指标咱们构建了 LongerVideos 数据集,包括 164 个视频(总时长超越 134 小时),涵盖讲座、记录片跟文娱三年夜种别,最长视频是完全的《黑悟空》游戏通关攻略视频,长达约 21.36 小时。LongerVideos 支撑对跨视频推理才能的评价,攻破了以后视频问答基准数据会合广泛存在的单视频时长缺乏 1 小时跟单视频懂得场景的限度。咱们采取两种评价协定来权衡模子的机能:胜率评价:应用基于 LLM 的断定,经由过程 GPT-4o-mini 对差别模子天生的答复停止排名,并供给说明性反应;定量评价:在胜率比拟的基本上,参加分数评定,为每个查问设定尺度谜底,并采取 5 分制(1 为最差,5 为最好)停止评价。咱们从五个维度对模子停止评价:片面性(Comprehensiveness):评价答复笼罩的广度;赋能性(Empowerment):评价答复怎样辅助读者更好地舆解跟做出断定;可托度(Trustworthiness):评价答复的可托度,包含细节信息的充足性跟与知识的分歧性;深度(Depth):评价答复能否具有深刻剖析;信息密度(Density):评价答复中相干信息的稀释水平,防止冗余。机能对照与 RAG 方式对照(应用胜率评价): VideoRAG 的出色机能:VideoRAG 在 全部维度指标跟全部视频范例 上均明显优于 NaiveRAG、GraphRAG 跟 LightRAG 等基线。阐明基于常识图与多模态高低文编码的索引可能无效捕获跟构造视频中的视觉静态跟语义信息,别的混杂多模态检索范式经由过程将文本语义婚配与基于视觉内容嵌入的检索相联合,无效晋升了跨视频检索精度;进一步基线模子对照剖析:相较于 NaiveRAG,VideoRAG 在片面性跟赋能性维度存在更为明显的上风,源于咱们经由过程高效的常识索引框架整合跨视频信息,实现更片面的检索与天生。相较于 GraphRAG 跟 LightRAG,VideoRAG 依靠多模态高低文融会跟查问感知检索,在视觉 - 文本信息对齐跟精准内容抉择上更具上风,使答复更具语境连接性跟懂得深度,在常识驱动的视频问答义务中明显当先。与支撑超长视频输入的 LVMs 模子对照(应用定量评价,以 NaiveRAG 为基线):VideoRAG 在 全部维度指标跟全部视频范例 上均明显优于 LLaMA-VID、NotebookLM 跟 VideoAgent 等基线,改良重要归因于:加强的长高低文建模:经由过程图加强的多模态索引与检索机制,VideoRAG 无效处置跨视频常识衔接跟依附关联,超出了 LLaMA-VID 等模子在处置长视频时的盘算限度;出色的多模态融会:VideoRAG 善于融会视觉、音频跟文本信息,供给更精致的跨模态对齐与片面懂得,显明优于专一于单一模态的模子,如 VideoAgent(视觉)跟 NotebookLM(语音转录)。融化试验为了评价 VideoRAG 框架中多模态索引跟检索计划的无效性,咱们停止了两种模子变体的融化试验:变体 1(-Graph):去除了基于图的索引 - 检索管道,限度了模子在跨视频关联树立上的才能;变体 2(-Vision):去除了多模态编码器中的视觉索引跟检索组件。试验成果标明:去除图形模块(-Graph):机能明显降落,验证了基于图的索引 - 检索机制在捕获庞杂的跨视频关联跟树立跨视频常识依附方面的要害感化;去除视觉模块(-Vision):机能明显降落,证实了视觉信息处置跟多模态高低文融会对视频懂得至关主要性。案例剖析为了片面评价 VideoRAG 的才能,咱们对查问 “评分者在强化微调中的感化” 停止案例剖析。该查问来自 OpenAI 2024 年宣布的 12 天视频系列(时长约 3.43 小时),目的信息位于第 2 天的内容中。咱们展现了 VideoRAG 的呼应及对应检索到的视频片断。剖析标明,VideoRAG 胜利提取了第 2 天的相干内容:评分员的基础观点、评分体系的操纵机制、局部打分示例,并应用检索信息构建具体且有据可依的谜底。与 LightRAG 的对照剖析表现,VideoRAG 在细节跟技巧深度上显明优于 LightRAG。固然两者都描写了评分体系的中心观点,但 LightRAG 在说明 “评分员评分机制” 时缺少要害技巧细节,而 VideoRAG 供给了更片面且精准的技巧说明。该案例研讨验证了 VideoRAG 在以下三个方面的无效性:准确构建常识图谱,捕获庞杂关联;高精度的多模态信息检索;无效处置跟综合多个超长视频中的信息。论断本文先容了 VideoRAG,一个针对超长视频懂得的框架。经由过程将基于常识图谱的文本信息跟多模态高低文编码无缝集成,VideoRAG 能高效处置、索引跟检索长视频中的丰盛信息。在 LongerVideos 基准上的实证评价标明,VideoRAG 在多个维度上超出了现有的 RAG 方式跟长视频懂得模子,其中心奉献包含:准确的视频常识构造构建:无效构造跨视频信息,捕获庞杂关联;高效的多模态信息检索:融会视觉、音频跟文本信息,供给更正确、过细的检索成果;强盛的长视频处置才能:冲破高低文长度跟盘算限度,处置多个超长视频的跨视频信息。