在审

基于迭代式多模态的视频问答系统及方法

彭宝云、刘波、田成平、孙鹏
中国人民解放军军事科学院战略评估咨询中心
彭宝云机构 暂无
技术领域 暂无
刘波机构 暂无
技术领域 暂无
田成平机构 暂无
技术领域 暂无
孙鹏机构 暂无
技术领域 暂无

摘要

本发明提供的基于迭代式多模态的视频问答系统及方法,包括对输入的原始视频文件与自然语言查询进行预处理,提取关键帧序列并生成初始字幕序列;基于预处理后的自然语言查询和当前字幕序列进行多粒度检索,确定候选区域;在候选区域内以大语言模型进行细粒度帧选择,识别关键帧;基于候选区域与自然语言查询,确定待补充视觉信息的类型并生成类型对应的多模态提示词,视觉语言模型根据多模态提示词提取视觉信息更新候选区域的字幕序列;采用大语言模型和视觉语言模型生成预测答案;判断所生成预测答案的置信度,输出最终答案。本发明能够优化视频理解的处理方式,通过动态推理‑感知协调提供精确的跨模态协调解决方案。

暂无引用专利