CN121388101A基于迭代式多模态的视频问答系统及方法-转果果

彭

彭宝云机构暂无

技术领域暂无

刘

刘波机构暂无

技术领域暂无

田

田成平机构暂无

技术领域暂无

孙

孙鹏机构暂无

技术领域暂无

摘要

本发明提供的基于迭代式多模态的视频问答系统及方法，包括对输入的原始视频文件与自然语言查询进行预处理，提取关键帧序列并生成初始字幕序列；基于预处理后的自然语言查询和当前字幕序列进行多粒度检索，确定候选区域；在候选区域内以大语言模型进行细粒度帧选择，识别关键帧；基于候选区域与自然语言查询，确定待补充视觉信息的类型并生成类型对应的多模态提示词，视觉语言模型根据多模态提示词提取视觉信息更新候选区域的字幕序列；采用大语言模型和视觉语言模型生成预测答案；判断所生成预测答案的置信度，输出最终答案。本发明能够优化视频理解的处理方式，通过动态推理‑感知协调提供精确的跨模态协调解决方案。

权利要求全文暂无

暂无引用专利