CN120495957A基于多模态大语言模型的体育视频解说生成方法及系统-转果果

庄

庄棨宁机构暂无

技术领域暂无

祖

祖帅帅机构暂无

技术领域暂无

刘

刘芳机构暂无

技术领域暂无

范

范开鹏机构暂无

技术领域暂无

卢

卢志雄机构暂无

技术领域暂无

摘要

本申请基于多模态大语言模型的体育视频解说生成方法及系统，包括：获取多模态的数据集，数据集包括体育视频，以及与体育视频对应的音频与解说文本；构建多模态大语言模型，将体育视频、音频与解说文本进行编码，以使对应的视频帧、音频波形和元数据投射到共享的嵌入空间，确定多模态嵌入向量；设置多模态聚类记忆单元，对多模态嵌入向量进行分组，通过对比学习和信息熵正则化优化模态间的特征对齐；基于检索增强上下文学习机制，通过稀疏正则化距离度量检索历史实例作为当前输入多模态嵌入向量的参考输入；将当前多模态嵌入向量与参考输入联合输入到多模态大语言模型，获得体育视频解说。本申请解决了多模态信息整合不足以及上下文利用不充分的问题。

权利要求全文暂无

暂无引用专利