失效

一种多模态融合的采访镜头检测方法

刘安安、李锦涛、张勇东、唐胜、宋砚
东莞联洲电子科技有限公司
刘安安机构 暂无
技术领域 暂无
李锦涛机构 暂无
技术领域 暂无
张勇东机构 暂无
技术领域 暂无
唐胜机构 暂无
技术领域 暂无
宋砚机构 暂无
技术领域 暂无

摘要

本发明公开了一种多模态融合的采访镜头检测方法,包括:输入未编辑的原始视频,对视频进行预处理,得到原始视频的视频流和音频流,以及视频流中的镜头、各个镜头的关键帧;根据视频预处理操作所得到的音频流建立人声模型,并依赖所建立的人声模型判断镜头是否为包含人声的镜头;根据视频预处理操作所得到的视频流建立人脸模型,并依赖人脸模型判断镜头是否为包含人脸的镜头;融合人声检测结果和人脸检测结果,如果一个镜头中同时包含人声和人脸信息,则镜头为采访镜头。本发明的优点是通过融合视频和音频信息,建立通用的基于镜头的采访检测模型,并实现了对未经编辑的原始视频的概念检测和标注。