CN101316327B一种多模态融合的采访镜头检测方法-转果果

刘

刘安安机构暂无

技术领域暂无

李

李锦涛机构暂无

技术领域暂无

张

张勇东机构暂无

技术领域暂无

唐

唐胜机构暂无

技术领域暂无

宋

宋砚机构暂无

技术领域暂无

摘要

本发明公开了一种多模态融合的采访镜头检测方法，包括：输入未编辑的原始视频，对视频进行预处理，得到原始视频的视频流和音频流，以及视频流中的镜头、各个镜头的关键帧；根据视频预处理操作所得到的音频流建立人声模型，并依赖所建立的人声模型判断镜头是否为包含人声的镜头；根据视频预处理操作所得到的视频流建立人脸模型，并依赖人脸模型判断镜头是否为包含人脸的镜头；融合人声检测结果和人脸检测结果，如果一个镜头中同时包含人声和人脸信息，则镜头为采访镜头。本发明的优点是通过融合视频和音频信息，建立通用的基于镜头的采访检测模型，并实现了对未经编辑的原始视频的概念检测和标注。

权利要求全文暂无

US2005125223A1US2005125223A1 US20040122675A1US20040122675A1 US20060227237A1US20060227237A1