可解释的视频小样本持续学习研究

关注

联系合作

成果单位：北京科技大学

合作方式：自行实施技术转让技术许可合作开发技术入股

所处阶段：概念

关键词：智能监控安防领域医疗影像自动驾驶智能交通知识图谱图胶囊网络抗遗忘学习弱监督定位多专家校准

成果评价

总得分（满分100）

资本强度（满分0）

该成果得分：0

小果解读

核心问题

随着视频大数据的爆发式增长，全面准确理解海量未标注视频的语义概念成为视频理解任务的主要挑战。现有小样本视频理解方法因缺乏知识引导和可解释性，难以适应非平稳动态环境，导致实际应用可靠性不足。

解决方案

本项目提出可解释的视频小样本持续学习方法，包括：1) 构建领域跨模态知识图谱，实现高效全面的领域知识统一表示；2) 研究知识驱动的可解释视频时空特征抽取方法，提高小样本环境下的视频语义理解；3) 开发基于知识回传的抗遗忘学习和动态知识迁移方法，增强模型在非平稳环境中的持续学习能力。通过这三方面研究，本项目有效解决了领域知识组织难、视觉感知表征难和动态环境泛化难的问题。

竞争优势

本项目方法在多个开源视频数据集上取得了显著成果，并发表了多篇高水平论文。其创新点在于结合了知识图谱、可解释性特征抽取和抗遗忘学习等技术，显著提升了视频理解模型在缺乏标注数据和非平稳环境中的泛化能力与识别精度。此外，该方法在智能监控、医疗影像分析、自动驾驶等领域具有广泛的应用前景，能够减少人工干预、降低成本、提高效率，具有显著的经济和社会价值。

成果描述

成果公开日期

2025-01-03

所属产业领域

信息传输、软件和信息技术服务业

转化现有基础

具有多项应对开放世界、复杂动态环境、弱监督环境、样本量缺乏环境的视频理解算法。

转化合作需求

合作方应提供部署环境与后续维护的资金支持。

转化意向范围

可国（境）内外转让

转化预期效益

该技术可以应用于多个领域，例如，在医疗影像分析方面，本项目的技术能够提升医学影像自动分析的准确性，降低诊断成本，提高医疗服务质量，特别是在医疗资源短缺的地区，减少诊断盲点，改善健康状况。此外，在自动驾驶与智能交通领域，视频理解技术提供了更加可靠的动态环境识别能力，为智能交通系统的发展提供技术支持，推动智慧城市建设和智能交通产业的经济增长。预期能有较高的效益。

项目名称

北京市自然科学基金青年项目

项目课题来源

北京市科学技术委员会;中关村科技园区管理委员会

摘要

随着移动互联网的发展，视频大数据呈现爆发式增长。面对缺乏标注的海量视频大数据，全面、准确地理解其中的语义概念成为视频理解任务亟待解决的问题。现有的小样本视频理解方法缺乏知识引导,忽略了模型决策过程中的可解释性，难以克服非平稳的动态环境的泛化难题，因而无法在实际场景中可靠地应用。针对此问题，本项目拟研究可解释的视频小样本持续学习方法，主要研究内容有：1）针对领域知识组织难、缺乏足够训练样本问题，研究领域跨模态知识图谱与知识智能生长，构建高效全面的领域知识统一表示；2）针对视觉感知表征难、缺乏可解释性的问题，研究知识驱动的可解释视频时空特征抽取和跨时空图胶囊网络方法，进行小样本环境下视频跨时空语义的可解释量化分析；3）针对动态环境泛化难、模型在非平稳环境中不可持续学习的问题，研究基于知识回传的抗遗忘学习和动态环境下的知识迁移方法，并开发面向非平稳环境的可解释视频小样本持续学习验证系统。具体地，本项目针对领域知识组织难、视觉感知表征难、动态环境泛化难等挑战，提出了创新的解决方法。首先，针对第一个关键科学问题，提出了基于外部知识图谱的开放场景视频理解方法，通过建立已知与未知类别的关联，提升系统在开放环境中的识别能力，提升了模型在实际应用中的泛化能力与识别精度，尤其在缺乏标注数据的开放场景中取得了显著优势。相关成果在开放场景视频理解领域取得了最佳性能，以第一作者发表IEEE Transactions on Multimedia（中科院一区TOP论文，影响因子：8.4）论文一篇。其次，针对第二个关键科学问题，提出了弱监督时序动作定位与候选区感知重排序方法，结合时间上下文信息提高了动作定位的精度，有效提升视频理解模型的可解释性。相关成果实现了最先进的模型定位能力，以第一作者发表IEEE Transactions on Circuits and Systems for Video Technology（中科院一区TOP论文，影响因子：8.3）论文一篇。最后，针对第三个关键科学问题，提出了基于长尾分布的多专家校准方法与基于扩散模型的长尾分布视频分类方法，显著提升了尾部类别识别的准确性，改善模型在非平稳环境中的泛化能力。相关成果均取得了最佳的分类性能，以第一作者发表IEEE Transactions on Multimedia（中科院一区TOP论文，影响因子：8.4）论文一篇，以第一作者发表Multimedia Systems（中科院三区论文，影响因子：3.5）论文一篇。总体来说，以上方法在多个开源视频数据集上验证取得了显著成果，并发表了多篇高水平论文。研究内容能够提升非平稳环境中的模型可靠性与可解释性，在多个实际应用领域具有显著的经济和社会价值。例如，在智能监控与安防领域，通过提升视频理解系统的准确性与可靠性，能够减少人工干预，提高效率，降低运维成本，进而提升公共安全管理水平，保护人民生命财产安全。在医疗影像分析方面，本项目的技术能够提升医学影像自动分析的准确性，降低诊断成本，提高医疗服务质量，特别是在医疗资源短缺的地区，减少诊断盲点，改善健康状况。此外，在自动驾驶与智能交通领域，视频理解技术提供了更加可靠的动态环境识别能力，为智能交通系统的发展提供技术支持，推动智慧城市建设和智能交通产业的经济增长。