多模态虚假新闻检测方法研究

联系合作
新一代信息技术
信息内容消费
成果单位: 北京工业大学
合作方式: 技术转让自行实施合作开发技术许可技术入股
所处阶段: 概念
关键词: 虚假新闻短视频多模态检测C3DX-CLIPHuBERTVGGishBERT自注意力协同注意力门控机制
总得分 (满分100)
0
资本强度 (满分0)
该成果得分:0

核心问题

由于视觉、听觉和文本模态间存在高度异质性、语义不一致性和时间复杂性,准确检测短视频中的多模态假新闻面临巨大挑战。现有方法依赖浅层融合或模态不变学习,无法捕捉深度跨模态依赖关系,且在噪声条件下难以处理冲突线索。

解决方案

提出FG-MoE假新闻门控专家混合框架,通过三部分实现自适应和可信度感知的多模态推理:(1)多模态异构特征提取器,集成C3D、X-CLIP、HuBERT、VGGish和BERT模型,编码时空、声学和语言表示;(2)注意力组装推理网络,利用多层自注意力和协同注意力机制增强模态内辨别和跨模态对齐;(3)假新闻门控专家混合聚合器,通过门控机制动态评估模态可靠性,选择性地激活最具信息性的专家子网进行智能融合和冲突解决。

竞争优势

在FakeSV和FakeTT数据集上实现最先进的准确性、平衡的精确率-召回率和强大的跨语言泛化能力。该框架提供可解释且可扩展的解决方案,弥合复杂视听环境中特征级融合与自适应专家推理之间的差距,具有原始创新性和技术领先性。

成果公开日期

20251201

所属产业领域

科学研究和技术服务业

转化现有基础

本成果面向短视频平台多模态假新闻智能检测需求,已完成从理论方法、算法设计到原型系统的整体研发。技术上提出了假新闻门控专家混合框架(FG-MoE),集成 C3D、X-CLIP、HuBERT、VGGish 和 BERT 等多个主干模型,实现对视频、音频、文本三模态信号的深度特征提取与异构融合;设计了注意力组装网络和门控专家聚合机制,可在噪声环境下自适应评估各模态可信度,显著提升检测准确率和鲁棒性。 已在 FakeSV、FakeTT 等真实短视频假新闻数据集上完成系统实验验证,指标达到或超过现有多模态基线模型,在准确率、F1 值以及精确率–召回率平衡方面均处于国内外同类研究前列,具备较好的跨语言与跨平台泛化能力。当前已完成核心算法实现、模型训练及离线推理系统搭建,形成可复用代码与接口文档,可在合作单位的数据与业务场景上进行进一步迁移优化并工程化部署,技术成熟度约相当于 TRL6–7(在相关环境下完成验证与示范应用)。

转化合作需求

为加快本成果的产业化落地,拟寻求与短视频平台、互联网内容平台、媒体机构、网络安全/内容审核企业等单位开展联合攻关与应用示范。 在合作方式上,希望合作方能提供: (1)与业务场景匹配的短视频数据及相应标注(假新闻、谣言、违规内容等),用于模型迁移学习与效果评估; (2)一定规模的计算资源与部署环境,包括 GPU 服务器或云算力,用于模型训练、在线推理和系统集成测试; (3)与内容安全、风控或审核相关的业务接口与规则需求,共同设计模型输出与平台策略的联动方式; (4)项目配套经费,用于算法工程化开发、系统接口对接、隐私与合规处理、运维支持等工作。 在人员方面,本方可提供算法研究与模型优化为主的技术团队,希望合作单位配备产品/运营及内容安全专家,共同完成需求梳理、效果验证、场景落地与长期迭代。

转化意向范围

可国(境)内外转让

转化预期效益

经济效益方面,本成果可作为短视频平台及内容平台的智能风控与内容审核核心模块,通过自动识别多模态假新闻和高风险内容,显著降低人工审核成本与误判率,提高审核效率和用户信息触达质量。在平台侧,可减少由于虚假信息引发的投诉、退单、品牌损失及合规处罚风险;在行业侧,可形成可复制的技术解决方案和服务产品,支撑内容安全 SaaS 服务、定制化系统集成等多种商业模式,具有可观的市场拓展空间和持续收益潜力。 社会效益方面,该技术有助于遏制短视频平台上虚假新闻、谣言和恶意操纵信息的传播,提升公众对在线信息的信任度,维护网络舆论环境的客观、理性和有序;同时满足相关监管政策和行业规范对内容安全与算法责任的要求,助力构建健康、可持续的短视频生态。通过在不同平台、不同语言场景中的推广应用,有望在更大范围内提升社会整体媒体素养和对多模态信息的辨别能力,具有显著的社会公益价值和长期战略意义。

项目名称

北京市自然科学基金本科生“启研”计划

项目课题来源

北京市科学技术委员会;中关村科技园区管理委员会

摘要

由于视觉、听觉和文本模态之间存在高度的异质性、语义不一致性和时间复杂性,准确检测短视频中的多模态假新闻仍然是一项艰巨的挑战。现有方法通常依赖于浅层融合或模态不变学习,这些方法无法捕捉深度跨模态依赖关系,并且在噪声条件下难以处理冲突线索。为了克服这些限制,我们提出了FG-MoE,这是一种新颖的假新闻门控专家混合框架,它可以执行自适应和可信度感知的多模态推理。该模型由三个主要部分组成:(1) 多模态异构特征提取器集成了C3D、X-CLIP、HuBERT、VGGish和BERT,以编码丰富的时空、声学和语言表示;(2) 注意力组装推理网络通过多层自注意力和协同注意力机制增强模态内辨别和跨模态对齐;(3) 假新闻门控专家混合聚合器通过门控机制动态评估模态可靠性,并选择性地激活最具信息性的专家子网进行智能融合和冲突解决。在两个真实世界的短视频假新闻数据集FakeSV和FakeTT上进行的大量实验表明,FG-MoE实现了最先进的准确性、平衡的精确率-召回率和强大的跨语言泛化能力。所提出的框架为多模态错误信息检测提供了一种可解释且可扩展的解决方案,弥合了复杂视听环境中特征级融合与自适应专家推理之间的差距。

试试对话AI技术经理人
WENXIAOGUO
问小果
该成果有哪些相似成果?
该成果可能有哪些需求方?
该成果的市场前景如何?
北京工业大学的相关成果还有哪些?