当前超写实数字人技术面临两大痛点:一是基于传统3D建模的'美工驱动型'数字人存在成本高、周期长及生物力学仿真瓶颈;二是'2D视频驱动型'数字人受限于平面维度,缺乏全身动作控制能力。同时,新兴NeRF和3DGS神经辐射场技术存在数据采集规模大、训练耗时长、可控性差等问题,难以实现低成本规模化应用。
提出基于动态3DGS神经辐射场的高效表征方法,结合扩散生成模型与人体时空三维表征技术,实现8台相机以内数据采集、100小时内全自动生成3D超写实数字人。通过构建多模态数据库,结合表情、动作、语音、情绪的跨模态分析建立个性化驱动模型,实现真人形象、行为及特性的逼真还原。
突破'全身可驱动'与'规模化生成'技术瓶颈,显著降低数据采集规模和训练时间,提升可控性。研究成果可应用于教育、客服、文娱等场景,推动数字人成为产业升级核心生产力和虚实融合关键载体,具有显著的经济效益和社会效益。
20251104
文化、体育和娱乐业
北京市科学技术委员会;中关村科技园区管理委员会
数字人是生成式人工智能的核心发展领域,国家政策大力支持其创新应用。当前,超写实数字人技术虽在影视、客服、营销等领域实现落地,但仍面临两大技术代际鸿沟:一是基于传统3D建模的“美工驱动型”数字人成本高、周期长,且难以突破生物力学仿真瓶颈;二是“2D视频驱动型”数字人受限于平面维度,缺乏全身动作控制能力。新兴技术如NeRF和3D高斯泼溅(3DGS)神经辐射场虽为三维表征提供新路径,但仍存在数据采集规模大、训练耗时长、可控性差等问题,难以实现低成本规模化应用。 本成果旨在突破超写实数字人“全身可驱动”与“规模化生成”的技术瓶颈,提出基于动态3DGS神经辐射场的高效表征方法,结合扩散生成模型与人体时空三维表征,实现8台相机以内采集、100小时内全自动生成的3D超写实数字人。研究将构建多模态数据库,通过表情、动作、语音、情绪的跨模态分析建立个性化驱动模型,实现真人形象、行为及特性的逼真还原。 本研究成果将应用于教育、客服、文娱等场景,推动数字人成为产业升级的核心生产力和虚实融合的关键载体。
