语音交互驱动的自主智能数字人系统研发及行业应用

联系合作
新一代信息技术
信息内容消费
成果单位: 云知声智能科技股份有限公司
合作方式: 技术许可自行实施合作开发
所处阶段: 产业化
关键词: 轨交服务康养陪伴虚拟直播智能客服教育娱乐元宇宙行业大模型高鲁棒语音识别富情感合成扩散模型技术混合表情表征语音驱动方案
总得分 (满分100)
0
资本强度 (满分0)
该成果得分:0

核心问题

当前数字人产业面临的关键技术瓶颈,包括数字人表现不够'智能'、交互不够'自然'的问题。市场迫切需求高自然度、低成本且具备自主智能交互能力的数字人技术,以解决传统数字人在复杂环境下的交互局限性和表现力不足的问题。

解决方案

围绕数字人'智能性'与'自然性'核心难题,通过四大任务的技术创新构建系统:

  1. 突破行业大模型技术,研发基于行业大模型的数字人思维系统,参数规模≥50B,支持智能决策;
  2. 实现复杂环境下高鲁棒语音识别与富情感合成,字识别准确率在强噪声环境下达96.43%,合成语音自然度MOS值达4.728;
  3. 创新扩散模型技术,实现文本/语音到3D数字人形象的精准生成,身份相似度达0.9413,文本匹配度CLIP Score为0.3627;
  4. 提出混合表情表征与语音驱动方案,支持229个基础表情单元,表情与语音语义同步协调度达0.85,动作与语音同步协调度FID为2.977。

竞争优势

  1. 技术领先性:模型参数规模≥50B,预测准确率达93.6%,通用能力测试准确率达88.73%,多轮对话支持5轮以上输入,上文指代准确率超80%;
  2. 交互自然度:复杂环境下语音识别准确率达96.43%,合成语音自然度MOS值远超≥4.4的技术指标;
  3. 形象生成精度:3D纹理生成身份相似度超过≥0.9的考核指标,文本匹配度高于≥0.35的要求;
  4. 响应效率:表情表征系统响应时间稳定在8.053ms,无需神经网络实时推理;
  5. 应用广泛性:可广泛应用于轨交服务、康养陪伴、虚拟直播、智能客服等多元场景,未来可拓展至教育、娱乐、元宇宙等领域,推动数字内容生产规模化,助力产业数字化转型。

成果公开日期

20251030

所属产业领域

信息传输、软件和信息技术服务业

转化现有基础

经过一年多的项目开发、测试、试点,虽然课题所有的研发和实施任务均已完成,各项性能目标和知识产权目标也已经达成。研发方面,团队对标行业前沿热点以及技术方向,通过发展大模型数字人思维系统从通用—专业—端侧技术路线,快速适配各类行业应用问题,数字人对标人类专家知识水平,致力于实现极低成本人机协同,并提高严肃场景的应用水准。

转化合作需求

一、预期经济效益 依托成熟的场地、设备及人才基础,通过工程化项目资金支持,快速推进轨交、康养、车载等垂类场景示范应用落地,预计年承接场景定制化项目收入超千万元。资金将保障项目运营、人员薪酬等核心成本,支撑团队承接更多跨区域、规模化项目,逐步扩大市场份额,3年内实现累计营收超五千万元。 项目落地将带动上下游配套产业发展,如为车载场景配套的边缘计算硬件采购、轨交场景的终端设备集成等,预计间接带动产业链增长,形成“技术输出-场景落地-产业联动”的盈利闭环。 为轨交、康养等行业客户提供成熟的数字人解决方案,替代传统人工服务(如人工客服、康养陪护),帮助客户降低30%以上的长期运营成本,提升服务效率,增强客户粘性,促进项目续约与口碑传播。 二、预期社会效益 在轨交场景,数字人客服将提升乘客咨询响应速度与换乘指引精准度,缓解高峰时段服务压力;在康养场景,数字陪伴助手将填补独居老人情感陪伴与健康监测缺口;在车载场景,无干扰交互数字人将降低驾驶安全隐患,全方位提升民众出行与生活质量。 带动就业方面,覆盖算法优化、场景适配等岗位,带动高质量就业。通过项目实战,持续培养兼具技术研发与行业应用能力的跨学科人才,助力数字人产业人才生态建设。 项目成果将为垂类行业提供可复用的数字人工程化方案,加速人工智能技术在公共服务、养老、交通等领域的落地渗透,响应“人工智能+”行动号召,助力服务业从传统模式向智能化转型,提升行业整体服务水平与创新能力。

转化意向范围

可国(境)内外转让

项目课题来源

北京市科学技术委员会;中关村科技园区管理委员会

摘要

一、成果来源 项目成果由云知声智能科技股份有限公司、北京航空航天大学、北京林业大学共同研发完成。 本课题深刻把握当前数字人产业发展的核心脉搏,直面市场对于高自然度、低成本且具备自主智能交互能力的数字人技术的迫切需求。针对当前行业普遍存在的数字人表现不够"智能"、交互不够"自然"的关键技术瓶颈,我们确立了明确的研究目标:研发行业大模型作为数字人的“大脑”,研发语音驱动的3D数字人生成及智能交互系统,主要突破大模型的领域增强和推理加速技术、高鲁棒性的语音识别及富情感的语音合成技术、基于扩散模型的文本或语音生成3D数字人形象技术;以"高自然度的语音驱动表情及动作生成技术"为核心,系统性地攻克并突破表情表征系统及迁移、语音情绪分析及跨模态驱动等关键技术,最终研发一套技术领先、体验流畅的语音驱动数字人自主智能交互系统。 二、技术原理 课题围绕数字人“智能性”与“自然性”核心难题,通过四大任务的技术创新,构建了语音交互驱动的自主智能数字人系统。任务一突破行业大模型技术,赋予数字人强大的逻辑推理与行业知识应用能力,支撑智能决策;任务二实现复杂环境下高鲁棒语音识别与富情感合成,让交互更自然;任务三创新扩散模型技术,实现文/语音到3D数字人形象的精准生成;任务四提出混合表情表征与语音驱动方案,让数字人表情动作与语音高度协同。 三、关键性技术指标 1、基于行业大模型的数字人思维系统 项目研发基于行业大模型的数字人思维系统1套。模型参数规模大于50B(满足≥500亿参数规模需求)的基础上,在涌现能力测试中,通过专用脚本在GSM8K中文版数据集上的测评显示,预测准确率达93.6%;在CEVAL等多学科综合性评测集上,通用能力测试准确率达88.73%,满足≥80分的要求。 车载领域测试中,单轮单意图、多轮单意图及多意图识别准确率分别达98.74%、98.87%,均远超75%的指标;轨交领域知识问答、意图理解、关键信息抽取通过率分别为89.3%、90%、82%,满足行业需求;康养领域综合准确率达96.67%。多轮对话支持5轮以上输入,上文指代准确率超80%。 2、复杂环境下的拟人化语音交互技术 在强噪声环境(SNR≤5dB)下对包含童声、中英文混杂的10000条测试音频展开测试,字识别准确率达96.43%。针对20句富情感文本的专项测试显示,合成语音自然度MOS值达4.728,远超≥4.4的技术指标。 3、基于扩散模型的文/语音生3D数字人形象系统 在FFHQ数据集上,基于图像的3D纹理生成身份相似度达到0.9413,超过≥0.9的考核指标;基于文本的3D人脸形象生成文本匹配度平均CLIP Score为0.3627,高于≥0.35的要求。 4、高自然度的语音驱动表情和动作生成技术 在表情表征系统方面,我们创新性地提出了以骨骼蒙皮为基础、结合Blend Shape于一体的混合表情表征方案,成功将表情表征系统支持的基础表情单元扩充至229个。表情基础建设通过将表情分解为预先定义的模块化基本表情单元,实现了无需神经网络实时推理的驱动方式,系统响应时间稳定在8.053ms。口型表征方面,我们定义了21个不受特定语言限制的视素信息,建立了音素到视素的映射规则,表情与语音语义的同步协调度达到了0.85,远超≥0.4的考核要求。 动作与语音语义的同步协调度FID达到了2.977,远低于考核指标要求的≤8.0。 四、应用前景 项目充分发挥团队的优势,建立了高效的产学研协同创新机制,促进了知识、技术、人才的流动与共享。 本课题的数字人突破大模型的领域增强和推理加速技术、高鲁棒性的语音识别及富情感的语音合成技术、基于扩散模型的文本或语音生成3D数字人形象技术、高自然度的语音驱动表情及动作技术,可广泛应用于轨交服务、康养陪伴、虚拟直播、智能客服等多元场景。依托高效的模型架构与数据集资源,能快速生成高自然度数字人形象,实现智能交互与动态响应,大幅降低行业应用门槛。目前成果已在多个领域落地,未来可进一步拓展至教育、娱乐、元宇宙等场景,推动数字内容生产规模化,助力产业数字化转型,应用推广前景广阔。

试试对话AI技术经理人
WENXIAOGUO
问小果
该成果有哪些相似成果?
该成果可能有哪些需求方?
该成果的市场前景如何?
云知声智能科技股份有限公司的相关成果还有哪些?