为通用大模型AlAgent（智能体）配套的交互数字人敏捷生成平台

关注

联系合作

高端仪器设备和工业母机

社区治理与公共服务

人工智能

新一代信息技术

技术领域：信息通信

预算金额：200 万

合作方式：联合攻关

发布日期：20241201

截止日期：-

需求发布单位：南京中科算通科技有限公司

关键词： AIGC行业文旅直播金融服务图像识别语音处理手势识别深度学习芯片适配音唇同步

小果解读

需求的背景和应用场景

随着人工智能技术的飞速发展，通用大模型AlAgent（智能体）在各个领域展现出广泛的应用潜力。然而，当前数字人技术在交互体验、逼真度及跨场景应用等方面仍存在诸多挑战。为了满足市场对高质量、高效率数字人交互平台的需求，特别是在短视频、影视剧、文旅直播和金融服务等行业，我们提出了为通用大模型AlAgent配套的交互数字人敏捷生成平台的技术需求。该平台旨在通过提升音唇同步技术的精确性、增强智能交互能力，以及优化跨场景应用能力，为用户提供更加自然、流畅且富有沉浸感的数字人交互体验，进一步拓展数字人的应用范围和市场价值。

要解决的关键技术问题

构建大规模数据库：收集并处理不少于50万条经过脱敏处理的真人视频和语音数据，为深度学习模型提供丰富的训练资源。
数字人建模算法：开发基于深度学习的数字人建模技术，实现不同年龄段、性别和至少20种语言的超逼真数字人模型生成。
行业应用拓展：在短视频、影视剧等AIGC代表性行业中，实现数字人的至少5类创新应用，提升数字人的实用性和市场竞争力。
国产芯片适配：完成至少1种型号国产芯片的适配工作，推动数字人技术的国产化进程。
终端应用训推一体机：开发国产化的数字人终端应用训推一体机，实现高效、便捷的模型训练和推理部署。
系统性能优化：确保系统支持在线人数50万人，处理100万的并发量，单台设备推理吞吐量达到1.9kTokens每秒，响应速度小于1纳秒。
领域定制化解决方案：针对文旅直播和金融服务两个重点领域，提供定制化的数字人应用解决方案，满足行业特定需求。
音唇同步技术提升：将语音和口型流畅度提升至95%，口型合成准确性达到98.5%，空间重建效率提升至50%，同时确保音意理解和语音识别的准确率均达到95%以上。
跨场景应用能力增强：解决数字人跨场景应用能力弱的问题，支持音频、视频的实时快速导出，以及真人场景下多模态内容的快速生成和业务配置。

效果要求

通过实施该技术需求，我们期望达到以下效果：

显著提升交互体验：通过优化音唇同步技术和增强智能交互能力，使用户在与数字人交互时获得更加自然、流畅的体验。
拓宽应用范围：在多个行业领域实现数字人的创新应用，特别是在文旅直播和金融服务等领域，提供定制化的解决方案，满足行业特定需求，拓宽数字人的市场应用空间。
推动国产化进程：通过完成国产芯片的适配工作和开发国产化的数字人终端应用训推一体机，推动数字人技术的国产化进程，提升自主可控能力。
提升技术竞争力：在关键技术指标上取得显著突破，如系统性能、音唇同步技术、跨场景应用能力等，使该技术需求在行业内具有明显的竞争优势和创新性。

需求描述

需要解决音唇同步技术的精确性、智能交互能力的提升。合作伙伴需具备图像识别、自然语言处理、手势识别等方面的专业技术，以提升数字人的交互体验和应用范围。关键技术指标：（1）构建一个包含不少于50万条经过脱敏处理的真人视频和语音数据的数据库。（2）开发基于深度学习的数字人建模算法，能够生成不同年龄段、性别和至少20种不同语言的超逼真数字人模型。（3）在短视频、影视剧等AIGC具有代表性的行业，实现数字人的至少5类应用。（4）完成至少1种型号国产芯片的适配工作。（5）开发国产化的数字人终端应用训推一体机。（6）系统需支持在线人数50万人，处理100万的并发量，单台设备的推理吞吐量达到1.9kTokens每秒，响应速度小于1纳秒。（7）在文旅直播和金融服务两个重点领域推广数字人的应用，提供定制化的解决方案以满足行业特定需求。（8）提升语音和口型流畅度，从原有的65%提升至95%，口型合成准确性达到98.5%，空间重建效率提升至50%。音意理解和语音识别的准确率均需达到95%以上。（9）解决数字人跨场景应用能力弱的问题，支持音频、视频的实时快速导出，以及真人场景下多模态内容的快速生成和业务配置。