随着人工智能技术的飞速发展,通用大模型AlAgent(智能体)在各个领域展现出广泛的应用潜力。然而,当前数字人技术在交互体验、逼真度及跨场景应用等方面仍存在诸多挑战。为了满足市场对高质量、高效率数字人交互平台的需求,特别是在短视频、影视剧、文旅直播和金融服务等行业,我们提出了为通用大模型AlAgent配套的交互数字人敏捷生成平台的技术需求。该平台旨在通过提升音唇同步技术的精确性、增强智能交互能力,以及优化跨场景应用能力,为用户提供更加自然、流畅且富有沉浸感的数字人交互体验,进一步拓展数字人的应用范围和市场价值。
通过实施该技术需求,我们期望达到以下效果:
需要解决音唇同步技术的精确性、智能交互能力的提升。合作伙伴需具备图像识别、自然语言处理、手势识别等方面的专业技术,以提升数字人的交互体验和应用范围。关键技术指标: (1)构建一个包含不少于50万条经过脱敏处理的真人视频和语音数据的数据库。 (2)开发基于深度学习的数字人建模算法,能够生成不同年龄段、性别和至少20种不同语言的超逼真数字人模型。 (3)在短视频、影视剧等AIGC具有代表性的行业,实现数字人的至少5类应用。 (4)完成至少1种型号国产芯片的适配工作。 (5)开发国产化的数字人终端应用训推一体机。 (6)系统需支持在线人数50万人,处理100万的并发量,单台设备的推理吞吐量达到1.9kTokens每秒,响应速度小于1纳秒。 (7)在文旅直播和金融服务两个重点领域推广数字人的应用,提供定制化的解决方案以满足行业特定需求。 (8)提升语音和口型流畅度,从原有的65%提升至95%,口型合成准确性达到98.5%,空间重建效率提升至50%。音意理解和语音识别的准确率均需达到95%以上。 (9)解决数字人跨场景应用能力弱的问题,支持音频、视频的实时快速导出,以及真人场景下多模态内容的快速生成和业务配置。
