为通用大模型AlAgent(智能体)配套的交互数字人敏捷生成平台
需要解决音唇同步技术的精确性、智能交互能力的提升。合作伙伴需具备图像识别、自然语言处理、手势识别等方面的专业技术,以提升数字人的交互体验和应用范围。关键技术指标:
(1)构建一个包含不少于50万条经过脱敏处理的真人视频和语音数据的数据库。
(2)开发基于深度学习的数字人建模算法,能够生成不同年龄段、性别和至少20种不同语言的超逼真数字人模型。
(3)在短视频、影视剧等AIGC具有代表性的行业,实现数字人的至少5类应用。
(4)完成至少1种型号国产芯片的适配工作。
(5)开发国产化的数字人终端应用训推一体机。
(6)系统需支持在线人数50万人,处理100万的并发量,单台设备的推理吞吐量达到1.9kTokens每秒,响应速度小于1纳秒。
(7)在文旅直播和金融服务两个重点领域推广数字人的应用,提供定制化的解决方案以满足行业特定需求。
(8)提升语音和口型流畅度,从原有的65%提升至95%,口型合成准确性达到98.5%,空间重建效率提升至50%。音意理解和语音识别的准确率均需达到95%以上。
(9)解决数字人跨场景应用能力弱的问题,支持音频、视频的实时快速导出,以及真人场景下多模态内容的快速生成和业务配置。
金额 200 万
发布时间20241201
2024中国高校科技成果交易会企业技术需求