当前主流大型语言模型在拟人化、情感化及多模态交互方面存在瓶颈,尤其在角色一致性、情感共情能力及领域知识整合方面表现不足,难以满足情感陪伴、互动游戏、在线教育等领域对高拟人化数字生命的需求。
20250814
科学研究和技术服务业
北京市科学技术委员会;中关村科技园区管理委员会
本项目“基于拟人型大模型的数字生命创建引擎研发”系在北京市科技计划“新一代信息通信技术创新”渠道支持下,由北京聆心智能科技有限公司与清华大学联合承担的一项旨在突破现有大型语言模型在拟人化、情感化及多模态交互方面瓶颈的前沿研究。项目的核心目标是构建一套完整的、从数据构建到模型训练、再到工程实现与应用落地的“数字生命”创建引擎技术体系,以解决当前主流模型在角色一致性、情感共情能力及领域知识整合等方面的显著不足。为此,研究团队首先系统性地构建了大规模、多样化的中文角色对话数据集CharacterDial,该数据集的构建综合运用了四种互补策略以保证其深度与广度:1)通过招募专业标注员进行双人协作式角色扮演,产出平均交互轮次超过20轮、并经三阶段严格质检(包含LIWC词典情感合理性量化评估)的高保真对话数据;2)利用大模型设计三级提示框架以合成结构化角色档案与对话,并首创性地研发了一套口语化转换与优化模块,通过基于BERT-wwm的预训练模型和规则库将合成数据与人类口语的风格差异降低至7.2%;3)深度挖掘文学作品,利用大模型进行上下文情景重建,并采用CorefBERT模型完成多角色身份消歧,同时对12大类的非言语交际信息进行精细化手动标注;4)建立以用户为中心的动态数据收集与模型迭代机制,通过人类-原型交互收集修正反馈,并以此为基础进行针对性的对抗性样本生成,从而对模型的已知薄弱环节进行靶向优化。在模型架构层面,项目采用了先进的监督微调(SFT)与优化方法,在SFT阶段,通过设计包含特定分隔符的结构化输入格式,并创新性地融入动态属性掩码、对抗性训练及渐进式课程学习策略,显著增强了模型的推理能力、一致性维持能力以及对长程上下文(支持50轮以上)的建模能力。SFT之后,项目进一步集成了基于对比学习的自优化反馈循环和直接偏好优化(DPO)技术,通过对人类偏好数据(覆盖一致性、拟人化、参与度三大维度)的直接学习,高效地将模型输出与人类复杂偏好对齐。为解决模型的事实性与知识动态更新问题,项目研发了一种新颖的迭代式检索-生成协同框架,该框架通过“生成增强检索”与“检索增强生成”的迭代循环,利用基于双编码器架构的稠密检索器和经由动态知识蒸馏策略优化的重排序器,实现了外部非参数化知识与模型内部参数化知识的智能协同调用,在HotPotQA等知识密集型数据集上将答案召回率提升了21.3%。同时,项目成功将技术体系拓展至多模态领域,构建了具备“流式思考”架构的GLM-4-Voice语音对话系统和采用“接力扩散”机制的高效文生图系统,在实现极低延迟实时交互的同时,生成质量与效率均超越业界领先模型。上述研究由强大的工程实现所支撑,项目团队设计并实现了一套包含张量并行、GPipe流水线并行和ZeRO-2数据并行的三级混合并行训练策略,有效支撑了百亿级参数量级模型的训练,并将训练吞吐量较基线提升了37%。经全面评测,本项目研发的CharacterGLM模型在多维度交互式评估中综合得分达4.21分,在拟人化和参与度等关键指标上超越了包括GPT-4在内的主流模型;所有预定考核指标,包括申请8项发明专利和4件软件著作权,均已达成。最终,本项目的全部技术成果已成功集成并产品化为“AI乌托邦Pro”——一个面向开发者和创作者的超拟人大模型角色创造与赋能引擎。该平台通过提供场景化模板、多维度人设定制工具及标准化API接口,显著降低了开发门槛,已成功赋能情感陪伴、互动游戏、在线教育等领域的数十款商业应用,日均API调用量稳定突破百万次,累计注册开发者超过7.5万人,为过百家企业提供了技术支持,其技术先进性与商业价值得到了市场的充分验证。
