北京市科技计划大模型研发课题性能评测项目
技术产品需求:
本项目将围绕五个典型金融业务场景——法律合规问答、财富管理问答、客户服务、风险控制、营销推荐,开展系统性测试工作,全面评估精调模型在关键任务中的表现,量化其相较于开源大模型的性能提升效果,具体包括:
1. 场景覆盖
依托上述五个核心业务场景,结合甲方的真实业务流程与数据环境,构建多维任务测试体系,涵盖多轮问答、要点抽取、情绪识别、事件判断与客户推荐等任务类型,确保评测内容具备业务关联性与任务代表性。
2. 指标验证
针对每个场景设定具备行业针对性的性能指标,例如风险识别准确率、问答匹配度、推荐转化率与问题响应率等。同时,在各场景中同步测试典型开源大模型如xuanyuan13b、deepseekr1-32b等的表现,通过性能提升率= (精调模型指标值-开源模型指标值)/开源模型指标值×100% 的标准公式进行量化计算,从而明确精调模型在金融语境下的技术优势。
应用场景项目介绍:
本项目作为北京市科技计划项目子任务,旨在解决金融机构在应用大模型技术过程中面临的缺乏统一完善性能评价标准和应用效果需持续优化的两大痛点。通过对精调后的基础大模型进行性能验证,探索并建立一套科学、全面且具备可操作性的大模型评测标准和方法论。同时,项目将紧密结合金融业务场景,深入分析大模型应用效果,从软硬件两方面持续优化,充分发挥大模型在提升服务质效、降低运营成本、拓展业务边界等方面的价值,推动业务持续优化和创新发展。
金额 48 万
发布日期20251231
2025年国有企业应用场景白皮书