北京市科技计划大模型研发课题性能评测项目

关注

联系合作

人工智能

新一代信息技术

技术领域：

预算金额：48 万

合作方式：

发布日期：20251231

截止日期：-

需求发布单位：华夏银行股份有限公司

关键词：法律合规财富管理客户服务风险控制营销推荐多轮问答要点抽取情绪识别事件判断性能评测

小果解读

需求的背景和应用场景

本项目作为北京市科技计划项目的子任务，聚焦于金融机构在应用大模型技术过程中面临的关键挑战。当前，金融机构在采用大模型技术时，普遍缺乏统一且完善的性能评价标准，导致难以准确评估不同模型在实际业务场景中的效果。同时，应用效果需持续优化以满足日益变化的业务需求。因此，本项目旨在通过系统性测试工作，解决这一痛点问题，为金融机构提供一套科学、全面且具备可操作性的大模型评测标准和方法论。项目将紧密围绕法律合规问答、财富管理问答、客户服务、风险控制、营销推荐等五个典型金融业务场景，结合真实业务流程与数据环境，开展性能评测，以确保评测内容的业务关联性与任务代表性。

要解决的关键技术问题

场景覆盖与任务设计：依托五个核心业务场景，构建多维任务测试体系。这包括设计多轮问答、要点抽取、情绪识别、事件判断与客户推荐等任务类型，确保评测能够全面反映模型在实际业务中的表现。
性能指标设定与验证：针对每个场景设定具备行业针对性的性能指标，如风险识别准确率、问答匹配度、推荐转化率与问题响应率等。同时，同步测试典型开源大模型（如xuanyuan13b、deepseekr1-32b等）的表现，通过性能提升率的量化计算，明确精调模型在金融语境下的技术优势。
评测标准与方法论建立：基于测试结果，探索并建立一套科学、全面且具备可操作性的大模型评测标准和方法论，为金融机构提供统一的性能评价依据。

效果要求

本项目预期实现以下效果：

技术优势量化：通过性能提升率的量化计算，明确展示精调模型相较于开源大模型在金融语境下的技术优势，为金融机构提供有力的技术选型依据。
评测标准与方法论：建立一套科学、全面且具备可操作性的大模型评测标准和方法论，填补金融机构在大模型性能评价方面的空白，推动行业标准化进程。
业务优化与创新：紧密结合金融业务场景，深入分析大模型应用效果，从软硬件两方面持续优化，助力金融机构提升服务质效、降低运营成本、拓展业务边界，推动业务持续优化和创新发展。
竞争优势提升：通过本项目的实施，金融机构将能够更准确地评估和优化大模型的应用效果，从而在激烈的市场竞争中获得技术优势，提升整体竞争力。

需求描述

技术产品需求：本项目将围绕五个典型金融业务场景——法律合规问答、财富管理问答、客户服务、风险控制、营销推荐，开展系统性测试工作，全面评估精调模型在关键任务中的表现，量化其相较于开源大模型的性能提升效果，具体包括：

场景覆盖依托上述五个核心业务场景，结合甲方的真实业务流程与数据环境，构建多维任务测试体系，涵盖多轮问答、要点抽取、情绪识别、事件判断与客户推荐等任务类型，确保评测内容具备业务关联性与任务代表性。
指标验证针对每个场景设定具备行业针对性的性能指标，例如风险识别准确率、问答匹配度、推荐转化率与问题响应率等。同时，在各场景中同步测试典型开源大模型如xuanyuan13b、deepseekr1-32b等的表现，通过性能提升率= （精调模型指标值-开源模型指标值）/开源模型指标值×100% 的标准公式进行量化计算，从而明确精调模型在金融语境下的技术优势。应用场景项目介绍：本项目作为北京市科技计划项目子任务，旨在解决金融机构在应用大模型技术过程中面临的缺乏统一完善性能评价标准和应用效果需持续优化的两大痛点。通过对精调后的基础大模型进行性能验证，探索并建立一套科学、全面且具备可操作性的大模型评测标准和方法论。同时，项目将紧密结合金融业务场景，深入分析大模型应用效果，从软硬件两方面持续优化，充分发挥大模型在提升服务质效、降低运营成本、拓展业务边界等方面的价值，推动业务持续优化和创新发展。