需求的背景和应用场景
本项目作为北京市科技计划项目的子任务,聚焦于金融机构在应用大模型技术过程中面临的关键挑战。当前,金融机构在采用大模型技术时,普遍缺乏统一且完善的性能评价标准,导致难以准确评估不同模型在实际业务场景中的效果。同时,应用效果需持续优化以满足日益变化的业务需求。因此,本项目旨在通过系统性测试工作,解决这一痛点问题,为金融机构提供一套科学、全面且具备可操作性的大模型评测标准和方法论。项目将紧密围绕法律合规问答、财富管理问答、客户服务、风险控制、营销推荐等五个典型金融业务场景,结合真实业务流程与数据环境,开展性能评测,以确保评测内容的业务关联性与任务代表性。
要解决的关键技术问题
- 场景覆盖与任务设计:依托五个核心业务场景,构建多维任务测试体系。这包括设计多轮问答、要点抽取、情绪识别、事件判断与客户推荐等任务类型,确保评测能够全面反映模型在实际业务中的表现。
- 性能指标设定与验证:针对每个场景设定具备行业针对性的性能指标,如风险识别准确率、问答匹配度、推荐转化率与问题响应率等。同时,同步测试典型开源大模型(如xuanyuan13b、deepseekr1-32b等)的表现,通过性能提升率的量化计算,明确精调模型在金融语境下的技术优势。
- 评测标准与方法论建立:基于测试结果,探索并建立一套科学、全面且具备可操作性的大模型评测标准和方法论,为金融机构提供统一的性能评价依据。
效果要求
本项目预期实现以下效果:
- 技术优势量化:通过性能提升率的量化计算,明确展示精调模型相较于开源大模型在金融语境下的技术优势,为金融机构提供有力的技术选型依据。
- 评测标准与方法论:建立一套科学、全面且具备可操作性的大模型评测标准和方法论,填补金融机构在大模型性能评价方面的空白,推动行业标准化进程。
- 业务优化与创新:紧密结合金融业务场景,深入分析大模型应用效果,从软硬件两方面持续优化,助力金融机构提升服务质效、降低运营成本、拓展业务边界,推动业务持续优化和创新发展。
- 竞争优势提升:通过本项目的实施,金融机构将能够更准确地评估和优化大模型的应用效果,从而在激烈的市场竞争中获得技术优势,提升整体竞争力。