国产 GPU 算力资源管理平台建设场景

关注

联系合作

工业互联网

区块链与先进计算

新一代信息技术

技术领域：

预算金额：200 万

合作方式：

发布日期：20251231

截止日期：-

需求发布单位：北京农村商业银行股份有限公司

关键词： GPU算力管理 AI任务需求银行场景异构算力纳管算力虚拟化资源池化多租户管理镜像管理存储管理任务调度日志审计

小果解读

需求的背景和应用场景

随着人工智能技术的快速发展，各行各业对GPU算力资源的需求日益增长。特别是在金融行业，人工智能应用如智能风控、智能客服、智能投顾等已逐渐成为提升业务效率和客户体验的关键手段。然而，当前我行在GPU算力资源管理上面临诸多挑战，包括不同品牌、型号GPU设备的兼容性问题，资源分配不够灵活，运维管理复杂等。为了解决这些问题，并充分利用算力资源，本项目提出建设国产GPU算力资源管理平台。该平台旨在实现异构算力资源的统一纳管与监控，提供灵活高效的算力分配方案，并满足我行各人工智能应用场景的算力需求。同时，为了确保信息安全和技术自主可控，算力管理平台及其纳管的GPU服务器将全部采用国产自主可控产品。

要解决的关键技术问题

异构算力纳管与监控：平台需设计一套统一的接口或协议，以实现对不同品牌、型号GPU设备的兼容和纳管。同时，建立全面的监控体系，实时收集并分析GPU设备的运行状态、性能指标等数据，确保资源的可视化与高效运维。
算力虚拟化与池化管理：通过GPU虚拟化技术，将物理GPU资源抽象为可动态分配的逻辑资源。实现资源池化管理，支持多租户、多集群的灵活配置，确保不同业务可以按需获取专属的资源池，并实现资源的弹性伸缩。
核心功能与策略：平台需集成算力扩容、镜像管理、存储管理等核心功能模块，以满足日常运维和业务拓展的需求。同时，设计并实施差异化的调度策略，根据AI任务的特性和优先级，合理分配算力资源，提升资源利用率和任务执行效率。
运维与运营管理：构建完善的运维及运营管理体系，包括任务调度、日志审计、告警管理等功能，确保平台的稳定、安全、高效运行。通过自动化的运维工具和智能化的管理策略，降低运维成本，提升运营效率。

效果要求

本项目的实施将带来以下显著效果：

提升资源利用率：通过统一的算力资源管理和灵活的分配机制，实现资源的最大化利用，避免资源闲置和浪费。
增强业务响应能力：快速响应各业务部门对算力资源的需求，缩短项目部署周期，提升业务敏捷性。
降低运维成本：通过自动化的运维工具和智能化的管理策略，降低运维复杂度，减少人力成本投入。
保障信息安全：采用国产自主可控的产品和技术，确保算力管理平台的安全性和可靠性，有效防范信息安全风险。
推动技术创新：本项目的实施将促进我行在GPU算力资源管理领域的技术创新，为未来的业务发展提供坚实的技术支撑。

需求描述

技术产品需求：

异构算力纳管与监控平台需具备纳管不同品牌、型号 GPU 设备的能力，并对异构的算力基础设施进行统一监控与管理，确保资源的可视化与高效运维。
算力虚拟化与池化要求平台实现 GPU 虚拟化与池化管理，支持多租户、多集群管理，并能为不同业务提供专属的资源池，实现资源的灵活分配和弹性伸缩。
核心功能与策略需具备算力扩容、镜像管理、存储管理等核心功能，并提供差异化调度策略，以满足不同 AI 任务对算力的特定需求。
运维与运营管理平台需提供完善的运维及运营管理功能，包括但不限于任务调度、日志审计、告警管理等，确保平台稳定、安全、高效运行。应用场景项目介绍：本项目旨在满足我行各人工智能的应用场景的算力需求，同时充分利用算力资源，建设算力管理平台。算力管理平台及该平台纳管的 GPU 服务器均采用国产自主可控产品。