国产 GPU 算力资源管理平台建设场景

联系合作
技术领域:
榜单金额:200 万
合作方式:
发布日期:20251231
截止日期:-
需求发布单位: 北京农村商业银行股份有限公司
关键词: GPU算力管理  AI任务需求  银行场景  异构算力纳管  算力虚拟化  资源池化  多租户管理  镜像管理  存储管理  任务调度  日志审计 

需求的背景和应用场景

随着人工智能技术的快速发展,各行各业对GPU算力资源的需求日益增长。特别是在金融行业,人工智能应用如智能风控、智能客服、智能投顾等已逐渐成为提升业务效率和客户体验的关键手段。然而,当前我行在GPU算力资源管理上面临诸多挑战,包括不同品牌、型号GPU设备的兼容性问题,资源分配不够灵活,运维管理复杂等。为了解决这些问题,并充分利用算力资源,本项目提出建设国产GPU算力资源管理平台。该平台旨在实现异构算力资源的统一纳管与监控,提供灵活高效的算力分配方案,并满足我行各人工智能应用场景的算力需求。同时,为了确保信息安全和技术自主可控,算力管理平台及其纳管的GPU服务器将全部采用国产自主可控产品。

要解决的关键技术问题

  1. 异构算力纳管与监控:平台需设计一套统一的接口或协议,以实现对不同品牌、型号GPU设备的兼容和纳管。同时,建立全面的监控体系,实时收集并分析GPU设备的运行状态、性能指标等数据,确保资源的可视化与高效运维。
  2. 算力虚拟化与池化管理:通过GPU虚拟化技术,将物理GPU资源抽象为可动态分配的逻辑资源。实现资源池化管理,支持多租户、多集群的灵活配置,确保不同业务可以按需获取专属的资源池,并实现资源的弹性伸缩。
  3. 核心功能与策略:平台需集成算力扩容、镜像管理、存储管理等核心功能模块,以满足日常运维和业务拓展的需求。同时,设计并实施差异化的调度策略,根据AI任务的特性和优先级,合理分配算力资源,提升资源利用率和任务执行效率。
  4. 运维与运营管理:构建完善的运维及运营管理体系,包括任务调度、日志审计、告警管理等功能,确保平台的稳定、安全、高效运行。通过自动化的运维工具和智能化的管理策略,降低运维成本,提升运营效率。

效果要求

本项目的实施将带来以下显著效果:

  • 提升资源利用率:通过统一的算力资源管理和灵活的分配机制,实现资源的最大化利用,避免资源闲置和浪费。
  • 增强业务响应能力:快速响应各业务部门对算力资源的需求,缩短项目部署周期,提升业务敏捷性。
  • 降低运维成本:通过自动化的运维工具和智能化的管理策略,降低运维复杂度,减少人力成本投入。
  • 保障信息安全:采用国产自主可控的产品和技术,确保算力管理平台的安全性和可靠性,有效防范信息安全风险。
  • 推动技术创新:本项目的实施将促进我行在GPU算力资源管理领域的技术创新,为未来的业务发展提供坚实的技术支撑。

技术产品需求:

  1. 异构算力纳管与监控
    平台需具备纳管不同品牌、型号 GPU 设备的能力,并对异构的算力基础设施进行统一监控与管理,确保资源的可视化与高效运维。
  2. 算力虚拟化与池化
    要求平台实现 GPU 虚拟化与池化管理,支持多租户、多集群管理,并能为不同业务提供专属的资源池,实现资源的灵活分配和弹性伸缩。
  3. 核心功能与策略
    需具备算力扩容、镜像管理、存储管理等核心功能,并提供差异化调度策略,以满足不同 AI 任务对算力的特定需求。
  4. 运维与运营管理
    平台需提供完善的运维及运营管理功能,包括但不限于任务调度、日志审计、告警管理等,确保平台稳定、安全、高效运行。
    应用场景项目介绍:
    本项目旨在满足我行各人工智能的应用场景的算力需求,同时充分利用算力资源,建设算力管理平台。算力管理平台及该平台纳管的 GPU 服务器均采用国产自主可控产品。
试试对话AI技术经理人
WENJINGZHUAN
问小果
目前哪些机构有相似的技术需求?
该需求的技术路线?
为该需求推荐相关的科技成果?
哪些机构或团队可能解决该技术需求?