大模型训练中存在高能耗、高存储开销的问题,具体表现为大模型低秩微调(LoRA)中缓存激活占比过高(达90%以上),导致内存需求大、计算效率低,进而增加算力集群部署成本并限制边缘节点微调能力。
通过算法、芯片与系统的协同创新,提出以下技术方案: 1.算法层:设计离群值感知混合压缩框架,通过算子内异常值分离存储与算子间LoRA适配器重排序融合,将缓存激活压缩至等效2-3比特,精度损失<1%; 2.芯片层:构建动态精度训练专用架构,集成量化敏感性分析模块(位宽搜索时间降低2个数量级)、多模式转置引擎(转置开销降至传统方案1/8)、可重构计算单元(支持FP4/FP8/BFP动态格式,峰值能效14.04 TFLOPS/W,算力密度1.024 TFLOPS/mm²); 3.系统层:搭建GPU-DSA异构融合平台,通过MetaXLink高速互联(单向带宽64GB/s)实现多设备直连,结合PyTorch生态适配软件栈,支持计算流动态分配,完成BERT等模型端到端训练验证。
20251216
信息传输、软件和信息技术服务业
课题所研发的动态混合精度AI训练计算核心已经经过了流片验证,经过第三方测试检验,使用28nm CMOS工艺进行制造,实现了动态精度细粒度可调,以及14.04 TFLOPS/W的计算能效和1.024 TFLOPS/mm2的面积效率。课题所研发的动态混合精度训练框架基于国产GPGPU的软件栈实现,可以进行低位宽的神经网络训练,支持模型包括Transformer、CNN和MLP。所研发的动态混合精度异构融合系统由国产GPGPU、桥接板卡和所研动态混合精度AI训练原型芯片构成,已经形成了单机单卡开放式研发平台,和多机多卡机架级服务器两种形态,可以供给芯片架构研发团队或大模型算法研发团队使用。其中单机单卡的FP32运算性能达到18.23 TLOPFS,FP16运算性能达到291.84 TFLOPS。
人才需求上,转化方应能够较为熟练的CUDA或类CUDA生态GPGPU进行应用算法开发,同时对领域定制化加速器(DSA)的运作机理有一定了解,拥有芯片和复杂电路系统调试的经验。硬件需求上,需要转化方拥有专门的芯片和电子设备测试间,拥有服务器机架级的供电和散热能力,可以为动态混合精度异构融合系统提供稳定良好的工作环境。
仅限国内转让
该课题相关成果的转化应用将为高性能计算与人工智能交叉学科提供新的技术路径。在先进工艺难以取得的情况下,将研究重心转向数据格式、定制化计算架构、软件工具链,实现自主可控的高性能 AI 计算芯片技术研发,缓解了国外技术限制带来的产业困境。通过对低精度浮点数据应用的系统探索、异构融合架构的创新设计,有望填补国产传统 GPGPU 在动态精度执行与异构融合类型上的技术空白,提升计算芯片设计理论的迭代升级的速度。其构建的 “GPU + DSA” 混合计算模式,为异构计算学科提供了高效的验证方法论,加速了学科理论向实践转化的进程。为自动驾驶、大模型微调等关键场景提供算力支撑,助力我国在智能计算领域的产业竞争力提升。
中央引导地方专项
北京市科学技术委员会;中关村科技园区管理委员会
本研究成果源于清华大学与沐曦集成电路公司的基于北京市科技计划“中央引导地方”专项“动态混合精度AI 计算芯片研发及异构融合系统搭建”项目的产学研合作,旨在通过国产GPGPU与自研领域专用加速器(DSA)的融合架构设计,构建自主可控的高性能 AI 计算体系。研究聚焦动态混合精度计算技术,通过算法、芯片与系统的协同创新,解决大模型训练中的高能耗、高存储开销问题,成果涵盖低比特压缩算法、动态精度芯片设计及 GPU-DSA 异构融合系统,形成从理论到原型的完整技术链。 该成果从三个层面实现创新:在算法层,针对大模型低秩微调(LoRA)中缓存激活占比过高(达 90% 以上)的问题,提出离群值感知混合压缩框架,通过算子内异常值分离存储与算子间 LoRA 适配器重排序融合,将缓存激活压缩至等效 2-3 比特,同时保持精度损失 < 1%。在芯片层,设计动态精度训练专用架构,包括量化敏感性分析模块(通过拉格朗日对偶变换将位宽搜索时间降低 2 个数量级)、多模式转置引擎(将低比特转置开销降至传统方案 1/8)、可重构计算单元(支持 FP4/FP8/BFP 等动态格式,峰值能效达 14.04 TFLOPS/W,算力密度 1.024 TFLOPS/mm??)。在系统层,构建 GPU-DSA 异构融合平台,通过 MetaXLink 高速互联(单向带宽 64GB/s)实现多设备直连,结合 PyTorch 生态适配的软件栈,支持计算流在 GPU 与 DSA 间动态分配,完成 BERT 等模型的端到端训练验证。 关键性技术指标方面,算法层面实现最高 3.97 倍端到端内存节省,在 Llama-2-7B 模型微调中保持精度损失可忽略;芯片层面动态精度计算核心能效突破 12 TFLOPS/W,支持 2-8 比特动态切换,转置引擎面积开销仅 2.12%;系统层面异构原型机 FP16 算力达 210 TFLOPS,FP32 算力 18 TFLOPS,支持 FP8-BF16-FP32 混合精度训练无损收敛。 应用前景广阔,在大模型训练领域,可降低中小规模算力集群的部署成本,支持 7B-13B 参数模型在边缘节点微调;在自动驾驶场景,通过低比特计算提升车载 AI 芯片的能效比,延长续航;在云端推理中,动态精度调度可适配不同任务对精度的需求,如实时对话采用 FP4 加速,精密图文生成切换至 FP8。此外,异构融合架构为国产 GPU 生态提供了可扩展的硬件验证平台,推动 “硬件自主 + 软件兼容” 的良性循环,助力我国在 AI 算力基础设施领域实现技术自主可控。 该技术应用场景丰富,在大模型训练中,能降低算力集群成本,支持边缘节点模型微调;云端推理可按需调整精度。同时,异构融合架构为国产 GPU 生态提供验证平台,推动软硬件协同发展,助力 AI 算力技术自主可控迭代。
