在审

一种基于时空张量划分策略的大语言模型训练方法

王浩然、安鑫、韩银和、许浩博、王颖
中国科学院计算技术研究所
王浩然机构 暂无
技术领域 暂无
安鑫机构 暂无
技术领域 暂无
韩银和机构 暂无
技术领域 暂无
许浩博机构 暂无
技术领域 暂无
王颖机构 暂无
技术领域 暂无

摘要

本发明提供了一种基于时空张量划分策略的大语言模型训练方法,该方案采用时间‑空间协同的张量划分策略将张量运算在时间维度和空间维度上划分给多个计算设备,并由计算设备并行处理,其中,每个计算设备仅缓存当前计算步骤所需的矩阵数据,无需保留完整张量或冗余副本,从根本上解决传统张量并行中激活值、权重等数据重复存储的问题,大幅降低显存占用以解决张量冗余存储的问题,此外,在张量运算过程中,以点对点的数据传输取代集合通信,实现通信与计算延迟的高效折叠,显著降低训练过程中的通信开销与显存占用,该方法在保证训练精度的前提下,显著提升大语言模型训练的并行效率与资源利用率,为大语言模型的高效训练提供了全新的解决方案。

暂无引用专利