在深度学习模型训练中,大规模预训练模型的处理对计算资源要求极高,单一图形处理器(GPU)难以满足高效训练的需求,导致训练时间长、资源利用率低的问题。
本发明提出一种预训练模型训练处理方法,通过服务器中的多个图形处理器协同工作,实现训练数据的分摊与分布式计算。方法包括:将训练数据均匀分配至各GPU;利用数据并行技术,使各GPU并行处理数据,计算模型参数;进一步将模型参数也分摊至各GPU进行再次分布式计算,以实现更高效的模型训练。特别是,通过第一GPU发起请求,获取其他GPU的模型参数,进行综合计算后释放参数,优化了GPU间的通信与协作。
本方法显著提高了模型训练的效率与资源利用率,通过多GPU的分布式计算,有效缩短了大规模预训练模型的训练时间。同时,优化的GPU间通信机制减少了数据传输延迟,提升了训练过程的整体性能。该技术在小试阶段已展现出良好的加速效果与扩展性,为深度学习模型的高效训练提供了强有力的技术支持,具有显著的创新性和应用前景。
20231206
科学研究和技术服务业
可国(境)内外转让
新型研发机构
北京市海淀区人民政府
所述方法应用于对待处理模型进行推理处理的服务器,所述方法包括:确定所述待处理模型,其中,所述待处理模型采用高比特浮点数进行表示且通过预训练得到,所述高比特浮点数的位数大于或等于第一位数阈值;基于模型量化技术,将所述待处理模型的模型参数由采用所述高比特浮点数表示转化为采用低比特定点数表示,用以实现对所述待处理模型进行加速推理处理,其中,所述低比特定点数的位数小于或等于第二位数阈值。根据本发明提供的一种预训练模型推理处理方法,所述模型参数包括所述待处理模型的线性层参数,所述基于模型量化技术,将所述待处理模型的模型参数由采用所述高比特浮点数表示转化为采用低比特定点数表示,包括:基于模型量化计算,对所述线性层参数进行量化处理,得到量化后的线性层参数,其中,所述量化后的线性层参数采用所述低比特定点数表示。根据本发明提供的一种预训练模型推理处理方法,在对所述待处理模型进行加速推理处理的过程中,所述方法还包括:基于模型量化技术,对所述待处理模型的隐状态进行量化处理,得到量化后的隐状态,其中,所述量化后的隐状态采用所述低比特定点数表示;基于所述量化后的线性层参数和所述量化后的隐状态进行关于推理处理的运算,得到推理处理运算结果;对所述推理处理运算结果进行反量化处理,得到反量化处理后的推理处理运算结果,并将所述反量化处理后的推理处理运算结果作为加速推理处理运算结果,其中,所述反量化处理后的推理处理运算结果采用所述高比特浮点数表示。
