在审
一种部署大语言模型的方法和计算装置
王
王颖机构 暂无
赵
赵世新机构 暂无
刘
刘炼机构 暂无
摘要
本发明提供了一种部署大语言模型的方法和计算装置,该方法包括:执行第一阶段的权重单元离线划分过程,包括:获取待部署的大语言模型,在执行推理前,根据统计的大语言模型的各个权重单元的冷热特征统计,确定将各个权重单元划分到显存或者DIMM的扩展空间中储存的初始存储位置;执行第二阶段的权重单元位置在线调整过程,包括:在执行推理的过程中,根据当前已执行的层的情况,在线预测各权重单元的被激活概率,根据被激活概率调整相关权重单元的储存位置。
暂无引用专利



