CN121604369B风液混合冷却系统的深度强化学习自适应调控方法及系统-转果果

孙

孙海旺机构暂无

技术领域暂无

周

周萌机构暂无

技术领域暂无

李

李雪强机构暂无

技术领域暂无

刘

刘圣春机构暂无

技术领域暂无

张

张志强机构暂无

技术领域暂无

秦

秦国强机构暂无

技术领域暂无

张

张一凡机构暂无

技术领域暂无

摘要

本发明公开了风液混合冷却系统的深度强化学习自适应调控方法及系统，涉及冷却自适应调控技术领域。包括以下步骤：S1，实时采集风液混合冷却数据，并进行数据预处理，评估设备的热负载，并进行初步调节；S2，判断风冷调节的占比，构建DRL动作映射模型，生成具体动作指令；S3，执行具体动作指令，评估动作执行效果，进行模型反馈优化，并构建DRL交互经验元组集；S4，训练DRL交互经验元组集，驱动优化动作指令，实现风液混合冷却的自学习与进化。解决了由于现有风液混合冷却系统无法自适应数据中心负载的动态变化，动力分配僵化并依赖人工与固定参数设定，导致多执行器温控不精准产生能耗浪费的问题。

1.风液混合冷却系统的深度强化学习自适应调控方法，其特征在于，包括以下步骤：S1，实时采集风液混合冷却数据，并对风液混合冷却数据进行数据预处理，基于风液混合冷却数据评估设备的热负载，根据设备的热负载构建热负载特征向量，并进行初步热负载风险调节；S2，接收风液混合冷却数据与热负载特征向量，判断风液协同冷却中风冷调节的占比，根据风冷调节的占比以及风液混合冷却数据，构建DRL动作映射模型，并生成具体动作指令；所述接收风液混合冷却数据与热负载特征向量，判断风液协同冷却中风冷调节的占比的具体过程为：实时接收风液混合冷却数据与热负载特征向量；将当前时刻的风扇总风量、冷却液总流量与极小常数值相加得到风液总流量；用风扇总风量除以风液总流量得到风冷能力占比；将风冷能力占比与热负载风险系数相乘得到加权热负载压力；用加权热负载压力除以热负载风险系数与极小常数值的和得到风冷协同配比值；S3，执行具体动作指令，并在具体动作指令执行后评估动作执行效果，依据动作执行效果对DRL动作映射模型进行反馈优化，并构建DRL交互经验元组集；S4，通过对DRL交互经验元组集进行训练，驱动优化动作指令，实现风液混合冷却的自学习与调控策略进化。 2.根据权利要求1所述的风液混合冷却系统的深度强化学习自适应调控方法，其特征在于，所述实时采集风液混合冷却数据，并对风液混合冷却数据进行数据预处理的具体过程为：通过温度传感器（1）、智能配电单元PDU、流量传感器（2）、压力传感器、风量传感器和转速传感器反馈实时采集风液混合冷却数据，风液混合冷却数据包括：芯片温度、机柜温度、冷却液进口温度、冷却液出口温度、冷却液比热容、设备总功耗、冷却液总流量、冷却液总压力、风扇总风量、风扇转速和泵速；通过滑动窗口统计与3倍标准差规则识别风液混合冷却数据中的异常值并进行剔除，利用线性插值和历史均值回归法补全缺失点，统一对齐至主时间轴并重采样；对风液混合冷却数据进行窗口均值与指数加权移动平均平滑处理，并进行标准归一化缩放处理；建立风液混合冷却数据库，存储原始与预处理后的风液混合冷却数据，并将风液混合冷却数据传输至DRL控制器（3）。 3.根据权利要求1所述的风液混合冷却系统的深度强化学习自适应调控方法，其特征在于，所述基于风液混合冷却数据评估设备的热负载的具体过程为：基于滑动时间窗口，实时获取窗口内每一时刻的风液混合冷却数据，用冷却液出口温度减去冷却液进口温度并取绝对值得到冷却液温差，将冷却液总流量、冷却液比热容与冷却液温差相乘得到瞬时冷却能力；在整个滑动时间窗口内，对每一时刻的瞬时冷却能力进行数值积分运算得到冷却能力总量；用当前时刻的设备总功耗除以冷却能力总量得到热负载风险系数。 4.根据权利要求1所述的风液混合冷却系统的深度强化学习自适应调控方法，其特征在于，所述根据设备的热负载构建热负载特征向量，并进行初步热负载风险调节的具体过程为：实时计算热负载风险系数，将热负载风险系数与热负载风险阈值进行比对，若热负载风险系数大于热负载风险阈值，进行初步热负载风险调节：调整风扇（6）、液泵（5）与阀门，提升风扇（6）转速与冷却液流量；若热负载风险系数小于或等于热负载风险阈值，持续监测并常态记录，维持当前调控策略和运行状态；将冷却液进口温度、冷却液出口温度、设备总功耗、冷却液总流量及对应的热负载风险系数进行整合，构建热负载特征向量，写入风液混合冷却数据库，并进入下一流程。 5.根据权利要求1所述的风液混合冷却系统的深度强化学习自适应调控方法，其特征在于，所述根据风冷调节的占比以及风液混合冷却数据，构建DRL动作映射模型，并生成具体动作指令的具体过程为：将风冷协同配比值、热负载风险系数、风扇转速、泵速和芯片温度作为状态映射特征集，通过与仿真环境交互，对状态映射特征集进行训练，通过深度确定性策略梯度和DRL深度强化学习算法构建DRL动作映射模型，经动作映射模块进行动作映射（4）操作，生成风扇（6）、液泵（5）和阀门各个执行器的具体动作指令，并由策略网络输出，下发至各个执行器。 6.根据权利要求1所述的风液混合冷却系统的深度强化学习自适应调控方法，其特征在于，所述执行具体动作指令，并在具体动作指令执行后评估动作执行效果的具体过程为：接收DRL动作映射模型输出的具体动作指令，各个执行器按照具体动作指令进行同步调节，并实时获取调节后的风液混合冷却数据；选取当前时刻芯片温度和机柜温度中最高的温度值作为当前整体最高温度，基于滑动时间窗口，获取整体最高温度序列，并计算平均值作为温控目标值；获取上一时刻的设备总功耗和当前时刻的设备总功耗，用当前时刻的设备总功耗减去上一时刻的设备总功耗得到总功耗变化量；同时在滑动时间窗口内，对整体最高温度、设备总功耗、冷却液总流量和风扇总风量分别计算标准差，对各个参数的标准差进行归一化处理，通过主成分分析算法对各个参数标准差归一化值进行训练，提取第一主成分的各参数系数作为加权权重，根据各参数的加权权重对整体最高温度、设备总功耗、冷却液总流量和风扇总风量的标准差进行加权求和并取负值得到运行稳定性值；计算当前整体最高温度与温控目标值的差值取绝对值，并取负值得到温控偏差值；将总功耗变化量与功耗变化权重因子相乘，并取负值得到功耗调节值；将运行稳定性值与运行稳定权重因子相乘得到运行平稳值；将温控偏差值、功耗调节值与运行平稳值相加得到模型综合奖励值。 7.根据权利要求1所述的风液混合冷却系统的深度强化学习自适应调控方法，其特征在于，所述依据动作执行效果对DRL动作映射模型进行反馈优化，并构建DRL交互经验元组集的具体过程为：每次具体动作指令生成并执行后，计算模型综合奖励值，并将模型综合奖励值反馈至DRL动作映射模型评估本次具体动作指令的优劣，采用随机采样优化策略与价值网络，提升DRL动作映射模型的决策性能；持续监测模型综合奖励值，若发现一段时间窗口内模型综合奖励值的标准差大于波动阈值，判定为温控、能耗和稳定性异常，将风扇（6）和液泵（5）切换至最大负载运行模式，降低部分非核心服务器的负载；提升温度、压力和功耗的安全阈值，超过安全阈值即强制执行降载和启动局部冷却；同时构建经验回放池，将执行前的风液混合冷却数据、动作指令、模型综合奖励值和执行后的风液混合冷却数据组合构建DRL交互经验元组集，并存入经验回放池和风液混合冷却数据库。 8.根据权利要求1所述的风液混合冷却系统的深度强化学习自适应调控方法，其特征在于，所述通过对DRL交互经验元组集进行训练，驱动优化动作指令，实现风液混合冷却的自学习与调控策略进化的具体过程为：持续从经验回放池中采样DRL交互经验元组集，作为训练样本，输入至DRL算法的策略网络与价值网络进行试错、反馈、学习的迭代更新，策略网络根据样本反馈，调整状态映射特征集与具体动作指令之间的映射，实现策略参数的动态优化；每轮训练基于模型综合奖励值，引导网络向温度达标、能耗低和运行平稳的目标策略持续收敛，当策略网络收敛并且综合奖励值最大时，将当前最优策略固化为在线部署模型，实时驱动风液混合冷却的调控决策；同时，定期评估模型综合奖励值，若有奖励值模型综合奖励值的标准差大于波动阈值和策略失效的情况，则回退至历史最优策略。 9.风液混合冷却系统的深度强化学习自适应调控系统，应用如权利要求1-8中任意一项所述的风液混合冷却系统的深度强化学习自适应调控方法，其特征在于，包括：多源数据采集与风险评估模块，用于实时采集风液混合冷却数据，并对风液混合冷却数据进行数据预处理，基于风液混合冷却数据评估设备的热负载，根据设备的热负载构建热负载特征向量，并进行初步热负载风险调节；DRL自适应决策与动作映射模块，用于接收风液混合冷却数据与热负载特征向量，判断风液协同冷却中风冷调节的占比，根据风冷调节的占比以及风液混合冷却数据，构建DRL动作映射模型，并生成具体动作指令；执行器联动与实时反馈模块，用于执行具体动作指令，并在具体动作指令执行后评估动作执行效果，依据动作执行效果对DRL动作映射模型进行反馈优化，并构建DRL交互经验元组集；闭环自学习与自进化模块，用于通过对DRL交互经验元组集进行训练，驱动优化动作指令，实现风液混合冷却的自学习与调控策略进化。

CN114970358ACN114970358A CN120354716ACN120354716A