CN116108912B启发式的神经网络架构搜索方法-转果果

王

王磊机构暂无

技术领域暂无

张

张建机构暂无

技术领域暂无

公

公璇机构暂无

技术领域暂无

刘

刘玉晓机构暂无

技术领域暂无

王

王薇机构暂无

技术领域暂无

张

张宝昌机构暂无

技术领域暂无

王

王瑞生机构暂无

技术领域暂无

白

白洋机构暂无

技术领域暂无

张

张依漪机构暂无

技术领域暂无

摘要

本发明公开了启发式神经网络架构搜索方法及信息处理设备。所提供的启发式神经网络架构搜索方法，包括：获取用层次化表示技术描述的待搜索的神经网络模型的单元堆叠模型；对所述多个单元的每个单元的各边进行采样，得到待搜索的神经网络模型的实例；对所述神经网络模型的实例进行训练和验证，得到验证集正确率；更新各个单元的各边的所采样操作的操作性能；更新各个单元的各边所采样操作的置信上限；更新各个单元的各边的各操作被采样的概率；从各个单元的各边的操作空间中去除操作以缩小操作空间；以及将各个单元的各边的操作空间剩余的最后操作作为所选择的操作，并得到要搜索的神经网络架构。

1.一种启发式神经网络架构搜索方法，其特征在于，包括：步骤S1，获取用层次化表示技术描述的待搜索的神经网络模型的单元堆叠模型，所述单元堆叠模型包括堆叠的多个单元，每个单元被表示为包括多个节点以及多个边的全连接有向无环图，其中节点代表神经网络的张量，而节点之间的边代表从具有有限操作空间中选择的操作；步骤S2，对所述多个单元的每个单元的各边进行采样，以选择边所代表的操作，并得到待搜索的神经网络模型的实例；步骤S3，用训练集与验证集对所述神经网络模型的实例进行训练和验证，得到验证集正确率；步骤S4，用所述验证集正确率与各个单元的各边的历史操作性能，更新各个单元的各边的所采样操作的操作性能；步骤S5，用各个单元的各边的所采样操作的操作性能更新各个单元的各边所采样操作的置信上限；步骤S6，用各个单元的各边的各操作的置信上限更新各个单元的各边的各操作被采样的概率；步骤S7根据各个单元的各边的各操作的操作性能从各个单元的各边的操作空间中去除操作以缩小操作空间；以及步骤S8将各个单元的各边的操作空间剩余的最后操作作为所选择的操作，并得到要搜索的神经网络架构；所述步骤4中，对于第t轮搜索中边(i,j)的所采样操作k，根据更新边(i,j)的所采样操作k的操作性能；其中表示边(i,j)的所采样操作k在第t轮搜索时已被采样的次数，表示第t轮搜索中得到的验证集正确率，表示第t-1轮搜索得到的边(i,j)的操作k的操作性能；所述步骤S5中，对于第t轮搜索中边(i,j)的所采样操作k，根据更新边(i,j)的所采样操作k的置信上限，其中δ是指定的参数；所述步骤S6中，对于第t轮搜索中边(i,j)的所采样操作k，根据更新边(i,j)的所采样操作k在第t+1轮中被采样的概率，α为指定的参数用于调控概率分布的方差；所述步骤S2中，对于第t+1轮搜索中的边(i,j)，根据概率选择操作k作为边(i,j)的所采样操作；其中所述步骤S2到所述步骤S6为一轮搜索；所述方法包括重复执行的多轮搜索；所述多轮搜索中每执行指定轮数的搜索后，执行所述步骤7，以及再返回所述步骤2以进行所述多轮搜索中的下一轮搜索；所述步骤S7中，对于边(i,j)根据从其操作空间中去除操作以缩小操作空间O (i,j) 。 2.根据权利要求1所述的方法，其中所述多轮搜索的轮数是K-1乘以所述指定轮数，其中K为所述操作空间的初始大小。 3.根据权利要求2所述的方法，其中在所述步骤2之前，还包括对所述多个单元的每个单元的各边进行随机采样，得到待搜索的神经网络模型的实例，并对神经网络模型的实例进行K轮训练。 4.根据权利要求3所述的方法，其中对于第t轮搜索中边(i,j)的所采样操作k之外的其他操作，其操作性能保持不变。 5.根据权利要求4所述的方法，其中所述步骤S7中，对于边(i,j)根据从其操作空间中去除操作以缩小操作空间O (i,j) 。 6.一种信息处理设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的程序，其特征在于，所述处理器执行所述程序时实现根据权利要求1-5之一所述的方法。

CN114626506ACN114626506A CN112784949ACN112784949A CN113344174ACN113344174A