有效
分布式语音交互设备的唤醒方法、存储介质及电子装置
尹德帅、刘学承、段全盛、栾天祥
青岛海尔科技有限公司
尹
尹德帅机构 暂无
技术领域 暂无
刘
刘学承机构 暂无
技术领域 暂无
段
段全盛机构 暂无
技术领域 暂无
栾
栾天祥机构 暂无
技术领域 暂无
摘要
本申请公开了一种分布式语音交互设备的唤醒方法、存储介质及电子装置,涉及智慧家庭技术领域,该分布式语音交互设备的唤醒方法包括:通过仲裁模型基于唤醒音频的声源朝向的方向性增益对唤醒音频的声源位置与语音交互设备之间的等效距离进行仲裁,得到与等效距离存在单调映射关系的第一得分;其中,等效距离与几何距离和方向性增益之间存在第一近似关系;通过第一得分确定多个语音交互设备中与声源位置之间等效距离最小的目标设备,以通过目标设备响应唤醒音频。通过本申请,解决了分布式唤醒的唤醒对象的语音不是各向同性声源,导致“就近唤醒”(能量/幅度)或“朝向唤醒”(方位)方案产生误唤醒的问题;提高了唤醒准确率。
1.一种分布式语音交互设备的唤醒方法,其特征在于,包括:通过仲裁模型基于唤醒音频的声源朝向的方向性增益对唤醒音频的声源位置与语音交互设备之间的等效距离进行仲裁,得到与所述等效距离存在单调映射关系的第一得分;其中,所述仲裁模型部署在所述语音交互设备中,所述等效距离与几何距离和所述方向性增益之间存在第一近似关系,所述几何距离为所述语音交互设备与所述声源位置之间的物理几何距离,所述仲裁模型经预先训练学习到所述单调映射关系;其中,所述唤醒音频的目标音频特征输入到仲裁模型中;通过所述第一得分确定多个所述语音交互设备中与所述声源位置之间等效距离最小的目标设备,以通过所述目标设备响应所述唤醒音频,其中,得到与所述等效距离存在单调映射关系的第一得分之前,所述方法还包括:获取训练样本,其中,所述训练样本为同一空间中响应每一次唤醒事件的设备集合,所述训练样本的观测值为所述设备集合中的每台设备采集到的音频特征;通过目标模型对所述音频特征进行等效距离仲裁,输出每台设备对应的第二得分;以及,通过所述训练样本对应的几何信息确定所述训练样本的软目标分布;通过所述第二得分确定所述每台设备的响应概率;通过所述响应概率和所述软目标分布确定所述目标模型的总损失,并通过所述总损失对所述目标模型进行反向梯度更新,以得到所述仲裁模型。
2.根据权利要求1所述的分布式语音交互设备的唤醒方法,其特征在于,通过所述第二得分确定所述每台设备的响应概率,包括:其中,确定所述响应概率,包括: ;其中, 表示所述响应概率, 表示所述设备集合; 表示所述每台设备的设备索引, 表示所述设备集合中除了所述每台设备之外的任意一台设备的设备索引; 为温度参数, , 表示第二得分, 表示设备 的得分,其中,第二得分包括真实响应设备的得分。
3.根据权利要求1所述的分布式语音交互设备的唤醒方法,其特征在于,通过所述响应概率和所述软目标分布确定所述目标模型的总损失,包括:通过所述第二得分确定所述目标模型对应的间隔排序损失;通过所述间隔排序损失、所述响应概率和所述软目标分布确定所述目标模型的总损失;其中,确定所述间隔排序损失,包括: ;其中, 表示所述间隔排序损失, 表示所述设备集合中真实响应设备的设备索引,m表示所述设备集合中真实响应设备 与任意一台设备 之间的间隔, 表示设备 的得分, 表示目标模型输出的真实响应设备的得分;其中, 表示所述设备集合中除了所述每台设备之外的任意一台设备的设备索引。
4.根据权利要求1所述的分布式语音交互设备的唤醒方法,其特征在于,通过所述响应概率和所述软目标分布确定所述目标模型的总损失,包括:通过所述响应概率和所述软目标分布确定所述目标设备的蒸馏损失;通过所述蒸馏损失确定所述目标模型的总损失。
5.根据权利要求4所述的分布式语音交互设备的唤醒方法,其特征在于,通过所述响应概率和所述软目标分布确定所述目标设备的蒸馏损失,包括:确定所述每台设备的所述响应概率和所述软目标分布之间的KL散度,得到所述蒸馏损失,其中,所述蒸馏损失用于使得所述目标模型学习到所述第二得分与所述音频特征对应的等效距离之间的单调映射关系。
6.根据权利要求1所述的分布式语音交互设备的唤醒方法,其特征在于,通过所述响应概率和所述软目标分布确定所述目标模型的总损失,包括:通过所述响应概率确定所述目标模型的交叉熵损失;通过所述交叉熵损失、所述响应概率和所述软目标分布确定所述目标模型的总损失。
7.根据权利要求6所述的分布式语音交互设备的唤醒方法,其特征在于,通过所述响应概率确定所述目标模型的交叉熵损失,包括:其中,确定所述交叉熵损失,包括: ;其中, 表示所述设备集合中真实响应设备的设备索引, 表示真实响应设备的响应概率, 表示所述交叉熵损失。
8.根据权利要求1所述的分布式语音交互设备的唤醒方法,其特征在于,通过所述训练样本对应的几何信息确定所述训练样本的软目标分布,包括:通过预设方向性模型确定所述音频特征对应的方向性增益;通过所述音频特征对应的方向性增益、所述几何信息和所述第一近似关系确定所述音频特征对应的等效距离;其中,所述几何信息包括:所述每一次唤醒事件的声源位置、所述每一次唤醒事件的声源朝向和所述每台设备的设备位置;通过所述音频特征对应的等效距离确定所述软目标分布。
9.根据权利要求1所述的分布式语音交互设备的唤醒方法,其特征在于,通过所述响应概率和所述软目标分布确定所述目标模型的总损失,包括:通过所述第二得分确定所述目标模型对应的间隔排序损失;通过所述响应概率确定所述目标模型的交叉熵损失;通过所述软目标分布确定所述目标模型的蒸馏损失;对所述交叉熵损失、所述蒸馏损失和所述间隔排序损失进行加权求和,得到所述总损失。
10.根据权利要求1所述的分布式语音交互设备的唤醒方法,其特征在于,通过仲裁模型基于唤醒音频的声源朝向的方向性增益对唤醒音频的声源位置与语音交互设备之间的等效距离进行仲裁,得到与所述等效距离存在单调映射关系的第一得分之前,所述方法还包括:确定所述几何距离、所述方向性增益与所述唤醒音频的相对强度之间的第二近似关系;并获取和所述唤醒音频的音频强度的第三近似关系;通过所述第二近似关系和所述第三近似关系确定所述等效距离、所述几何距离和所述方向性增益之间的所述第一近似关系;其中,所述第一近似关系为: ;其中, 表示所述等效距离, 表示所述几何距离, 表示所述方向性增益。
11.根据权利要求1所述的分布式语音交互设备的唤醒方法,其特征在于,通过仲裁模型基于唤醒音频的声源朝向的方向性增益对唤醒音频的声源位置与语音交互设备之间的等效距离进行仲裁,得到与所述等效距离存在单调映射关系的第一得分,包括:通过频带选择门对所述唤醒音频的目标音频特征的特征矩阵进行逐频带重标定,其中,重标定后的特征矩阵能够突出所述目标音频特征的高频指向性;通过时频轻量卷积栈对所述重标定后的特征矩阵进行处理,得到所述重标定后的特征矩阵对应的时频编码矩阵;通过全局上下文池化层对所述时频编码矩阵进行加权池化,得到所述时频编码矩阵对应的全局表示;通过物理一致性投影头对所述全局表示进行单调投影,输出所述目标音频特征对应的所述第一得分;其中,所述仲裁模型包括:所述频带选择门、所述时频轻量卷积栈、所述全局上下文池化层和所述物理一致性投影头。
12.根据权利要求11所述的分布式语音交互设备的唤醒方法,其特征在于,通过频带选择门对所述唤醒音频的目标音频特征的特征矩阵进行逐频带重标定,包括:对所述特征矩阵中每个频带的特征进行归一化,得到归一化特征值;通过所述归一化特征值生成所述每个频带的初始频带权重,其中,所述初始频带权重随所述唤醒音频的频率上升;对所述初始频带权重进行归一化,得到归一化频带权重;通过所述归一化频带权重对所述特征矩阵进行逐频带重标定。
13.根据权利要求1所述的分布式语音交互设备的唤醒方法,其特征在于,通过所述第一得分确定多个所述语音交互设备中与所述声源位置之间等效距离最小的目标设备,包括以下至少之一:向仲裁设备发送所述第一得分,以指示所述仲裁设备通过所述第一得分确定多个所述语音交互设备中与所述声源位置之间等效距离最小的目标设备,其中,所述仲裁设备包括以下之一:多个所述语音交互设备中的其他语音交互设备中的任一设备、云端仲裁设备;获取所述其他语音交互设备发送的第三得分,通过所述第三得分和所述第一得分确定多个所述语音交互设备中与所述声源位置之间等效距离最小的目标设备。
14.一种计算机可读的存储介质,其特征在于,所述计算机可读的存储介质包括存储的程序,其中,所述程序运行时执行权利要求1至13中任一项所述的方法。
15.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为通过所述计算机程序执行权利要求1至13中任一项所述的方法。



