有效
一种特定场景下的中英文混合的离线语音关键词识别方法及其系统实现
陆峰、薛玉敏
北京航空航天大学
陆
陆峰机构 暂无
技术领域 暂无
薛
薛玉敏机构 暂无
技术领域 暂无
摘要
本公开的实施例公开了一种中英文混合的离线语音关键词识别方法及其系统。该方法的一具体实施方式包括:获取语音数字信号,对其进行语音活动检测,得到待识别语音段;定义自适应关键词匹配窗口,分割待识别语音段;对语音段进行特征提取,得到梅尔频率倒谱系数嵌入特征向量;分析自定义关键词列表,结合预先训练的音素补白模型,得到中文解码网络空间和英文解码网络空间;将所述梅尔频率倒谱系数嵌入特征向量依次输入所述解码网络空间中,得到识别结果;对识别结果后处理,生成目标识别结果。该实施方式的计算量低,可以离线识别,识别准确率高,响应速度快,支持中英文混合识别,能够灵活的更换关键词列表从而适应不同场景下的应用。
1.一种中英文混合的离线语音关键词识别方法,包括:获取语音数字信号,对其进行语音活动检测,得到待识别语音段;定义自适应关键词匹配窗口,分割待识别语音段;对所述窗口内的语音段进行特征提取,得到梅尔频率倒谱系数嵌入特征向量;分析特定场景下的自定义关键词列表,以及结合预先训练的音素补白模型,得到自定义关键词的中文解码网络空间和英文解码网络空间;将所述梅尔频率倒谱系数嵌入特征向量依次输入所述解码网络空间中,得到识别结果;对所述识别结果后处理,生成目标识别结果作为输出;其中,所述分析特定场景下的自定义关键词列表,以及结合预先训练的音素补白模型,得到自定义关键词的中文解码网络空间和英文解码网络空间,包括:以上下文相关音素为基本建模单元训练隐马尔可夫模型声学模型,以在线式废料模型构建音素补白模型,其中,音素作为构成语音的最小基本单位,所述在线式废料模型直接在所述音素补白模型中计算每一个语音帧的局部废料概率评分,不需要单独训练废料模型;根据不同场景的应用需求,自定义关键词列表,以卡麦基梅隆大学字典的划分方式,生成关键词和音素对应关系的字典信息;以关键词文本作为语言模型语料库,基于统计语言模型进行语言建模,对于给定关键词序列 ,3元语言模型概率表示如下: ,其中, 表示关键词序列, 表示关键词序列中的第 个字, 表示关键词序列中的第 个字, 表示关键词序列中的第 个字, 表示关键词序列的长度, 表示序号, 表示概率, 表示以 顺序出现的关键词序列的概率, 表示 在已知 和 的情况下的概率, 表示关键词序列中的第 个字, 表示关键词序列中的第 个字, 表示第 个到第 个概率进行连乘计算;所述预先训练的音素补白模型、字典信息和3元语言模型概率,三者共同构成自定义关键词列表的中文解码网络空间和英文解码网络空间,其中,当关键词列表更改时,组成语音的音素不需要重新训练,只需要重新生成待识别关键词列表的字典信息和3元语言模型概率即可。
2.根据权利要求1所述的方法,其中,所述语音活动检测包括:定义语音采集的参数信息,调用音频处理接口以如下参数对原始语音进行量化处理:采样频率为16000Hz ,声道数为1,每一个语音块包含的语音帧数为1024,得到第n时刻的量化处理的语音帧编码信息 , 个语音帧编码信息组合得到 到 时间段内的原始语音块信息 ;对所述量化处理的语音帧编码信息计算平均声音强度如下: ,其中, 表示第 时刻, 表示语音帧编码信息, 表示第 时刻采集到的语音帧编码信息, 表示第 时刻采集到的语音帧编码信息中的第 位, 表示第 时刻采集到的语音帧编码信息中的第 位, 表示第 时刻采集到的语音帧编码信息中的第 位, 表示原始语音块信息, 表示时刻, 表示第 个时刻, 表示第 个时刻, 表示第 个时刻, 表示 时刻采集到的语音帧编码信息, 表示 时刻采集到的语音帧编码信息, 表示 时刻采集到的语音帧编码信息, 表示平均声音强度也作为当前环境下的静音阈值, 表示影响因子,具体取值为 , 表示序号, 表示序号, 表示语音帧编码信息的数量, 表示语音帧编码信息中的第 位, 表示第n时刻采集到的语音帧编码信息中的第 位;分析声音强度变化,当关键词识别完成或长时间没有声音强度超过该阈值时,动态更新静音阈值。
3.根据权利要求2所述的方法,其中,所述定义自适应关键词匹配窗口,包括:对照关键词列表计算平均关键词长度为: ,其中, 表示平均关键词长度, 表示关键词数量, 表示序号, 表示第 个关键词的长度;以平均关键词长度为依据定义匹配窗口的长度 和窗口移动的距离 , 满足 ,当识别到关键词时 ,如果未识别到关键词则 。
4.根据权利要求3所述的方法,其中,所述对所述窗口内的语音段进行特征提取,得到梅尔频率倒谱系数嵌入特征向量,包括:对所述关键词匹配窗口内的语音信号预加重,弥补高频信号在声音传播中的损失;以固定帧长和帧移对语音信号重叠分帧,得到分帧语音信号;对所述分帧语音信号加窗,得到中央部分增强其余部分趋于零的语音信号;对加窗后的语音信号进行傅里叶变换,得到每一帧语音信号的线性频谱;将所述线性频谱输入梅尔频率滤波器组,得到梅尔频率倒谱系数嵌入特征向量。
5.根据权利要求4所述的方法,所述将所述梅尔频率倒谱系数嵌入特征向量依次输入所述解码网络空间中,得到识别结果,包括:获取自适应关键词匹配窗口内的梅尔频率倒谱系数嵌入特征向量作为语音观察序列: ,其中, 表示语音观察序列, 表示语音观察序列中的第 帧, 表示语音观察序列中的第 帧, 表示语音观察序列中的第 帧;在所述中文解码网络空间 和英文解码网络空间 构成并行的多语言解码器中,对同一个语音观察序列 分别在两个解码网络空间中使用维特比算法并行计算解码,得到给定的语音观察序列的包含关键词音素和非关键词音素的最佳状态序列 和 ,计算确认得分如下: ,其中, 表示语音观察序列 在中文解码网络空间的确认得分, 表示概率, 表示语音观察序列, 表示中文最佳状态序列, 表示 在语音观察序列为 时出现的条件概率, 表示 在语言模型中出现的概率, 表示语音观察序列 的概率, 表示 在 时出现的条件概率, 表示语音观察序列 在英文解码网络空间的确认得分, 表示英文最佳状态序列, 表示 在语音观察序列为 时出现的条件概率, 表示 在语言模型中出现的概率, 表示 在 时出现的条件概率;其中 和 由语言模型获得, 和 则由隐马尔可夫模型声学模型获得,两个式子分母相同,具体就是比较分子,即比较在哪种语言解码网络空间下产生当前语音观察序列的概率最大,若 则认为识别到中文,否则认为识别到英文。
6.根据权利要求5所述的方法,其中,所述对所述识别结果后处理,生成目标识别结果作为输出,包括:在字典信息和语言模型的指导下,组合最佳状态路径,得到包含关键词和非关键词信息的识别结果;对所述包含非关键词信息的识别结果,以关键词列表作为所述音素输出概率的评判标准,得到目标识别结果作为输出,其满足: ,其中, 表示概率, 表示关键词, 表示关键词列表中的第 个关键词, 表示由最佳状态路径组合得到的识别结果, 表示在识别结果为 的情况下,最可能识别到的关键词。
7.一种应用于如权利要求1所述方法的特定场景下的中英文混合的离线语音关键词识别系统,包括:语音实时监听模块,用于麦克风实时监听当前环境下的语音信号;语音活动检测模块,用于检测语音信号中的待识别语音段;关键词识别模块,用于判断所述语音信号中是否有关键词出现;数据记录存储域检索模块,用于将出现关键词相关信息记录到数据库中,并提供数据查询功能。



