在审
一种零样本蒙古语情感语音合成方法
仁
仁庆道尔吉机构 暂无
彭
彭卫新机构 暂无
吉
吉亚图机构 暂无
乌
乌尼尔机构 暂无
刘
刘娜机构 暂无
石
石宝机构 暂无
摘要
一种零样本蒙古语情感语音合成方法,对说话人编码器进行训练,使说话人编码器可以从说话人语音中生成说话人嵌入向量;对蒙古语语文本进行字母到音素转换,得到音素序列数据;从蒙古语情感音频中提取说话人嵌入向量;FastSpeech2声学模型中添加交叉注意力机制,使模型能够对语音的情感进行细粒度控制;FastSpeech2声学模型中添加多头注意力机制,使模型可以依据多种信息合成梅尔频谱;将音素序列数据、说话人嵌入向量、情感标签输入改进后的FastSpeech2声学模型,生成梅尔频谱;将梅尔频谱输入至声码器,将声学特征转换为语音波形,完成零样本蒙古语情感语音合成。本发明可以直接从字符合成蒙古语情感语音,大大降低对语言学知识的要求,并且可以根据提示语音,更改合成蒙古语语音的说话人。
暂无引用专利



