CN117765980B一种深度语音特征的构建及心理健康筛查方法-转果果

邵

邵珠宏机构暂无

技术领域暂无

张

张佐闱机构暂无

技术领域暂无

尚

尚媛园机构暂无

技术领域暂无

李

李世豪机构暂无

技术领域暂无

胡

胡强机构暂无

技术领域暂无

张

张岩丽机构暂无

技术领域暂无

宋

宋巍机构暂无

技术领域暂无

谭

谭小慧机构暂无

技术领域暂无

梁

梁佩鹏机构暂无

技术领域暂无

摘要

本发明提出一种深度语音特征的构建及心理健康筛查方法，包括，获取语音数据，对语音数据进行预处理；对预处理后的语音数据进行快速傅里叶变换得到功率谱，对功率谱应用梅尔滤波器组并取对数得到梅尔谱图；对于每个帧的对数梅尔谱图，计算其一阶和二阶差分；根据得到的对数梅尔谱图及其一阶和二阶差分构建三通道图像；对三通道图像进行处理以提取深度时序特征和深度空间特征；将深度时序特征与深度空间特征进行拼接并使用全连接层进行降维，从而得到融合语音特征；对融合语音特征，采用包含多任务学习策略的预测网络进行心理健康的筛查及严重程度的预测。通过本发明提出的方法，能够应用于心理与精神健康监测，实现早发现、早干预、早治疗。

1.一种深度语音特征的构建及心理健康筛查方法，其特征在于，包括以下步骤：获取语音数据，对所述语音数据进行预处理；对预处理后的语音数据进行快速傅里叶变换得到功率谱，对所述功率谱应用梅尔滤波器组并取对数得到梅尔谱图；对于每个帧的对数梅尔谱图，计算其一阶和二阶差分；根据得到的对数梅尔谱图及其一阶和二阶差分构建三通道图像；对所述三通道图像进行处理以提取深度时序特征和深度空间特征；将所述深度时序特征与所述深度空间特征进行拼接并使用全连接层进行降维，从而得到融合语音特征；对所述融合语音特征，采用包含多任务学习策略的预测网络进行心理健康的筛查及严重程度的预测；其中，所述对所述三通道图像进行处理以提取深度时序特征和深度空间特征，还包括：选用卷积网络并引入压缩-激励模块提取其深度空间特征，具体包括，定义原始特征图的维度为H×W×C，其中H表示高度，W表示宽度，C表示通道数，通过压缩操作将H和W压缩成一维，即形成一个大小为1×1×C的向量；通过激励部分使用全连接层对每个通道的重要性进行预测，得到不同通道的重要性大小后再作用到压缩之前的特征图的对应通道上，以调整每个通道的特征贡献度，最终得到加权后的深度空间特征。 2.根据权利要求1所述的方法，其特征在于，所述对所述语音数据进行预处理，包括：对所述语音数据进行预加重、分帧和加窗。 3.根据权利要求1所述的方法，其特征在于，所述对于每个帧的对数梅尔谱图，计算其一阶和二阶差分，包括：定义t时刻的一阶差分为d t ，那么计算公式为：其中，c t+n 和c t-n 分别代表t+n和t-n时刻的梅尔频率倒谱系数，对d t 再一次使用上述公式就可以得到二阶差分。 4.根据权利要求1所述的方法，其特征在于，所述对所述三通道图像进行处理以提取深度时序特征和深度空间特征，包括：选用交叉堆叠的长短时记忆网络与自注意力模块提取其深度时序特征，具体地，所述长短时记忆网络中的核心部件是门，定义在时间步t的遗忘门、输入门、输出门、单元状态和隐藏状态分别是f t 、i t 、o t 、c t 和h t ，那么所述长短时记忆网络的方程可以被表示为：c t ＝f t ×c t-1 +i t ×tanh(W c x t +R c h t-1 +b c )，h t ＝o t ×tanh(c t )，其中，σ是Sigmoid激活函数，[W f ,R f ]、[W i ,R i ]、[W o ,R o ]、[W c ,R c ]和[b f ,b i ,b o ,b c ]分别为遗忘门、输入门、输出门和单元状态的权重矩阵和偏置，x t 为时刻t的输入，h t-1 为时刻t前一个时刻的隐藏状态，tanh为双曲正切激活函数；得到所述长短时记忆网络的输出后将其馈送到所述自注意力模块；定义所述自注意力模块输入序列为X＝[x 1 ,x 2 ,...,x n ]，分别使用调制矩阵W q 、W k 和W v 对其进行处理：Q＝W q X，K＝W k X，V＝W v X，由此可以得到查询矩阵Q＝[q 1 ,q 2 ,...,q N ]，键矩阵K＝[k 1 ,k 2 ,...,k N ]和值矩V＝[v 1 ,v 2 ,...,v N ]，之后计算各查询向量q n 的注意力函数输出：从而通过网络的学习给与抑郁症相关性更高的语音特征更高的权重，以提高网络的重视，得到深度时序特征。 5.根据权利要求1所述的方法，其特征在于，在对所述融合语音特征，采用包含多任务学习策略的预测网络进行心理健康的筛查及严重程度的预测之前，还包括：使用卷积层、Dropout层对所述三通道图像进行压缩，去除与性别信息无关或冗余的信息特征后，使用注意力模块与全连接网络在输入信息中获取与性别相关的信息；通过将带权重的性别损失引入包含多任务学习策略的预测网络的整体损失的计算约束网络的收敛。 6.一种深度语音特征的构建及心理健康筛查装置，其特征在于，包括以下模块：获取模块，用于获取语音数据，对所述语音数据进行预处理；变换模块，用于对预处理后的语音数据进行快速傅里叶变换得到功率谱，对所述功率谱应用梅尔滤波器组并取对数得到梅尔谱图；对于每个帧的对数梅尔谱图，计算其一阶和二阶差分；构建模块，用于根据得到的对数梅尔谱图及其一阶和二阶差分构建三通道图像；提取模块，用于对所述三通道图像进行处理以提取深度时序特征和深度空间特征；将所述深度时序特征与所述深度空间特征进行拼接并使用全连接层进行降维，从而得到融合语音特征，其中，选用卷积网络并引入压缩-激励模块提取其深度空间特征，具体包括，定义原始特征图的维度为H×W×C，其中H表示高度，W表示宽度，C表示通道数，通过压缩操作将H和W压缩成一维，即形成一个大小为1×1×C的向量；通过激励部分使用全连接层对每个通道的重要性进行预测，得到不同通道的重要性大小后再作用到压缩之前的特征图的对应通道上，以调整每个通道的特征贡献度，最终得到加权后的深度空间特征；预测模块，用于对所述融合语音特征，采用包含多任务学习策略的预测网络进行心理健康的筛查及严重程度的预测。 7.根据权利要求6所述的装置，其特征在于，所述预测模块，还用于：使用卷积层、Dropout层对所述三通道图像进行压缩，去除与性别信息无关或冗余的信息特征后，使用注意力模块与全连接网络在输入信息中获取与性别相关的信息；通过将带权重的性别损失引入包含多任务学习策略的预测网络的整体损失的计算约束网络的收敛。 8.一种计算机设备，其特征在于，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现如权利要求1-5中任一所述的深度语音特征的构建及心理健康筛查方法。 9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-5任意一项所述的深度语音特征的构建及心理健康筛查方法。

CN115019833ACN115019833A