多维度、多粒度语音评分

语音语音评测评分

发布日期: 2022-07-23

更新日期: 2022-09-25

1. 2022 Cambridge PhD Thesis

发表信息：剑桥大学博士论文
创新点：由于大量、可靠的多维度人工评分较难获取，采用总分标注数据，通过限定输入特征进行端到端多维度评分。相较于特征提取-评分两阶段模型，端到端模型能更好地拟合人工分，且对不同的数据集、不同的任务，泛化性能更好
存在的问题：需要强制对齐信息；仅自制数据集上的评分效果；由于没有维度分人工标注，采用总分统计维度分评分效果

1.1. 系统结构

1.1.1. 发音评分

采用音素距离特征，与发音人属性（音色、性别等）不相关
传统方案：采用单高斯模型建模各音素的发音，计算各音素模型间的对称KL散度，拼接为 $\frac{1}{2} p\left ( p-1 \right )$ $\frac{1}{2} p (p - 1)$ 维的向量，并取 $\log\left ( d+1 \right )$ $lo g (d + 1)$ 。对于短语音，包含缺失音素的KL散度设为-1。输入一层全连接进行评分。
- 缺点：每个说话者需要大量数据训练高斯模型；可能丢弃发音相关的信息；未考虑音素的发音过程、同一音素在不同上下文中发音可能不同、音素对于评分的重要性取决于上下文；存在错误的识别、强制对齐
端到端方案：将各音素片段的帧序列编码为固定长度的embedding，对应同一音素的音素片段采用attention（学习忽略对齐错误的音素片段、关注发音错误的片段）加权平均得到音素embedding，计算音素embedding间的欧式距离。输入一层全连接进行评分。
- 各模块初始化
  - 双胞胎双向RNN：+sigmoid，判断两音素是否一致，预训练
  - 评分全连接层：采用基线模型初始化
- 端到端fine-tuning
- 为了模型收敛，损失函数需要加attention权重熵的惩罚项， $C \left( \lambda, S_{train} \right)=MSE_{train} -\beta \sum_{m=1}^{M} \sum_{n=1}^{N_{m}} \alpha_{n m} \log \alpha_{n m}$ ，其中 $M$ 为音素总数， $N_m$ 为该音素的音素片段数
- 存在的问题：音素片段数目不确定，attention如何实现？

1.1.2. 韵律评分

英语的重音等时性
传统方案
- 评分特征
  - 相邻元音音程时长的平均差 $ rPVI_V=\frac{1}{K_{V}-1} \sum_{k=1}^{{K_{V}-1}\left|d\left(\tau_{k}}{(V)}\right)-d\left(\tau_{k+1}^{(V)}\right)\right| $ ，其中， $d\left(\tau_{k}\right)$ 为第k个元音音程的时长， $K_V$ 为元音音程总数
  - 相邻非元音音程时长的平均差 $rPVI_C$
  - $ CCI_V=\frac{1}{K_{V}-1} \sum_{k=1}^{K_{V}-1}\left|\frac{d\left(\tau_{k}\right)}{l_{k}}-\frac{d\left(\tau_{k+1}\right)}{l_{k+1}}\right| $ ，其中 $l_{k}$ 为第k个元音音程中的元音个数， $\frac{d\left(\tau_{k}\right)}{l_{k}}$ 表示第k个元音音程中各元音的时长均值
  - $\mathrm{CCI}_{C}$
- 音程示例
端到端方案
- 采用attention学习音程中不同子段的重要性（学习忽略对齐错误导致的时长异常的子段），与该音程时长拼接 $ x_k=\left[\sum_{m=1}^{M{(k)}} \alpha_{m} d\left(v_{m}^{(k)}\right), d\left(\tau_{k}\right)\right] $
- 采用序列模型（BLSTM或transformer）学习元音音程特征序列 $x_{1: K_{V}}^{(V)}$ 、非元音音程特征序列。
- 分别在元音音程深层特征序列 $h_{1: K_{V}}^{(V)}$ 、非元音音程深层特征序列上加attention。
- 拼接 $\tilde{\boldsymbol{h}} = \left[\tilde{\boldsymbol{h}}^{(V)}, \tilde{\boldsymbol{h}}^{(C)}\right]$ ，采用1层全连接评分。

1.1.3. 语调评分

重读单词基频高
传统方案
- 方案一：浊音区域的基频的均值、中位数、最大值、1/4分位数、3/4分位数，采用1层全连接评分
- 方案二：考虑清音音素和静音，对于各音素，分别采用基频、浊音概率计算上述统计值并拼接，采用sequence-to-vector模型评分
- 方案三：采用最小二乘cosine拟合基频包络（DCT），清音区域插值，提取相应的系数向量采用DNN评分
端到端方案
- 输入：基频、浊音概率序列、position embedding。multi-head sequence-to-vector attention
- 考虑到长音频不适合用帧序列特征，采用sequence-to-vector模型学习各音素的特征表示，再采用sequence-to-vector模型预测分数

1.1.4. 文本评分

采用BERT提取word embedding，采用LSTM with attention评分[223]

1.1.5. 系统结构

1.2. 总分

方案一：各维度分均值
方案二：拼接各维度分打分器倒数第二层的输入表示，输入全连接网络评总分
方案三：各维度分的加权和：采用维度分打分器的中间表示、全连接网络计算attention系数

1.3. 评价

数据集
英语水平测试数据，测试含简答、读8句话、根据提示自由表述，对每个说话人评总分0-6。
基线：Gaussian Process评分器[154]

实验结果

*由于维度分没有人工标注，采用总分进行近似
*由于模型对随机初始化较敏感，统计5次训练的模型的均值、标准差

实验	实验结果	实验结论
发音		输入特征：MFCC vs PLP，性能差异较小；音素片段的sequence-to-vector模型，BLSTM + 最后一层输出additive attention，性能最好；在训练集-测试集匹配/不匹配的配置下，端到端模型性能均最好，一方面端到端模型可以学习更有表征能力的特征，另一方面泛化能力更好；观察人工分-机器分散点图，端到端模型存在低分打高，但对特定人工分，机器分分布更集中； tunability：分别采用音素距离KL散度、采用说话人分类任务训练得到的x-vector、采用评分任务训练得到的deep 音素距离特征，后者在L1分类任务上性能最好
韵律		sequence-to-vector模型：BLSTM + 最后一层输出additive attention；存在明显的低分打高
语调		相较于multi-head attention，attention LSTM评分效果更好；不存在明显的打分偏移，基于基频统计特征的DNN存在明显的低分打高
发音分-音素距离-音素片段attention分布		大多数情况下，attention权重接近均匀分布，仅排除少量异常值；余下的大部分只关注一个或少量具有代表性的音素片段；剩下的取中间值的较少，可能是随机现象，也可能是关注发音特别错误或特别好的音素片段
维度分相关性、互补性		发音评分与文本评分有一定的相关性：发音中缺失的音素与说话长度、单词的丰富程度等有关；各维度分互补
评分模型系统偏差		韵律分：高水平数据中才与总分相关，无法区分中低水平说话人的韵律水平；发音和文本特征较难区分高水平数据；发音分低分打低：可能由于ASR错误率更高
总分		各维度分的加权和（采用attention计算加权系数）效果最好

1.4. 其它

Kyriakopoulos K. Deep Learning for Automatic Assessment and Feedback of Spoken English[D]. University of Cambridge, 2022.
- 5.1节：理论推导了采用总分标注数据，训练多维度评分模型的可行性
Kyriakopoulos, K., Knill, K. M., and Gales, M. J. (2018). A deep learning approach to assessing non-native pronunciation of english using phone distances. In Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH, volume 2018, pages 1626–1630.
Kyriakopoulos, K., Knill, K. M., and Gales, M. J. (2019). A deep learning approach to automatic characterisation of rhythm in non-native english speech. In INTERSPEECH, pages 1836–1840.
Kyriakopoulos, K., Knill, K. M., and Gales, M. J. (2020). Automatic detection of accent and lexical pronunciation errors in spontaneous non-native english speech. Interspeech.

2. 2022 Multi-Aspect Multi-Granularity

作者：MIT 人工智能实验室（CSAIL）、平安科技研究院（PAII Inc.）
发表信息：ICASSP 2022
代码：https://github.com/YuanGongND/gopt (Goodness Of Pronunciation feature-based Transformer)
创新点
- 联合训练音素、单词、句子级各维度分及总分
- 采用BERT风格非层级的标准Transformer 架构

2.1. 系统结构

系统结构

声学模型
- TDNN-F，训练集：960h Librispeech，用Kaldi Librispeech S5 recipe训练
- PAII-A：自研AM，452h L1 + 1696h L2
- PAII-B：995h L1 + 6591h L2
输入
- GOP特征：84维（42个音素，log phone posterior、log posterior ratio），经过1层线性层降维至24维
- 正确发音phone embedding，24维。
  - 音素序列填充5个[cls] token，对应句子级各维度分、总分
- 位置embedding，24维，可训练
采用标准Transformer encoder结构，但减为3层，embedding 24维
评分：各个评分分别采用1层24*1的线性层，layer normalization。单词分：训练时反向传播至该单词的各个音素，推断时取其各个音素的输出的均值。

2.2. 评价

数据集：speechocean762（类别不均衡，主要为高分），单词、句子评分缩放至0-2，与音素一致
评价指标：主要为PCC（Pearson相关系数）
基线：speechocean762实现的RF（随机森林）、SVR（支持向量回归），[21]transfer learning、LSTM（模型深度、维度等与GOPT一致，LSTM最后一个token的输出作为句子表示）

实验结果
*用不同的随机种子重复5次实验，统计均值、标准差

实验结论
- GOPT除单词重音、句子完整度评分性能较差（可能与speechocean762训练集中句子完整度分布不均有关）外，其它任务可提供SOTA效果
- 采用PAII-A，音素、单词评分性能提升，但句子评分性能下降
- 联合训练音素、单词、句子评分模型，相对于分别训练，各模型性能都有提升。
- 正确发音phone embedding对提升模型性能有帮助
- 继续加宽或加深模型结构，性能无提升（训练集较小）
- 采用PAII-A、PAII-B，评分性能相当

2.3. 其它

Gong Y, Chen Z, Chu I H, et al. Transformer-Based Multi-Aspect Multi-Granularity Non-Native English Speaker Pronunciation Assessment[C]//ICASSP 2022-2022 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2022: 7262-7266.

3. 2020 Multi-Granularity

作者：腾讯智能平台产品部、北京语言大学
发表信息：Interspeech 2020
创新点
- 考虑音素、单词、句子评分间的层次关系和上下文，提出一种分层网络结构，联合评分
- 采用半监督训练，利用无标注数据训练音素检错

3.1. 系统结构

音素检错
- 输入：GOP（通过强制对齐计算）、音素embedding、位置embedding（B、I、E、S分别表示单词开头、中间、末尾、单音素词。音素发音因其在单词中的位置而异）、类别embedding（C、V分别表示辅音、元音。单词中元音和辅音的重要性不同）
- 模型结构：BLSTM。半监督学习
单词评分
单词中每个音素对最终单词得分的贡献不同，采用attention机制。
$U_{p}=\tanh \left(w * O_{p}+b\right)$ , $\alpha_{p}=\frac{\exp \left(U_{p}^{T} U_{w}\right)}{\sum_{q \in w} \exp \left(U_{q}^{T} U_{w}\right)}$ , $S_{w}=\sum_{p \in w} \alpha_{p} O_{p}$
其中, $O_p$ 为音素 $p$ 的评分, $U_w$ 是随机初始化的向量, 可以作为单词上下文的记忆单元。
句子评分
- 不同属性（如词性、音素个数）的单词对句子得分贡献不同。
- 输入：word层输出、词性、单词长度
- 模型结构：BLSTM+MLP，sigmoid回归。
multitask： $L_{total}=(1-w)\times L_{sent}+ w\times L_{phoneme}$ ， $L_{sent}$ 其中为句子评分的均方误差损失， $L_{phoneme}$ 为PUNU损失。

半监督 - PUNU (positive unlabeled and negative unlabeled) learning
- 正样本：native发音；负样本：GOP较低的L2学习者发音；unlabeled数据：剩下的L2发音。
- 损失函数如下：
  
  $R_{\mathrm{PUNU}}^{\gamma}(g)=(1-\gamma) R_{\mathrm{PU}}(g)+\gamma R_{\mathrm{NU}}(g)$
  $R_{\mathrm{PU}}(g)=\theta_{\mathrm{P}} E_{\mathrm{P}}[l(g(x), 1)]+E_{\mathrm{U}}[l(g(x),-1)]-\theta_{\mathrm{P}} E_{\mathrm{P}}[l(g(x),-1)]$
  $R_{\mathrm{NU}}(g)=\theta_{\mathrm{N}} E_{\mathrm{N}}[l(g(x),-1)]+E_{\mathrm{U}}[\mathrm{l}(g(x), 1)]-\theta_{\mathrm{N}} E_{\mathrm{N}}[l(g(x), 1)]$
  
  其中, $g$ 为任意决策函数, $l$ 为 loss 函数, $\theta_P$ 、 $\theta_N$ 为正负样本的先验概率, $E_U$ 、 $E_P$ 、 $E_N$ 分别表示未标记数据、正类、负类（边际）的损失期望。

3.2. 评价

数据集
- Timit + 22998英语句子，1000中国说话人，16-20岁。句子评分、单词评分、音素检错标注量分别为8998、4000、10000句。句子平均单词数为13。标注音素量99568。
- 1-5分，3人评分取均值。3人评一致性：计算某一评分员的评分与剩余评分员的平均分之间的PCC，句子、词级分别为0.78、0.76。
- 检错3人投票， 3人评一致性：随机挑选1000句，计算任意两标注员的Kappa系数，平均0.65，95%置信度区间(0.647, 0.653)，p-value小于0.1%，一致性较高。
训练集：7998句non-native数据，有评分。5000句native数据，无评分。
测试集：4000句，标注了39808个音素、1000词、1000句。错误音素占比约14%。

音素错误分布单词分分布句子分分布

实验结果

实验	基线	实验结果	实验结论
句子评分	2BLSTM+MLP，后一BLSTM的输入为音素BLSTM最后一个隐含单元的输出拼接、词性、单词长度	*STL：single task learning	单词层attention、multitask学习可提升评分性能
单词评分	BLSTM+MLP：去掉上述句子评分BLSTM。SL：用3000个单词评分标注数据训练		对比前两行：attention机制有收益；最后一行：PCC较高，仅用句子、音素级标注信息，仍能学到单词分信息
音素检错	SL：用59760个音素检错标注训练		半监督学习未召回略差于有监督学习，虚警相差较小。加无标注数据效果变差？

3.3. 其它

Lin B, Wang L, Feng X, et al. Automatic scoring at multi-granularity for L2 pronunciation[J]. Proc. Interspeech 2020, 2020: 3022-3026.

4. 2019 ETS monologue and dialogue

作者：ETS
发表信息：ICASSP 2019
创新点
- 采用基于attention的BLSTM对自由表述的3个维度评分：内容（话题相关度、得体性）、 ~~组织（语篇结构和连贯性）、~~ 语用（词汇、语法）、delivery（发音、重音、流利度、语调）
- 采用BLSTM或MemN2N（端到端记忆网络）编码提示文本或多轮对话的历史信息

4.1. 系统结构

内容
- word embedding层：用Google’s Word2Vec初始化，模型训练时优化
- 采用BLSTM将提示文本的词序列编码为固定长度的向量 $v^{p}$ ，与回答中各个词的词向量 $e_{t}^{r}$ 拼接
语用特征：POS：词性one-hot向量；DEP：句法依存标签，如主语、宾语；Morph（形态）。采用spaCy提取，分别19、51、248维
发音：采用non-native ASR模型识别，native ASR模型强制对齐。8维特征：时长、音调、强度、静音或停顿时长、non-native ASR模型后验概率、native ASR模型后验概率、识别结果LM分、ASR置信度分，取各帧平均（实验对比音素、音节、词级特征）
评分模型
- 维度分：feed-forward attention层输出向量的均值。多轮对话：对每个回答评维度分，整个对话的维度分取多轮对话的均值
- 总分：3个维度分拼接，经过1层全连接层

采用MemN2N（端到端记忆网络）编码多轮对话的历史信息

拼接 $e_{t}^{r}$ 、 $v^{p}$ 、 $a^{p} \cdot v_{h}^{p}$ 、 $a^{r} \cdot v_{h}^{r}$ ，其中， $v_{h}^{p}$ 、 $v_{h}^{r}$ 分别表示历史提示、历史回答， $a^{p}$ 、 $a^{r}$ 分别表示对应的attention向量
语用特征示例

4.2. 评价

数据集
- monologue：delivery、内容、语用，0-4分
- 对话：整个对话的总分，考虑熟练程度和任务完成情况
声学模型
- 识别模型：基于iVector的BLSTM，960h non-native数据。LM用提示文本自适应
- 强制对齐：960h LibriSpeech
- 提取语用、内容特征时过滤filler words、重复的partial words
超参：BLSTM 128维。dropout=0.5。100 epochs、batch size 64。MemN2N：记忆前10轮提示与回答，memory size 20
基线
- 评分特征：SpeechRater，超过100个
- 回归模型：Logistic回归、AdaBoost、决策树、Gradient Boost、SVM、随机森林等。其中，随机森林效果最好。
实验结果

*预测的维度分与总分计算相关度，无人工标注
实验结论
- 内容：结合提示信息，评分效果较好。采用MemN2N可进一步提高多轮对话内容评分与人工分的相关度
- 发音采用音节级特征较好（音素级或音节级LM分：采用所属单词的LM分）
- 输入所有特征计算总分，效果更好，神经网络可以学习各维度特征间的关系

4.3. 其它

Qian Y, Lange P, Evanini K, et al. Neural approaches to automated speech scoring of monologue and dialogue responses[C]//ICASSP 2019-2019 IEEE international conference on acoustics, speech and signal processing (ICASSP). IEEE, 2019: 8112-8116.
展望：可解释性、诊断

5. 2018 ETS prompt-aware

方案同上
基线：SVR评分模型。采用C-rater系统提取特征：
- 2-5阶 character n-gram
- 词级 1-2阶 n-gram
- 回答的字符数
- 句法依赖：采用Zpar dependency parser提取
- Prompt bias
LM：口语测试转写文本（超过5百万词）训练的LM、提示文本训练的LM 线性插值

实验结果

对比实验	实验结果	实验结论
prompt-aware Siamese LSTM: 用于评分前先进行离题检测，分类准确度97.3%。Manhattan distance		prompt-encoder可以学到离题信息
模型结构		fine-tune word embedding、attention机制、prompt encoder都有收益
对比传统模型		prompt bias特征收益较小；相较于采用人工转写，采用ASR识别结果时集外题相对集内题的效果下降更显著； prompt encoder（最后两列）有收益，特别是在集外题上

5.1. 其它

Qian Y, Ubale R, Mulholland M, et al. A prompt-aware neural network approach to content-based scoring of non-native spontaneous speech[C]//2018 IEEE spoken language technology workshop (SLT). IEEE, 2018: 979-986.
内容分
- LSA (Latent Semantic Analysis)：对各任务分别训练LSA模型，计算识别的词序列与训练集中高分数据的cosine相似度，SVD（奇异值分解）降维
- CVA (Content Vector Analysis)：按人工分将训练集分组，计算cosine相似度。
- 考虑识别单词的置信度分，使模型对识别错误更鲁棒
- multi-task训练BLSTM：打分+word embedding，指定分数的词向量更有区分性
  
  Alikaniotis D, Yannakoudakis H, Rei M. Automatic text scoring using neural networks[J]. arXiv preprint arXiv:1606.04289, 2016.

本文不允许转载。

基于深度学习的语音评分

2022-07-23 语音语音评测评分

WeNet论文

2022-06-12 语音工具包 WeNet