愿,彼此相伴,走过流年

1. 2022 Cambridge PhD Thesis

  • 发表信息:剑桥大学博士论文
  • 创新点:由于大量、可靠的多维度人工评分较难获取,采用总分标注数据,通过限定输入特征进行端到端多维度评分。相较于特征提取-评分两阶段模型,端到端模型能更好地拟合人工分,且对不同的数据集、不同的任务,泛化性能更好
  • 存在的问题:需要强制对齐信息;仅自制数据集上的评分效果;由于没有维度分人工标注,采用总分统计维度分评分效果

1.1. 系统结构

1.1.1. 发音评分

  • 采用音素距离特征,与发音人属性(音色、性别等)不相关
  • 传统方案:采用单高斯模型建模各音素的发音,计算各音素模型间的对称KL散度,拼接为12p(p1)\frac{1}{2} p\left ( p-1 \right )维的向量,并取log(d+1)\log\left ( d+1 \right )。对于短语音,包含缺失音素的KL散度设为-1。输入一层全连接进行评分。
    • 缺点:每个说话者需要大量数据训练高斯模型;可能丢弃发音相关的信息;未考虑音素的发音过程、同一音素在不同上下文中发音可能不同、音素对于评分的重要性取决于上下文;存在错误的识别、强制对齐
  • 端到端方案:将各音素片段的帧序列编码为固定长度的embedding,对应同一音素的音素片段采用attention(学习忽略对齐错误的音素片段、关注发音错误的片段)加权平均得到音素embedding,计算音素embedding间的欧式距离。输入一层全连接进行评分。
    • 各模块初始化
      • 双胞胎双向RNN:+sigmoid,判断两音素是否一致,预训练
      • 评分全连接层:采用基线模型初始化
    • 端到端fine-tuning
    • 为了模型收敛,损失函数需要加attention权重熵的惩罚项,C(λ,Strain)=MSEtrainβm=1Mn=1NmαnmlogαnmC \left( \lambda, S_{train} \right)=MSE_{train} -\beta \sum_{m=1}^{M} \sum_{n=1}^{N_{m}} \alpha_{n m} \log \alpha_{n m},其中MM为音素总数,NmN_m 为该音素的音素片段数
    • 存在的问题:音素片段数目不确定,attention如何实现?

1.1.2. 韵律评分

  • 英语的重音等时性

  • 传统方案

    • 评分特征
      • 相邻元音音程时长的平均差 $ rPVI_V=\frac{1}{K_{V}-1} \sum_{k=1}{K_{V}-1}\left|d\left(\tau_{k}{(V)}\right)-d\left(\tau_{k+1}^{(V)}\right)\right| $ ,其中,d(τk)d\left(\tau_{k}\right) 为第k个元音音程的时长,KVK_V 为元音音程总数
      • 相邻非元音音程时长的平均差 rPVICrPVI_C
      • $ CCI_V=\frac{1}{K_{V}-1} \sum_{k=1}^{K_{V}-1}\left|\frac{d\left(\tau_{k}\right)}{l_{k}}-\frac{d\left(\tau_{k+1}\right)}{l_{k+1}}\right| $ ,其中 lkl_{k} 为第k个元音音程中的元音个数,d(τk)lk\frac{d\left(\tau_{k}\right)}{l_{k}} 表示第k个元音音程中各元音的时长均值
      • CCIC\mathrm{CCI}_{C}
    • 音程示例
  • 端到端方案

    • 采用attention学习音程中不同子段的重要性(学习忽略对齐错误导致的时长异常的子段),与该音程时长拼接 $ x_k=\left[\sum_{m=1}{M{(k)}} \alpha_{m} d\left(v_{m}^{(k)}\right), d\left(\tau_{k}\right)\right] $
    • 采用序列模型(BLSTM或transformer)学习元音音程特征序列 x1:KV(V)x_{1: K_{V}}^{(V)} 、非元音音程特征序列。
    • 分别在元音音程深层特征序列h1:KV(V)h_{1: K_{V}}^{(V)}、非元音音程深层特征序列上加attention。
    • 拼接 h~=[h~(V),h~(C)]\tilde{\boldsymbol{h}} = \left[\tilde{\boldsymbol{h}}^{(V)}, \tilde{\boldsymbol{h}}^{(C)}\right],采用1层全连接评分。

1.1.3. 语调评分

  • 重读单词基频高
  • 传统方案
    • 方案一:浊音区域的基频的均值、中位数、最大值、1/4分位数、3/4分位数,采用1层全连接评分
    • 方案二:考虑清音音素和静音,对于各音素,分别采用基频、浊音概率计算上述统计值并拼接,采用sequence-to-vector模型评分
    • 方案三:采用最小二乘cosine拟合基频包络(DCT),清音区域插值,提取相应的系数向量采用DNN评分
  • 端到端方案
    • 输入:基频、浊音概率序列、position embedding。multi-head sequence-to-vector attention
    • 考虑到长音频不适合用帧序列特征,采用sequence-to-vector模型学习各音素的特征表示,再采用sequence-to-vector模型预测分数

1.1.4. 文本评分

采用BERT提取word embedding,采用LSTM with attention评分[223]

1.1.5. 系统结构

1.2. 总分

  • 方案一:各维度分均值
  • 方案二:拼接各维度分打分器倒数第二层的输入表示,输入全连接网络评总分
  • 方案三:各维度分的加权和:采用维度分打分器的中间表示、全连接网络计算attention系数

1.3. 评价

  • 数据集
    英语水平测试数据,测试含简答、读8句话、根据提示自由表述,对每个说话人评总分0-6。

  • 基线:Gaussian Process评分器[154]

  • 实验结果

    • *由于维度分没有人工标注,采用总分进行近似
    • *由于模型对随机初始化较敏感,统计5次训练的模型的均值、标准差
    实验 实验结果 实验结论
    发音 输入特征:MFCC vs PLP,性能差异较小;
    音素片段的sequence-to-vector模型,BLSTM + 最后一层输出additive attention,性能最好;
    在训练集-测试集 匹配/不匹配的配置下,端到端模型性能均最好,一方面端到端模型可以学习更有表征能力的特征,另一方面泛化能力更好;
    观察人工分-机器分散点图,端到端模型存在低分打高,但对特定人工分,机器分分布更集中;
    tunability:分别采用音素距离KL散度、采用说话人分类任务训练得到的x-vector、采用评分任务训练得到的deep 音素距离特征,后者在L1分类任务上性能最好
    韵律 sequence-to-vector模型:BLSTM + 最后一层输出additive attention;
    存在明显的低分打高
    语调 相较于multi-head attention,attention LSTM评分效果更好;
    不存在明显的打分偏移,基于基频统计特征的DNN存在明显的低分打高
    发音分-音素距离-音素片段attention分布 大多数情况下,attention权重接近均匀分布,仅排除少量异常值;
    余下的大部分只关注一个或少量具有代表性的音素片段;
    剩下的取中间值的较少,可能是随机现象,也可能是关注发音特别错误或特别好的音素片段
    维度分相关性、互补性 发音评分与文本评分有一定的相关性:发音中缺失的音素与说话长度、单词的丰富程度等有关;
    各维度分互补
    评分模型系统偏差 韵律分:高水平数据中才与总分相关,无法区分中低水平说话人的韵律水平;
    发音和文本特征较难区分高水平数据;
    发音分低分打低:可能由于ASR错误率更高
    总分 各维度分的加权和(采用attention计算加权系数)效果最好

1.4. 其它

  • Kyriakopoulos K. Deep Learning for Automatic Assessment and Feedback of Spoken English[D]. University of Cambridge, 2022.
    • 5.1节:理论推导了采用总分标注数据,训练多维度评分模型的可行性
  • Kyriakopoulos, K., Knill, K. M., and Gales, M. J. (2018). A deep learning approach to assessing non-native pronunciation of english using phone distances. In Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH, volume 2018, pages 1626–1630.
  • Kyriakopoulos, K., Knill, K. M., and Gales, M. J. (2019). A deep learning approach to automatic characterisation of rhythm in non-native english speech. In INTERSPEECH, pages 1836–1840.
  • Kyriakopoulos, K., Knill, K. M., and Gales, M. J. (2020). Automatic detection of accent and lexical pronunciation errors in spontaneous non-native english speech. Interspeech.

2. 2022 Multi-Aspect Multi-Granularity

  • 作者:MIT 人工智能实验室(CSAIL)、平安科技研究院(PAII Inc.)
  • 发表信息:ICASSP 2022
  • 代码:https://github.com/YuanGongND/gopt (Goodness Of Pronunciation feature-based Transformer)
  • 创新点
    • 联合训练音素、单词、句子级各维度分及总分
    • 采用BERT风格非层级的标准Transformer 架构

2.1. 系统结构

系统结构

  • 声学模型
    • TDNN-F,训练集:960h Librispeech,用Kaldi Librispeech S5 recipe训练
    • PAII-A:自研AM,452h L1 + 1696h L2
    • PAII-B:995h L1 + 6591h L2
  • 输入
    • GOP特征:84维(42个音素,log phone posterior、log posterior ratio),经过1层线性层降维至24维
    • 正确发音phone embedding,24维。
      • 音素序列填充5个[cls] token,对应句子级各维度分、总分
    • 位置embedding,24维,可训练
  • 采用标准Transformer encoder结构,但减为3层,embedding 24维
  • 评分:各个评分分别采用1层24*1的线性层,layer normalization。单词分:训练时反向传播至该单词的各个音素,推断时取其各个音素的输出的均值。

2.2. 评价

  • 数据集:speechocean762(类别不均衡,主要为高分),单词、句子评分缩放至0-2,与音素一致
  • 评价指标:主要为PCC(Pearson相关系数)
  • 基线:speechocean762实现的RF(随机森林)、SVR(支持向量回归),[21]transfer learning、LSTM(模型深度、维度等与GOPT一致,LSTM最后一个token的输出作为句子表示)

实验结果
*用不同的随机种子重复5次实验,统计均值、标准差

  • 实验结论
    • GOPT除单词重音、句子完整度评分性能较差(可能与speechocean762训练集中句子完整度分布不均有关)外,其它任务可提供SOTA效果
    • 采用PAII-A,音素、单词评分性能提升,但句子评分性能下降
    • 联合训练音素、单词、句子评分模型,相对于分别训练,各模型性能都有提升。
    • 正确发音phone embedding对提升模型性能有帮助
    • 继续加宽或加深模型结构,性能无提升(训练集较小)
    • 采用PAII-A、PAII-B,评分性能相当

2.3. 其它

  • Gong Y, Chen Z, Chu I H, et al. Transformer-Based Multi-Aspect Multi-Granularity Non-Native English Speaker Pronunciation Assessment[C]//ICASSP 2022-2022 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2022: 7262-7266.

3. 2020 Multi-Granularity

  • 作者:腾讯智能平台产品部、北京语言大学
  • 发表信息:Interspeech 2020
  • 创新点
    • 考虑音素、单词、句子评分间的层次关系和上下文,提出一种分层网络结构,联合评分
    • 采用半监督训练,利用无标注数据训练音素检错

3.1. 系统结构

  • 音素检错
    • 输入:GOP(通过强制对齐计算)、音素embedding、位置embedding(B、I、E、S分别表示单词开头、中间、末尾、单音素词。音素发音因其在单词中的位置而异)、类别embedding(C、V分别表示辅音、元音。单词中元音和辅音的重要性不同
    • 模型结构:BLSTM。半监督学习
  • 单词评分
    单词中每个音素对最终单词得分的贡献不同,采用attention机制。
    Up=tanh(wOp+b)U_{p}=\tanh \left(w * O_{p}+b\right), αp=exp(UpTUw)qwexp(UqTUw)\alpha_{p}=\frac{\exp \left(U_{p}^{T} U_{w}\right)}{\sum_{q \in w} \exp \left(U_{q}^{T} U_{w}\right)}, Sw=pwαpOpS_{w}=\sum_{p \in w} \alpha_{p} O_{p}
    其中, OpO_p 为音素pp的评分, UwU_w是随机初始化的向量, 可以作为单词上下文的记忆单元。
  • 句子评分
    • 不同属性(如词性、音素个数)的单词对句子得分贡献不同。
    • 输入:word层输出、词性、单词长度
    • 模型结构:BLSTM+MLP,sigmoid回归。
  • multitask:Ltotal=(1w)×Lsent+w×LphonemeL_{total}=(1-w)\times L_{sent}+ w\times L_{phoneme}LsentL_{sent}其中为句子评分的均方误差损失,LphonemeL_{phoneme}为PUNU损失。
  • 半监督 - PUNU (positive unlabeled and negative unlabeled) learning
    • 正样本:native发音;负样本:GOP较低的L2学习者发音;unlabeled数据:剩下的L2发音。

    • 损失函数如下:

      RPUNUγ(g)=(1γ)RPU(g)+γRNU(g)R_{\mathrm{PUNU}}^{\gamma}(g)=(1-\gamma) R_{\mathrm{PU}}(g)+\gamma R_{\mathrm{NU}}(g)
      RPU(g)=θPEP[l(g(x),1)]+EU[l(g(x),1)]θPEP[l(g(x),1)]R_{\mathrm{PU}}(g)=\theta_{\mathrm{P}} E_{\mathrm{P}}[l(g(x), 1)]+E_{\mathrm{U}}[l(g(x),-1)]-\theta_{\mathrm{P}} E_{\mathrm{P}}[l(g(x),-1)]
      RNU(g)=θNEN[l(g(x),1)]+EU[l(g(x),1)]θNEN[l(g(x),1)]R_{\mathrm{NU}}(g)=\theta_{\mathrm{N}} E_{\mathrm{N}}[l(g(x),-1)]+E_{\mathrm{U}}[\mathrm{l}(g(x), 1)]-\theta_{\mathrm{N}} E_{\mathrm{N}}[l(g(x), 1)]

      其中, gg 为任意决策函数, ll 为 loss 函数, θP\theta_PθN\theta_N 为正负样本的先验概率, EUE_UEPE_PENE_N 分别表示未标记数据、正类、负类(边际)的损失期望。

3.2. 评价

  • 数据集

    • Timit + 22998英语句子,1000中国说话人,16-20岁。句子评分、单词评分、音素检错标注量分别为8998、4000、10000句。句子平均单词数为13。标注音素量99568。
    • 1-5分,3人评分取均值。3人评一致性:计算某一评分员的评分与剩余评分员的平均分之间的PCC,句子、词级分别为0.78、0.76。
    • 检错3人投票, 3人评一致性:随机挑选1000句,计算任意两标注员的Kappa系数,平均0.65,95%置信度区间(0.647, 0.653),p-value小于0.1%,一致性较高。
  • 训练集:7998句non-native数据,有评分。5000句native数据,无评分。

  • 测试集:4000句,标注了39808个音素、1000词、1000句。错误音素占比约14%。

    音素错误分布 单词分分布 句子分分布
  • 实验结果

    实验 基线 实验结果 实验结论
    句子评分 2BLSTM+MLP,后一BLSTM的输入为音素BLSTM最后一个隐含单元的输出拼接、词性、单词长度
    *STL:single task learning
    单词层attention、multitask学习可提升评分性能
    单词评分 BLSTM+MLP:去掉上述句子评分BLSTM。SL:用3000个单词评分标注数据训练 对比前两行:attention机制有收益;
    最后一行:PCC较高,仅用句子、音素级标注信息,仍能学到单词分信息
    音素检错 SL:用59760个音素检错标注训练 半监督学习未召回略差于有监督学习,虚警相差较小。加无标注数据效果变差?

3.3. 其它

  • Lin B, Wang L, Feng X, et al. Automatic scoring at multi-granularity for L2 pronunciation[J]. Proc. Interspeech 2020, 2020: 3022-3026.

4. 2019 ETS monologue and dialogue

  • 作者:ETS
  • 发表信息:ICASSP 2019
  • 创新点
    • 采用基于attention的BLSTM对自由表述的3个维度评分:内容(话题相关度、得体性)、 组织(语篇结构和连贯性)、 语用(词汇、语法)、delivery(发音、重音、流利度、语调)
    • 采用BLSTM或MemN2N(端到端记忆网络)编码提示文本或多轮对话的历史信息

4.1. 系统结构

  • 内容
    • word embedding层:用Google’s Word2Vec初始化,模型训练时优化
    • 采用BLSTM将提示文本的词序列编码为固定长度的向量vpv^{p},与回答中各个词的词向量etre_{t}^{r}拼接
  • 语用特征:POS:词性one-hot向量;DEP:句法依存标签,如主语、宾语;Morph(形态)。采用spaCy提取,分别19、51、248维
  • 发音:采用non-native ASR模型识别,native ASR模型强制对齐。8维特征:时长、音调、强度、静音或停顿时长、non-native ASR模型后验概率、native ASR模型后验概率、识别结果LM分、ASR置信度分,取各帧平均(实验对比音素、音节、词级特征)
  • 评分模型
    • 维度分:feed-forward attention层输出向量的均值。多轮对话:对每个回答评维度分,整个对话的维度分取多轮对话的均值
    • 总分:3个维度分拼接,经过1层全连接层
  • 采用MemN2N(端到端记忆网络)编码多轮对话的历史信息

    拼接etre_{t}^{r}vpv^{p}apvhpa^{p} \cdot v_{h}^{p}arvhra^{r} \cdot v_{h}^{r},其中,vhpv_{h}^{p}vhrv_{h}^{r}分别表示历史提示、历史回答,apa^{p}ara^{r}分别表示对应的attention向量

  • 语用特征示例

4.2. 评价

  • 数据集

    • monologue:delivery、内容、语用,0-4分
    • 对话:整个对话的总分,考虑熟练程度和任务完成情况
  • 声学模型

    • 识别模型:基于iVector的BLSTM,960h non-native数据。LM用提示文本自适应
    • 强制对齐:960h LibriSpeech
    • 提取语用、内容特征时过滤filler words、重复的partial words
  • 超参:BLSTM 128维。dropout=0.5。100 epochs、batch size 64。MemN2N:记忆前10轮提示与回答,memory size 20

  • 基线

    • 评分特征:SpeechRater,超过100个
    • 回归模型:Logistic回归、AdaBoost、决策树、Gradient Boost、SVM、随机森林等。其中,随机森林效果最好。
  • 实验结果

    *预测的维度分与总分计算相关度,无人工标注

  • 实验结论

    • 内容:结合提示信息,评分效果较好。采用MemN2N可进一步提高多轮对话内容评分与人工分的相关度
    • 发音采用音节级特征较好(音素级或音节级LM分:采用所属单词的LM分)
    • 输入所有特征计算总分,效果更好,神经网络可以学习各维度特征间的关系

4.3. 其它

  • Qian Y, Lange P, Evanini K, et al. Neural approaches to automated speech scoring of monologue and dialogue responses[C]//ICASSP 2019-2019 IEEE international conference on acoustics, speech and signal processing (ICASSP). IEEE, 2019: 8112-8116.
  • 展望:可解释性、诊断

5. 2018 ETS prompt-aware

  • 方案同上

  • 基线:SVR评分模型。采用C-rater系统提取特征:

    • 2-5阶 character n-gram
    • 词级 1-2阶 n-gram
    • 回答的字符数
    • 句法依赖:采用Zpar dependency parser提取
    • Prompt bias
  • LM:口语测试转写文本(超过5百万词)训练的LM、提示文本训练的LM 线性插值

  • 实验结果

    对比实验 实验结果 实验结论
    prompt-aware
    Siamese LSTM: 用于评分前先进行离题检测,分类准确度97.3%。Manhattan distance
    模型结构对比 prompt-encoder可以学到离题信息
    模型结构 模型结构对比 fine-tune word embedding、attention机制、prompt encoder都有收益
    对比传统模型 对比基线 prompt bias特征收益较小;
    相较于采用人工转写,采用ASR识别结果时集外题相对集内题的效果下降更显著;
    prompt encoder(最后两列)有收益,特别是在集外题上

5.1. 其它

  • Qian Y, Ubale R, Mulholland M, et al. A prompt-aware neural network approach to content-based scoring of non-native spontaneous speech[C]//2018 IEEE spoken language technology workshop (SLT). IEEE, 2018: 979-986.
  • 内容分
    • LSA (Latent Semantic Analysis): 对各任务分别训练LSA模型,计算识别的词序列与训练集中高分数据的cosine相似度,SVD(奇异值分解)降维
    • CVA (Content Vector Analysis):按人工分将训练集分组,计算cosine相似度。
    • 考虑识别单词的置信度分,使模型对识别错误更鲁棒
    • multi-task训练BLSTM:打分+word embedding,指定分数的词向量更有区分性

      Alikaniotis D, Yannakoudakis H, Rei M. Automatic text scoring using neural networks[J]. arXiv preprint arXiv:1606.04289, 2016.


本文不允许转载。
  目录