愿,彼此相伴,走过流年

1. 2018 ETS acoustics + transcription

  • 作者:ETS
  • 发表信息:ICASSP 2018
  • 创新点:提示无关的神经网络评分模型(BD-LSTM + attention),输入识别文本word embedding、各单词的后验概率及声学特征,输出评分

1.1. 系统结构

系统结构

  • 声学模型:DNN-HMM,训练集:819h non-native自发语音
  • 评分模型输入
    • lexical模型:识别文本word embedding序列。采用预训练的Glove模型,OOV采用全0向量,300维,训练评分模型时fine-tune
    • 声学模型:每个词的声学模型后验概率、时长、pitch均值、intensity均值
  • 评分模型
    • 1D CNN
      • 参考[14],采用3种尺寸的卷积核(convsize1,convsize,convsize+1)\left(conv_{size}-1, conv_{size}, conv_{size}+1\right),用于覆盖不同的感受野。各convnconv_{n}个卷积核
      • input -> dropout dpCNN1dp_{CNN}1 -> 卷积层 -> max pooling(沿时间轴) -> dropout dpCNN2dp_{CNN}2
    • BD-LSTM
      • input -> dropout dpRNN1dp_{RNN}1 -> BD-LSTM -> 两个方向的隐层状态拼接 -> dropout dpRNN2dp_{RNN}2
    • BD-LSTM + attention
      • input -> dropout -> BD-LSTM -> attention -> dropout
    • 超参tuning:采用Hyperopt Python包实现的Tree Parzen Estimation (TPE)方法[23]。convsize=4,convn=100,dpCNN1=dpRNN1=0.25,dpCNN2=dpRNN2=0.5,LSTMdimlex=128,LSTMdimac=32conv_{size}=4, conv_{n}=100, dp_{CNN}1=dp_{RNN}1=0.25, dp_{CNN}2=dp_{RNN}2=0.5, LSTM_{dim}^{lex}=128, LSTM_{dim}^{ac}=32

1.2. 评价

  • 数据集:训练集 2930,开发集 731,测试集 1827。4分制。

  • 传统模型(基线)

    • 随机森林、GBT(Gradient Boosting Tree)、SVR(Support Vector Regression)。其中,GBT模型人-机评分相关度最高。

    • 评分特征

      评分特征

      类别 特征示例
      流利度 单词数/秒、单词数/段、静音段个数、静音段平均时长、长停顿(>0.5s)频率、有声停顿(uh、um)个数
      韵律、语调、重音 韵律事件(prominences and boundary tones)的占比、之间的平均距离、距离的平均差,元音、辅音、音节时长的占比、标准差、Pairwise Variability Index
      发音 native AM 强制对齐计算likelihood、ASR词级置信度均值、在native语料上统计各元音的时长均值,计算测试数据元音时长与参考值的差值的均值
      语法
      用词 多样性、复杂度
  • 实验结果

    *相较于传统评分模型采用n-gram提取评分特征,word embedding可提供更丰富的信息

  • 展望:可解释性、更多声学特征、其它attention机制

1.3. 其它

  • Chen L, Tao J, Ghaffarzadegan S, et al. End-to-end neural network based automated speech scoring[C]//2018 IEEE international conference on acoustics, speech and signal processing (ICASSP). IEEE, 2018: 6234-6238.
  • Yu Z, Ramanarayanan V, Suendermann-Oeft D, et al. Using bidirectional LSTM recurrent neural networks to learn high-level abstractions of sequential features for automated scoring of non-native spontaneous speech[C]//2015 IEEE Workshop on Automatic Speech Recognition and Understanding (ASRU). IEEE, 2015: 338-345.
  • Taghipour K, Ng H T. A neural approach to automated essay scoring[C]//Proceedings of the 2016 conference on empirical methods in natural language processing. 2016: 1882-1891. CNN(提取局部上下文信息)+ RNN(提取长时信息)+ mean over time回归(利用全文信息)

2. 2022 Chinese-English Interpretation口语翻译

  • 作者:广东外语外贸大学

2.1. 系统结构

  • 流畅度分:语速

  • 关键字、内容、语法:采用Bert预训练模型、BiLSTM、attention机制

  • 采用随机森林回归器融合4个维度分计算总分

2.2. 其它

  • Li X, Li X, Chen S, et al. Neural-based automatic scoring model for Chinese-English interpretation with a multi-indicator assessment[J]. Connection Science, 2022, 34(1): 1638-1653.

3. 2022 Word Scoring

  • 作者:字节跳动
  • 创新点
    • 数据增强:给定词典中的音素序列,从训练数据相应的音素级特征中随机抽样来伪造单词样本,单词分取音素GOP均值
    • 采用MFCC、ASR AM deep feature进行评分

数据增强

3.1. 其它

  • Fu K, Gao S, Wang K, et al. Improving Non-native Word-level Pronunciation Scoring with Phone-level Mixup Data Augmentation and Multi-source Information[J]. arXiv preprint arXiv:2203.01826, 2022.

4. 【弃】2020 Automated chinese language proficiency scoring by utilizing siamese convolutional neural network and fusion based approach

  • 论文质量较差,弃
  • 自制数据集

4.1. 系统结构

  • native speakers’ key points、测试者语音,提取100*300维向量 -> 分别送入权重共享的卷积层 -> pooling层 -> 计算cosine相似度 -> 线性层输出分数
  • 人工设计的特征:详见SpeechRater v5.0。提取tf-idf特征,计算测试语音、同一单词人工分4分的训练语音的cosine 相似度

4.2. 其它

  • Kwong A, Muzamal J H, Zhang P Y, et al. Automated chinese language proficiency scoring by utilizing siamese convolutional neural network and fusion based approach[C]//2020 International Conference on Engineering and Emerging Technologies (ICEET). IEEE, 2020: 1-6.
  • 语音评测系统质量控制[37, 39-42]

本文不允许转载。
  目录