BẢO TỒN ĐẶC TRƯNG ÂM VỊ CHO ĐÁNH GIÁ PHÁT ÂM TỰ ĐỘNG
Nội dung chính của bài viết
Tóm tắt
Nghiên cứu này giới thiệu một phương pháp cải tiến trong đánh giá phát âm tự động (Automatic Pronunciation Assessment - APA) thông qua cơ chế điều chuẩn tương phản thứ bậc. Phương pháp này tập trung vào việc bảo tồn đặc trưng âm vị trong biểu diễn ngữ âm bằng cách kết hợp ba hàm mất mát: tương phản, âm vị và thứ bậc. Mô hình phân tầng gồm ba cấp độ (âm vị, từ và câu) được triển khai nhằm tối ưu hóa khả năng phát hiện và định lượng lỗi phát âm. Kết quả thực nghiệm trên bộ dữ liệu tiếng Anh của người học tiếng Việt cho thấy phương pháp đề xuất cải thiện đáng kể độ chính xác của hệ thống đánh giá phát âm. Phương pháp nghiên cứu mở ra tiềm năng ứng dụng trong các hệ thống học ngôn ngữ thông minh.
Từ khóa
Đánh giá phát âm tự động (Automatic Pronunciation Assessment - APA), Học tương phản và điều chuẩn thứ bậc, Biểu diễn ngữ âm phân tầng, Phân tích lỗi phát âm theo âm vị.
Chi tiết bài viết
Tài liệu tham khảo
[2] Witt, S. M. (2012). Automatic error detection in pronunciation training: Where we are and where we need to go. In Proceedings of the ISADEPT Workshop.
[3] Zhang, J., Wang, C., Liu, Y., & Huang, C. (2022). End-to-End Pronunciation Scoring with BERT-Based Phoneme Representations. In Proceedings of ICASSP 2022.
[4] Gong, Y., Zeghidour, N., & Glass, J. (2022). PCPA: Pronunciation-Centered Pretraining for Accented Speech Recognition and Assessment. arXiv preprint arXiv:2203.16755.
[5] Zhao, Z., & Xie, L. (2022). Self-supervised learning for pronunciation scoring with diverse accents. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 30, 1923–1935.
[6] Chen, G., Qian, Y., & Yu, K. (2018). Pronunciation assessment based on phonological features and acoustic model likelihood scores. In Proceedings of Interspeech 2018, 2182–2186.
7
[7] Yan, B.-C., Chao, W.-C., Li, J.-T., Wang, Y.-C., Wang, H.-W., Lin, M.-S., & Chen, B. (2024). ConPCO: Phonemic Characteristic Preserving for Automatic Pronunciation Assessment via Hierarchical Contrastive Ordinal Regularization. arXiv preprint arXiv:2406.02859.
[8] Yang, Z., Gong, Y., & Glass, J. (2023). ConPCO: Contrastive Phonemic and Ordinal Regularization for Goodness-of-Pronunciation. In Proceedings of Interspeech 2023.
[9] Chung, Y.-A., Hsu, W.-N., Tang, H., & Glass, J. (2020). An Unsupervised Autoregressive Model for Speech Representation Learning. In Proceedings of Interspeech 2020.
[10] Baevski, A., Zhou, Y., Mohamed, A., & Auli, M. (2020). wav2vec 2.0: A framework for self-supervised learning of speech representations. Advances in Neural Information Processing Systems, 33, 12449–12460.
[11] Chen, S., Huang, Z., & Huang, J. (2022). WavLM: Large-scale self-supervised pretraining for full stack speech processing. In ICASSP 2022 – IEEE International Conference on Acoustics, Speech and Signal Processing (pp. 3537–3541). IEEE.
[12] Hsu, W.-N., Bolte, B., Tsai, Y.-H. H., Lakhotia, K., Salakhutdinov, R., & Mohamed, A. (2021). HuBERT: Self-supervised speech representation learning by masked prediction of hidden units. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 29, 3451–3460.
[13] Li, X., Wang, T., & Zhao, S. (2021). Automatic pronunciation assessment for second language learners: A survey. Computer Speech & Language, 67, 101171.
[14] Zhang, Y., & Wang, L. (2022). Advances in computer-assisted pronunciation training: A review. IEEE Transactions on Education, 65(1), 10–19.