BẢO TỒN ĐẶC TRƯNG ÂM VỊ CHO ĐÁNH GIÁ PHÁT ÂM TỰ ĐỘNG

Nguyễn Thị Bích Nhật

doi:10.70117/hdujs.79.09.2025.953

pdf

Số xuất bản: Số 79-09.2025: Khoa học Tự nhiên, Kỹ thuật và Công nghệ

Chuyên mục: Khoa học Tự nhiên, Kỹ thuật và Công nghệ

DOI: 10.70117/hdujs.79.09.2025.953

Ngày xuất bản: 30/09/2025

Lượt xem 5

Lượt tải xuống 3

Trích dẫn bài báo

Nguyễn, T. B. N. (2025). BẢO TỒN ĐẶC TRƯNG ÂM VỊ CHO ĐÁNH GIÁ PHÁT ÂM TỰ ĐỘNG. Tạp chí Khoa học Trường Đại học Hồng Đức, 79(09), 58-64. https://doi.org/10.70117/hdujs.79.09.2025.953

Định dạng trích dẫn:

BẢO TỒN ĐẶC TRƯNG ÂM VỊ CHO ĐÁNH GIÁ PHÁT ÂM TỰ ĐỘNG

Nguyễn Thị Bích Nhật^1,
¹ Trường Đại học Hồng Đức

Tóm tắt

Nghiên cứu này giới thiệu một phương pháp cải tiến trong đánh giá phát âm tự động (Automatic Pronunciation Assessment - APA) thông qua cơ chế điều chuẩn tương phản thứ bậc. Phương pháp này tập trung vào việc bảo tồn đặc trưng âm vị trong biểu diễn ngữ âm bằng cách kết hợp ba hàm mất mát: tương phản, âm vị và thứ bậc. Mô hình phân tầng gồm ba cấp độ (âm vị, từ và câu) được triển khai nhằm tối ưu hóa khả năng phát hiện và định lượng lỗi phát âm. Kết quả thực nghiệm trên bộ dữ liệu tiếng Anh của người học tiếng Việt cho thấy phương pháp đề xuất cải thiện đáng kể độ chính xác của hệ thống đánh giá phát âm. Phương pháp nghiên cứu mở ra tiềm năng ứng dụng trong các hệ thống học ngôn ngữ thông minh.

Từ khóa

Đánh giá phát âm tự động (Automatic Pronunciation Assessment - APA), Học tương phản và điều chuẩn thứ bậc, Biểu diễn ngữ âm phân tầng, Phân tích lỗi phát âm theo âm vị.

Tài liệu tham khảo

[1] Derwing, T. M., & Munro, M. J. (2005). Second language accent and pronunciation teaching: A research-based approach. TESOL Quarterly, 39(3), 379–397.
[2] Witt, S. M. (2012). Automatic error detection in pronunciation training: Where we are and where we need to go. In Proceedings of the ISADEPT Workshop.
[3] Zhang, J., Wang, C., Liu, Y., & Huang, C. (2022). End-to-End Pronunciation Scoring with BERT-Based Phoneme Representations. In Proceedings of ICASSP 2022.
[4] Gong, Y., Zeghidour, N., & Glass, J. (2022). PCPA: Pronunciation-Centered Pretraining for Accented Speech Recognition and Assessment. arXiv preprint arXiv:2203.16755.
[5] Zhao, Z., & Xie, L. (2022). Self-supervised learning for pronunciation scoring with diverse accents. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 30, 1923–1935.
[6] Chen, G., Qian, Y., & Yu, K. (2018). Pronunciation assessment based on phonological features and acoustic model likelihood scores. In Proceedings of Interspeech 2018, 2182–2186.
7
[7] Yan, B.-C., Chao, W.-C., Li, J.-T., Wang, Y.-C., Wang, H.-W., Lin, M.-S., & Chen, B. (2024). ConPCO: Phonemic Characteristic Preserving for Automatic Pronunciation Assessment via Hierarchical Contrastive Ordinal Regularization. arXiv preprint arXiv:2406.02859.
[8] Yang, Z., Gong, Y., & Glass, J. (2023). ConPCO: Contrastive Phonemic and Ordinal Regularization for Goodness-of-Pronunciation. In Proceedings of Interspeech 2023.
[9] Chung, Y.-A., Hsu, W.-N., Tang, H., & Glass, J. (2020). An Unsupervised Autoregressive Model for Speech Representation Learning. In Proceedings of Interspeech 2020.
[10] Baevski, A., Zhou, Y., Mohamed, A., & Auli, M. (2020). wav2vec 2.0: A framework for self-supervised learning of speech representations. Advances in Neural Information Processing Systems, 33, 12449–12460.
[11] Chen, S., Huang, Z., & Huang, J. (2022). WavLM: Large-scale self-supervised pretraining for full stack speech processing. In ICASSP 2022 – IEEE International Conference on Acoustics, Speech and Signal Processing (pp. 3537–3541). IEEE.
[12] Hsu, W.-N., Bolte, B., Tsai, Y.-H. H., Lakhotia, K., Salakhutdinov, R., & Mohamed, A. (2021). HuBERT: Self-supervised speech representation learning by masked prediction of hidden units. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 29, 3451–3460.
[13] Li, X., Wang, T., & Zhao, S. (2021). Automatic pronunciation assessment for second language learners: A survey. Computer Speech & Language, 67, 101171.
[14] Zhang, Y., & Wang, L. (2022). Advances in computer-assisted pronunciation training: A review. IEEE Transactions on Education, 65(1), 10–19.

Thanh bên bài viết

Nội dung chính của bài viết

Tóm tắt

Từ khóa

Chi tiết bài viết

Tài liệu tham khảo