CẢI THIỆN HIỆU QUẢ CHÚ THÍCH ẢNH TIẾNG VIỆT DỰA TRÊN HỢP NHẤT ĐẶC TRƯNG BẰNG CƠ CHẾ CHÚ Ý

Hoàng  Anh Công; Nguyễn Đình Công; Phạm Thế Anh

doi:10.70117/hdujs.84.2.2026.1139

pdf

Số xuất bản: Số 84-02.2026: Chuyên ngành Khoa học Tự nhiên, Kỹ thuật và Công nghệ

Chuyên mục: Khoa học Tự nhiên, Kỹ thuật và Công nghệ

DOI: 10.70117/hdujs.84.2.2026.1139

Ngày xuất bản: 25/03/2026

Lượt xem 6

Lượt tải xuống 4

Trích dẫn bài báo

Hoàng , A. C., Nguyễn, Đình C., & Phạm, T. A. (2026). CẢI THIỆN HIỆU QUẢ CHÚ THÍCH ẢNH TIẾNG VIỆT DỰA TRÊN HỢP NHẤT ĐẶC TRƯNG BẰNG CƠ CHẾ CHÚ Ý. Tạp chí Khoa học Trường Đại học Hồng Đức, 84(2), 5-12. https://doi.org/10.70117/hdujs.84.2.2026.1139

Định dạng trích dẫn:

CẢI THIỆN HIỆU QUẢ CHÚ THÍCH ẢNH TIẾNG VIỆT DỰA TRÊN HỢP NHẤT ĐẶC TRƯNG BẰNG CƠ CHẾ CHÚ Ý

Hoàng Anh Công¹, Nguyễn Đình Công^2,, Phạm Thế Anh³
¹ Trường Đại học Văn hóa, Thể thao và Du lịch
² Trường ĐH Hồng Đức
³ Trường Đại học Hồng Đức

Tóm tắt

Bài báo đề xuất một phương pháp chú thích ảnh tiếng Việt dựa trên hợp nhất sự chú ý các đặc trưng (attention fusion), trong đó đặc trưng hình ảnh được kết hợp với đặc trưng nhúng ngữ nghĩa văn bản sinh từ mô hình tiền huấn luyện thông qua cơ chế hợp nhất chú ý. Cách tiếp cận này giúp mô hình tăng khả năng căn chỉnh ngữ nghĩa và sinh ra mô tả giàu thông tin hơn so với các mô hình baseline truyền thống. Thực nghiệm trên hai bộ dữ liệu UIT-ViIC và KTVIC cho thấy phương pháp đề xuất cải thiện ổn định các thước đo BLEU, METEOR và CIDEr, chứng minh hiệu quả và tính khả thi của hướng tiếp cận.

Từ khóa

Chú thích ảnh, hợp nhất chú ý, biểu diễn văn bản.

Tài liệu tham khảo

[1] Ashish, V. (2017). Attention is all you need. Advances in neural information processing systems, 30, I.
[2] Anderson, P., He, X., Buehler, C., Teney, D., Johnson, M., Gould, S., & Zhang, L. (2018). Bottom-up and top-down attention for image captioning and visual question answering. In Proceedings of the IEEE CVPR (pp. 6077-6086).
[3] Chen, X., Fang, H., Lin, T. Y., Vedantam, R., Gupta, S., Dollár, P., & Zitnick, C. L. (2015). Microsoft coco captions: Data collection and evaluation server. arXiv preprint arXiv:1504.00325.
[4] Li, L., Li, H., & Ren, P. (2025). Underwater image captioning via attention mechanism based fusion of visual and textual information. Information Fusion, 103269.
[5] Cheng, K., Liu, J., Mao, R., Wu, Z., & Cambria, E. (2025). Echo: Generating cross-modal features for unseen classes in zero-shot remote sensing image captioning. Information Fusion, 103952.
[6] Hoang Lam, Q., Duy Le, Q., Van Nguyen, K., & Luu-Thuy Nguyen, N. (2020). UIT-ViIC: A Dataset for the First Evaluation on Vietnamese Image Captioning, arXiv-2002.
[7] Pham, A. C., Nguyen, V. Q., Vuong, T. H., & Ha, Q. T. (2024). Ktvic: A vietnamese image captioning dataset on the life domain. arXiv preprint arXiv:2401.08100.
[8] Doanh, B. C., Truc, T. T. T., Thuan, N. T., Vu, N. D., & Vo, N. D. (2022). viecap4h challenge 2021: a transformer-based method for healthcare image captioning in vietnamese. VNU Journal of Science: Computer Science and Communication Engineering, 38(2).
[9] Radford, A., Kim, J. W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., ... & Sutskever, I. (2021, July). Learning transferable visual models from natural language supervision. In International conference on machine learning (pp. 8748-8763). PmLR.
[10] Vedantam, R., Lawrence Zitnick, C., & Parikh, D. (2015). Cider: Consensus-based image description evaluation. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 4566-4575).
[11]. He, K., Zhang, X., Ren, S., & Sun, J. (2016). Deep residual learning for image recognition. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 770-778).

Thanh bên bài viết

Nội dung chính của bài viết

Tóm tắt

Từ khóa

Chi tiết bài viết

Tài liệu tham khảo