PHÁT TRIỂN PHẦN MỀM GÁN NHÃN VÀ CHÚ THÍCH ẢNH BÁN TỰ ĐỘNG ỨNG DỤNG TRÍ TUỆ NHÂN TẠO

Nguyễn Đình Công; Hoàng Anh Công; Nguyễn Hoàng Long; Phạm Thế Anh; Lê Văn  Sâm

doi:10.70117/hdujs.79.09.2025.977

pdf

Ngày xuất bản: 30/09/2025

Số lượt xem tóm tắt: 6
Số lượt xem pdf: 7

DOI: 10.70117/hdujs.79.09.2025.977

Số xuất bản

Số 79-09.2025: Khoa học Tự nhiên, Kỹ thuật và Công nghệ

Chuyên mục

Khoa học Tự nhiên, Kỹ thuật và Công nghệ

Trích dẫn bài báo

Nguyễn, Đình C., Hoàng Anh, C., Nguyễn, H. L., Phạm, T. A., & Lê Văn , S. (2025). PHÁT TRIỂN PHẦN MỀM GÁN NHÃN VÀ CHÚ THÍCH ẢNH BÁN TỰ ĐỘNG ỨNG DỤNG TRÍ TUỆ NHÂN TẠO. Tạp chí Khoa học Trường Đại học Hồng Đức, 79(09), 5-12. https://doi.org/10.70117/hdujs.79.09.2025.977

Định dạng trích dẫn:

PHÁT TRIỂN PHẦN MỀM GÁN NHÃN VÀ CHÚ THÍCH ẢNH BÁN TỰ ĐỘNG ỨNG DỤNG TRÍ TUỆ NHÂN TẠO

Nguyễn Đình Công^1,, Hoàng Anh Công², Nguyễn Hoàng Long³, Phạm Thế Anh³, Lê Văn Sâm⁴
¹ Trường ĐH Hồng Đức
² Trường Đại học Văn Hoá - Thể thao - Du lịch Thanh Hoá
³ Trường Đại học Hồng Đức
⁴ Phân Hiệu trường Đại học Y Hà Nội, Thanh Hoá

Tóm tắt

Bài báo giới thiệu một hệ thống phần mềm gán nhãn và chú thích ảnh bán tự động ứng dụng trí tuệ nhân tạo, hỗ trợ xây dựng tập dữ liệu huấn luyện cho các mô hình thị giác máy tính. Hệ thống tích hợp YOLOv8 để tự động phát hiện đối tượng, cho phép người dùng hiệu chỉnh hộp giới hạn (bounding box), viết và chỉnh sửa chú thích, truy xuất và tải dữ liệu. Phần mềm còn hỗ trợ phân quyền người dùng, quản lý danh mục dữ liệu, tải ảnh theo lô và truy vấn theo yêu cầu. Giao diện thân thiện, đa nền tảng, dễ triển khai trong giáo dục và nghiên cứu. Kết quả thực nghiệm cho thấy hệ thống giảm đáng kể thời gian gán nhãn mà vẫn duy trì độ chính xác cao, đồng thời mở ra hướng tích hợp mô hình sinh chú thích (caption) tự động trong tương lai.

Từ khóa

Gán nhãn ảnh, chú thích ngữ nghĩa, học sâu.

Tài liệu tham khảo

1. Lin, T. Y., Maire, M., Belongie, S., Hays, J., Perona, P., Ramanan, D., ... & Zitnick, C. L. (2014). Microsoft coco: Common objects in context. In Computer vision–ECCV 2014: 13th European conference, zurich, Switzerland, September 6-12, 2014, proceedings, part v 13 (pp. 740-755). Springer International Publishing.
2. Moon, Y. B., & Oh, T. H. (2024). Label-efficient learning methods for computer vision applications. IEIE Transactions on Smart Processing & Computing, 13(2), 120-128.
3. Osaid, M., & Memon, Z. A. (2022, September). A Survey On Image Captioning. In 2022 International Conference on Emerging Trends in Smart Technologies (ICETST) (pp. 1-6). IEEE.
4. Li, J., Li, D., Xiong, C., & Hoi, S. (2022, June). Blip: Bootstrapping language-image pre-training for unified vision-language understanding and generation. In International conference on machine learning (pp. 12888-12900). PMLR.
5. Wang, J., Yang, Z., Hu, X., Li, L., Lin, K., Gan, Z., ... & Wang, L. (2022). Git: A generative image-to-text transformer for vision and language. arXiv preprint arXiv:2205.14100.
6. Liu, L., Ouyang, W., Wang, X., Fieguth, P., Chen, J., Liu, X., & Pietikäinen, M. (2020). Deep learning for generic object detection: A survey. International journal of computer vision, 128, 261-318.
7. Adnan, M. M., Rahim, M. S. M., Al-Jawaheri, K., & Neamah, K. (2021, April). A review of methods for the image automatic annotation. In Journal of Physics: Conference Series (Vol. 1892, No. 1, p. 012002). IOP Publishing.
8. Redmon, J., Divvala, S., Girshick, R., & Farhadi, A. (2016). You only look once: Unified, real-time object detection. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 779-788).
9. Ren, S., He, K., Girshick, R., & Sun, J. (2015). Faster r-cnn: Towards real-time object detection with region proposal networks. Advances in neural information processing systems, 28.
10. Tan, M., Pang, R., & Le, Q. V. (2020). Efficientdet: Scalable and efficient object detection. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition (pp. 10781-10790).
11. Vinyals, O., Toshev, A., Bengio, S., & Erhan, D. (2015). Show and tell: A neural image caption generator. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 3156-3164).
12. Xu, K., Ba, J., Kiros, R., Cho, K., Courville, A., Salakhudinov, R., ... & Bengio, Y. (2015, June). Show, attend and tell: Neural image caption generation with visual attention. In International conference on machine.
13. Alayrac, J. B., Donahue, J., Luc, P., Miech, A., Barr, I., Hasson, Y., ... & Simonyan, K. (2022). Flamingo: a visual language model for few-shot learning. Advances in neural information processing systems, 35, 23716-23736
14. Bui, D. C., Nguyen, N. H., & Nguyen, K. (2023). UIT-OpenViIC: A Novel Benchmark for Evaluating Image Captioning in Vietnamese. arXiv preprint arXiv:2305.04166.
15. Sohan, M., Sai Ram, T., & Rami Reddy, C. V. (2024). A review on yolov8 and its advancements. In International Conference on Data Intelligence and Cognitive Informatics (pp. 529-545). Springer, Singapore.

Thanh bên bài viết

Nội dung chính của bài viết

Tóm tắt

Từ khóa

Chi tiết bài viết

Tài liệu tham khảo