CẢI TIẾN HÀM MỤC TIÊU CHO BÀI TOÁN PHÂN CỤM
Nội dung chính của bài viết
Tóm tắt
Phân cụm dữ liệu (Data Clustering) là một phương pháp học máy không giám sát có nhiều ứng dụng trong thực tiễn, đặc biệt là trong kỷ nguyên bùng nổ của dữ liệu. Bài báo này nghiên cứu các mô hình phân cụm dựa trên mạng nơ ron học sâu, tập trung chủ yếu vào các mô hình AutoEncoder như DEC, IDEC. Cụ thể, bài báo nghiên cứu cải tiến hàm mục tiêu của DEC để nâng cao hiệu quả phân cụm dữ liệu. Kết quả thử nghiệm trên tập dữ liệu phức tạp và khó (FMNIST) cho thấy tính hiệu quả của hàm mục tiêu đề xuất so với các mô hình phân cụm hiện đại khác.
Từ khóa
Phân cụm dữ liệu, mạng học sâu, AutoEncoder, Deep Embedding Clustering
Chi tiết bài viết
Tài liệu tham khảo
[2] Han Xiao, Kashif Rasul, and Roland Vollgraf (2017), Fashion-mnist: a novel image dataset for benchmarking machine learning algorithms, arXiv preprint arXiv:1708.07747.
[3] Elie Aljalbout, Vladimir Golkov, Yawar Siddiqui, Maximilian Strobel, Daniel Cremers (2018), Clustering with Deep Learning: Taxonomy and New Methods, arXiv:1801.07648v2 [cs.LG].
[4] J. Xie, R. Girshick, and A. Farhad (2016), Unsupervised deep embedding for clustering analysis, International Conference on Machine Learning (ICML).
[5] Bo Yang, Xiao Fu, Nicholas D. Sidiropoulos, Mingyi Hong (2016), Towards K-means-friendly Spaces: Simultaneous Deep Learning and Clustering, arXiv:1610.04794v2 [cs.LG].
[6] Xifeng Guo, Long Gao, Xinwang Liu, and Jianping Yin (2017), Improved deep embedded clustering with local structure preservation, In Proceedings of the 26th International Joint Conference on Artificial Intelligence (IJCAI), pages 1753–1759.
[7] Yang, X., Deng, C., Zheng, F., Yan, J., Liu, W. (2019), Deep spectral clustering using dual autoencoder network, Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).