Trong bài báo này, chúng tôi mở rộng một thuật toán phân cụm nửa giám sát sử dụng các seed bằng cách thêm vào một kĩ thuật học tích cực (active learning) để thu thập các ràng buộc từ người sử dụng. Mời các bạn cùng tham khảo nội dung chi tiết.
JOURNAL OF SCIENCE OF HNUE FIT., 2013, Vol 58, pp 60-69 This paper is available online at http://stdb.hnue.edu.vn PHÂN CỤM NỬA GIÁM SÁT DỰA TRÊN ĐỒ THỊ Vũ Việt Vũ1, Vũ Việt Thắng2, Nicolas Labroche3, Bernadette Bouchon Meunier3, Nguyễn Thị Thu Hiền4 Khoa Điện tử, Trường ĐH Kĩ thuật Công nghiệp, ĐH Thái Nguyên; Khoa CNTT, Trường ĐH Công nghiệp Hà Nội; LIP6, ĐH Pierre Marie Curie 75005, Paris, Cộng hịa Pháp; Khoa Tốn, Trường ĐH Sư Phạm, ĐH Thái Nguyên Email: vuvietvu@gmail.com Tóm tắt Thuật toán phân cụm nửa giám sát sử dụng số lượng liệu gán nhãn (seeds) số ràng buộc (must-link can-not link) liệu nhằm mục đích cải tiến chất lượng toán phân cụm Trong báo này, chúng tơi mở rộng thuật tốn phân cụm nửa giám sát sử dụng seed cách thêm vào kĩ thuật học tích cực (active learning) để thu thập ràng buộc từ người sử dụng Theo chúng tơi biết thuật tốn giới sử dụng đồng thời hai loại seed constraint vào trình phân cụm Kết thực nghiệm cho thấy thuật tốn chúng tơi cải tiến đáng kể chất lượng trình phân cụm tập dự liệu thực Từ khóa: Thuật toán, phân cụm nửa giám sát, đồ thị Mở đầu Bài toán phân cụm (clustering) dạng phương pháp học không giám sát (unsupervised learning) phát biểu sau: cho tập X gồm n đối tượng, phân rã tập X thành k (k ≤ n) cụm (cluster) cho đối tượng cụm tương tự đối tượng cụm khác khơng tương tự theo tiêu chuẩn Mặc dù thuật toán đưa giải vấn đề K-Means, Hierarchical Clustering hay Graph-based Clustering xuất vào năm 60 kỉ trước, nhiên với bùng nổ thông tin vũ bão, nhiều nguồn liệu khổng lồ xuất (tổng số liệu số hóa từ nhiều nguồn khác giới năm 2011 khoảng 2810 exabyte [9]) lĩnh vực khác đòi hỏi phải có thuật tốn phân cụm liệu hiệu để đáp ứng yêu cầu đặt tốc độ lẫn chất lượng Hiện toán phân cụm chủ đề quan trọng hội thảo tạp chí hàng đầu quốc tế ICDM, ICML, KDD, ECAI, PAMI, Pattern Recognition, Machine learning, 60 Phân cụm nửa giám sát dựa đồ thị Một hướng nghiên cứu quan trọng năm gần phát triển phương pháp phân cụm nửa giám sát (semi-supervised clustering) Các thuật toán phân cụm nửa giám sát sử dụng thơng tin có từ người sử dụng (side information) nhằm mục đích trợ giúp q trình phân cụm cải tiến đáng kể chất lượng clustering Trên thực tế, có hai loại side information thường sử dụng liệu gán nhãn (labeled data hay gọi seed) ràng buộc (constraint) Các constraint bao gồm hai loại: must-link(u,v) (u, v ∈ X) biểu thị u v phân vào cụm cannot-link(u,v) biểu thị u v phân hai cụm khác Mặc dù có nhiều nghiên cứu quan trọng đưa thuật toán semi-supervised clustering dừng lại việc tích hợp loại side information riêng lẽ thêm điểm thỏa mãn rDist() vào C Quá trình tiếp tục đến gặp điểm q có nhãn khác với nhãn p Tiếp đó, thuật tốn quay trở lại đến điểm o với giá trị rDist(o) lớn đường mở rộng cluster C Chúng ta gọi “nhát cắt” lớn rDist() Quá trình xây dựng cluster C hồn thành, C bao gồm điểm trình mở rộng đến o (không kể o), cho cluster C chứa seedp Việc tìm kiếm cluster thực theo quy trình tương tự Quá trình tìm kiếm cluster giống quy trình xây dựng khung nhỏ đồ thị, 63 V.V.Vũ, V.V.Thắng, N.Labroche, B.B.Meunier, N.T.T.Hiền áp dụng thuật tốn Kruskal Prim lí thuyết đồ thị 2.3 Thuật toán ASSDBSCAN Trong báo chúng tơi cải tiến SSDBSCAN thành thuật tốn ASSDBSCAN (Active learning for SSDBSCAN) theo hai khía cạnh: (1) Kết hợp ràng buộc must-link cannot-link vào trình phân cụm (2) xây dựng pha tương tác với người sử dụng (active learning) nhằm định xác “nhát cắt” trình mở rộng cluster Các thuật toán active learning hiệu nhiều nghiên cứu việc thu thập side information từ người sử dụng [1,6, 11,12,13,22,34] Trên thực tế thấy rằng, liệu thực đa dạng (nhiễu, không đồng mật độ phân bố, cluster gần nhau, ), việc sử dụng “nhát cắt” lớn cho việc xây dựng cluster Chúng xây dựng pha active learning nhằm mục đích tương tác với người sử dụng cho q trình xác định “nhát cắt” 64 Phân cụm nửa giám sát dựa đồ thị Quá trình active learning sau: Xuất phát từ “nhát cắt” lớn nhất, thuật toán đưa câu hỏi cho người sử dụng để biết nhát cắt có nối hai điểm nằm hai cluster khác hay không (cannot-link) Nếu câu trả lời khơng pha “active learning” tiếp tục với rDist() lớn chưa chọn, trình kết thúc câu trả lời người sử dụng cannot-link Và cluster C bao gồm điểm trình mở rộng cluster đến gặp ràng buộc cannot-link Thuật tốn ASSDBSCAN trình bày Algorithm Algorithm 2.4 Kết thực nghiệm Để đánh giá chất lượng thuật toán đưa chúng tơi tiến hành so sánh thuật tốn ASDBSCAN thuật tốn SSDBSCAN Chúng tơi sử dụng tập liệu lấy từ UCI Machine Learning [35] (Bảng 1) Để đánh giá kết clustering, sử dụng hàm Rand - phương pháp phổ biến trình đánh giá kết clustering [19] Bảng Các tập liệu sử dụng Tập liệu n m k Ecoli 336 8 Glass 214 Iris 150 LetterIJL 227 16 Protein 116 6 Thyroid 101 16 (n: số phần tử cần clustering, m: số thuộc tính, k số cluster) 65 V.V.Vũ, V.V.Thắng, N.Labroche, B.B.Meunier, N.T.T.Hiền Hình trình bãy kết trình clustering cho tập liệu Chúng ta thấy rõ, thuật tốn ASSDBSCAN cho kết tốt hẳn thuật toán SSDBSCAN Kết khẳng định giả thiết việc xác định “nhát cắt” lớn trình xây dựng cluster Việc trợ giúp người sử dụng pha “active learning” đem lại hiệu rõ q trình clustering Chúng tơi lưu ý rằng, hình 2, thuật tốn SSDBSCAN sử dụng seed thuật toán ASSDBSCAN sử dụng seed ràng buộc (số lượng ràng buộc số lượng query trình active learning) Hình Kết thực nghiệm 66 Phân cụm nửa giám sát dựa đồ thị Kết luận Bài báo trình bày phương pháp cho tốn semi-supervised clustering ASSDBSCAN ASSDBSCAN thuật toán giới có khả kết hợp hai loại side information seed constraint trình clustering Kết thực nghiệm tập dựu liệu thực từ UCI Machine Learning chứng minh tính hiệu thuật tốn ASSDBSCAN Trong thời gian tới, chúng tơi tiếp tục mở rộng hướng nghiên cứu cho loại thuật toán clustering khác thử nghiệm tập dữu liệu thực tế lĩnh vực Computer Vision hay tập liệu Biology TÀI LIỆU THAM KHẢO [1] Viet-Vu Vu, Nicolas Labroche, and Bernadette Bouchon-Meunier, Improving Constrained Clustering with Active Query Selection, Pattern Recognition 45(4): 1749-1758 (2012), ISSN: 0031-3203 [2] Sean Gilpin, Ian Davidson: Incorporating SAT solvers into hierarchical clustering algorithms: an efficient and flexible approach KDD 2011: 1136-1144 [3] Tengke Xiong, Shengrui Wang, André Mayers, Ernest Monga: Semi-supervised Parameter-Free Divisive Hierarchical Clustering of Categorical Data PAKDD 2011: 265-276 [4] Viet-Vu Vu, Semi-supervised Clsutering and Active Learning, PhD Thesis, Paris University, 2011 [5] Carlos Ruiz, Myra Spiliopoulou, Ernestina Menasalvas Ruiz: Density-based semi-supervised clustering Data Min Knowl Discov 21(3): 345-370 (2010) [6] Burr Settles: Active Learning Literature Survey, Computer Sciences Technical Report 1648, University of Wisconsin-Madison, 2010 [7] Xiang Wang, Ian Davidson: Active Spectral Clustering ICDM 2010: 561-568 [8] Xiang Wang, Ian Davidson: Flexible constrained spectral clustering KDD 2010: 563-572 [9] Anil K Jain: Data clustering: 50 years beyond K-means Pattern Recognition Letters (PRL) 31(8):651-666 (2010) [10] Violaine Antoine, Benjamin Quost, Marie-Hélène Masson, Thierry Denoeux: CECM: Adding pairwise constraints to evidential clustering FUZZ-IEEE 2010: 1-8 [11] Viet-Vu Vu, Nicolas Labroche, and Bernadette Bouchon-Meunier Active Learning for Semi-Supervised K-Means Clustering In Proceedings of the 22nd IEEE International Conference on Tools with Artificial Intelligence (ICTAI-2010), Arras, France, October, 2010 [12] Viet-Vu Vu, Nicolas Labroche, and Bernadette Bouchon-Meunier Boosting Clustering by Active Constraint Selection In Proceedings of the 19th European Conference on Artificial Intelligence (ECAI-2010), Lisbon, Portugal, August, 2010 67 V.V.Vũ, V.V.Thắng, N.Labroche, B.B.Meunier, N.T.T.Hiền [13] Viet-Vu Vu, Nicolas Labroche, and Bernadette Bouchon-Meunier An Efficient Active Constraint Selection Algorithm for Clustering In Proceedings of the 20th IEEE International Conference on Pattern Recognition (ICPR-2010), Istanbul, Turkey, August, 2010 [14] Brian Kulis, Sugato Basu, Inderjit S Dhillon, Raymond J Mooney: Semi-supervised graph clustering: a kernel approach Machine Learning 74(1): 1-22 (2009) [15] Levi Lelis, Jăorg Sander: Semi-supervised Density-Based Clustering ICDM 2009: 842-847 [16] Viet-Vu Vu, Nicolas Labroche, and Bernadette Bouchon-Meunier Leader Ant Clustering with Constraints In Proceedings of the 7th IEEE International Conference on Computing and Communication Technologies (IEEE-RIVF-2009), Danang, Vietnam, July, 2009 [17] Ian Davidson, S S Ravi: Using instance-level constraints in agglomerative hierarchical clustering: theoretical and empirical results Data Min Knowl Discov (DATAMINE) 18(2):257-282 (2009) [18] Zijie Qi, Ian Davidson: A principled and flexible framework for finding alternative clusterings KDD 2009: 717-726 [19] S Basu, I Davidson, and K L Wagstaff, Constrained Clustering: Advances in Algorithms, Theory, and Applications, Chapman and Hall/CRC Data Mining and Knowledge Discovery Series, 1st edn., 2008 [20] Christian Băohm, Claudia Plant: HISSCLU: a hierarchical density-based method for semi-supervised clustering EDBT 2008: 440-451 [21] Nizar Grira, Michel Crucianu, Nozha Boujemaa: Active semi-supervised fuzzy clustering Pattern Recognition 41(5): 1834-1844 (2008) [22] Pavan Kumar Mallapragada, Rong Jin, Anil K Jain: Active query selection for semi-supervised clustering ICPR 2008: 1-4 [23] Ian Davidson, S S Ravi: The complexity of non-hierarchical clustering with instance and cluster level constraints Data Min Knowl Discov (DATAMINE) 14(1):25-61 (2007) [24] Brian Kulis, Sugato Basu, Inderjit S Dhillon, Raymond J Mooney: Semi-supervised graph clustering: a kernel approach ICML 2005: 457-464 [25] Qianjun Xu, Marie desJardins, Kiri Wagstaff: Active Constrained Clustering by Examining Spectral Eigenvectors Discovery Science 2005: 294-307 [26] Sugato Basu, Arindam Banerjee, Raymond J Mooney: Active Semi-Supervision for Pairwise Constrained Clustering SDM 2004 [27] Sugato Basu, Mikhail Bilenko, Raymond J Mooney: A probabilistic framework for semi-supervised clustering KDD 2004: 59-68 [28] Mikhail Bilenko, Sugato Basu, Raymond J Mooney: Integrating constraints and metric learning in semi-supervised clustering ICML 2004 68 Phân cụm nửa giám sát dựa đồ thị [29] Kamvar, S.D., Klein, D., Manning, C.D.: Spectral learning In: Proceedings of the Eighteenth International Joint Conference on Artificial Intelligence (2003) 561-566 [30] Sugato Basu, Arindam Banerjee, Raymond J Mooney: Semi-supervised Clustering by Seeding ICML 2002: 27-34 [31] Eric P Xing, Andrew Y Ng, Michael I Jordan, Stuart J Russell: Distance Metric Learning with Application to Clustering with Side-Information NIPS 2002:505-512 [32] Kiri Wagstaff, Claire Cardie, Seth Rogers, Stefan Schrăodl: Constrained K-means Clustering with Background Knowledge ICML 2001: 577-584 [33] Amine Bensaid, Lawrence O Hall, James C Bezdek, Laurence P Clarke: Partially supervised clustering for image segmentation Pattern Recognition 29(5): 859-871 (1996) [34] Viet-Vu Vu, Nicolas Labroche, and Bernadette Bouchon-Meunier Active Semi-Supervised Density-based Clustering Submitted to the 20th European Conference on Artificial Intelligence (ECAI-2012), Montpelier, France, August, 2012 [35] http://archive.ics.uci.edu/ml/ [36] Cohn, D., Caruana, R., & McCallum, A (2003) Semi-supervised clustering with user feedback (Tech Report TR2003-1892).Cornell University [37] Klein, D., Kamvar, S D., & Manning, C (2002) From instancelevel constraints to space-level constraints: Making the most of prior knowledge in data clustering Proceedings of the The Nineteenth International Conference on Machine Learning (ICML-2002) (pp 307-314) [38] Bar-Hillel, A., Hertz, T., Shental, N., & Weinshall, D (2003) Learning distance functions using equivalence relations Proceedings of 20th International Conference on Machine Learning (ICML-2003) (pp 11-18) [39] Martin Ester, Hans-Peter Kriegel, Jăorg Sander, Xiaowei Xu: A Density-Based Algorithm for Discovering Clusters in Large Spatial Databases with Noise KDD 1996: 226-231 ABSTRACT Semi-supervised clustering algorithms based on graph Semi-supervised clustering algorithms relies on side information, either labeled data (seeds) or pairwise constraints (must-link or can-not link) between data objects to improve the quality of clustering In this paper, we propose to extend an exisiting seed-based clustering algorithm with an active learning mechanism to collect pairwise constraints Thus, to the best of our knowledge, our new semi-supervised algorithm is the first to work with both seeds and constraints Preliminary results on real data sets show the benefit of our algorithm when compared to the initial seed-based clustering algorithm 69 .. .Phân cụm nửa giám sát dựa đồ thị Một hướng nghiên cứu quan trọng năm gần phát triển phương pháp phân cụm nửa giám sát (semi-supervised clustering) Các thuật toán phân cụm nửa giám sát sử... learning nhằm mục đích tương tác với người sử dụng cho trình xác định “nhát cắt” 64 Phân cụm nửa giám sát dựa đồ thị Quá trình active learning sau: Xuất phát từ “nhát cắt” lớn nhất, thuật toán đưa... (số lượng ràng buộc số lượng query trình active learning) Hình Kết thực nghiệm 66 Phân cụm nửa giám sát dựa đồ thị Kết luận Bài báo trình bày phương pháp cho toán semi-supervised clustering ASSDBSCAN