Bài viết đề xuất một thuật toán mới mở rộng từ thuật toán MMFFQS nhằm thu thập các ràng buộc từ người sử dụng, thuật toán mới được đặt tên là KMMFFQS dựa trên K-Means và phương pháp Min-Max. Kết quả thực nghiệm với các tập dữ liệu thực từ UCI chỉ ra tính hiệu quả của thuật toán đề xuất
Kỷ yếu Hội nghị KHCN Quốc gia lần thứ XI Nghiên cứu ứng dụng Công nghệ thông tin (FAIR); Hà Nội, ngày 09-10/8/2018 DOI: 10.15625/vap.2018.00032 LỰA CHỌN CÁC RÀNG BUỘC CHO THUẬT TOÁN PHÂN CỤM NỬA GIÁM SÁT Vũ Việt Vũ1, Nguyễn Anh Tuấn2, Lê Thị Kiều Oanh3 Viện Công nghệ Thông tin, Đại học Quốc gia Hà Nội Công ty Hệ thống Thông tin (FPT) Trường Đại học Kinh tế Kỹ thuật Cơng Nghiệp vuvietvu@vnu.edu.vn, tuanna2@fpt.com.vn, oanhlk2004@gmail.com TĨM TẮT: Thuật tốn phân cụm dựa ràng buộc dạng thuật tốn phân cụm nửa giám sát nhằm tích hợp tập ràng buộc để cải tiến trình phân cụm Trên thực tế nhiều thuật toán phân cụm nửa giám sát giới thiệu Tuy nhiên hầu hết ràng buộc sử dụng sinh ngẫu nhiên giả thiết có sẵn từ ban đầu Hơn nữa, số tập ràng buộc chí làm giảm chất lượng trình phân cụm chúng không lựa chọn cẩn thận Trong báo này, chúng tơi đề xuất thuật tốn mở rộng từ thuật toán MMFFQS nhằm thu thập ràng buộc từ người sử dụng, thuật toán đặt tên KMMFFQS dựa K-Means phương pháp Min-Max Kết thực nghiệm với tập liệu thực từ UCI tính hiệu thuật tốn đề xuất Từ khóa: Phân cụm nửa giám sát, ràng buộc, học tích cực, K-Means I GIỚI THIỆU Thuật toán phân cụm (clustering) nhằm phân tách tập liệu X có n phần tử khơng gian m chiều thành cụm cho phần tử cụm tương tự theo độ đo Thuật tốn phân cụm đóng vai trị quan trọng lĩnh vực khai phá liệu phát tri thức từ liệu Mục đích trình phân cụm phát cấu trúc tập liệu xét, tìm mối liên hệ phần tử chí số trường hợp phát phần tử dị thường (outlier) Các thuật toán phân cụm nghiên cứu giới thiệu từ năm 50 kỷ XX Các thuật tốn điển hình kể đến K-Means, Fuzzy C-Means, thuật toán phân cụm dựa đồ thị (GC), thuật toán phân cụm dựa mật độ (DBSCAN) [1],… Mặc dù có nhiều thuật tốn phân cụm đề xuất, nhiên chủ đề phân cụm thu hút nhiều nhà nghiên cứu với mục đích cải tiến chất lượng phân cụm, đáp ứng với loại liệu thực tế phù hợp với yêu cầu người sử dụng Từ năm 2000 trở lại đây, phương pháp phân cụm nửa giám sát (semi-supervised clustering) bắt đầu nghiên cứu phát triển mạnh mẽ [2] Một dạng phân cụm nửa giám sát thuật toán sử dụng ràng buộc Các ràng buộc cặp liệu có dạng must-link cannot-link must-link(u,v) với u, v phần tử thuộc tập liệu X thể u v nên nhóm vào cụm, cannot-link(u,v) cho biết u v nên thuộc hai cụm khác Hình minh họa ví dụ liệu với ràng buộc Một dạng khác toán phân cụm nửa giám sát quan tâm toán phân cụm nửa giám sát sử dụng số điểm hạt giống (seed) Các seed số điểm gán nhãn sẵn nhãn cụm Hình Ví dụ tập liệu (bên trái) liệu với ràng buộc (bên phải); liệu must-link biểu diễn đường nét liền, cannot-link biểu diễn đường nét đứt Tính đến hầu hết thuật tốn phân cụm có thuật toán phân cụm nửa giám sát tương ứng, thuật toán sử dụng hai dạng chí hai dạng ràng buộc seed vào thuật tốn Chúng tơi kể thuật toán phân cụm nửa giám sát cho K-Means [3], Fuzzy C-Means [4], DBSCAN [5], GC [6],… Thuật tốn tích hợp hai dạng ràng buộc seed kể đến thuật tốn MCSSGC [7] thuật toán MCSSDBS [8] Phương pháp sử dụng ràng buộc tích hợp vào tốn phân cụm thường có hai dạng tích hợp trực tiếp vào trình tìm kiếm cụm dùng ràng buộc để huấn luyện độ đo khoảng cách cho chuyển sang không gian độ đo điểm thuộc ràng buộc must-link xích gần điểm thuộc ràng buộc cannot-link xa 240 LỰA CHỌN CÁC RÀNG BUỘC CHO THUẬT TOÁN PHÂN CỤM NỬA GIÁM SÁT Một vấn đề quan trọng phát sinh trình nghiên cứu thuật toán phân cụm nửa giám sát việc lựa chọn ràng buộc Một số kết nghiên cứu việc lựa chọn ràng buộc tốt tăng đáng kể chất lượng phân cụm nhiên tập ràng buộc không lựa chọn tốt làm giảm chất lượng phân cụm [9] Việc lựa chọn cặp để gán nhãn nhằm thu thập ràng buộc cho tốt nằm khuôn khổ tốn học tích cực (active learning) Một số thuật tốn học tích cực phát triển thuật toán FFQS [10], thuật toán MMFFQS [11], thuật toán ASC [12], thuật toán AFCC [13], thuật toán dựa hàm hạt nhân [14],… Các nghiên cứu cho thấy việc lựa chọn tốt ràng buộc làm tăng chất lượng trình phân cụm mà giảm số lượng ràng buộc cần thu thập Trong báo này, đề xuất thuật toán mở rộng từ thuật toán MMFFQS nhằm thu thập ràng buộc từ người sử dụng, thuật toán đặt tên KMMFFQS dựa KMeans phương pháp Min-Max Kết thực nghiệm với tập liệu thực từ UCI [15] tính hiệu thuật tốn đề xuất Phần báo cấu trúc sau: Phần II trình bày nghiên cứu liên quan; phần III giới thiệu phương pháp đề xuất; phần IV kết thực nghiệm cuối phần V kết luận báo II MỘT SỐ NGHIÊN CỨU LIÊN QUAN Với phương pháp Min-Max, chọn ngẫu nhiên điểm tập liệu X đem gán nhãn Các bước chọn điểm (ynew) nhằm cực đại hóa khoảng cách nhỏ từ điểm chưa có nhãn đến điểm gán nhãn tập Y Điểm ynew xác định theo công thức sau: ynew arg max x X y Y d x, y ynew biểu thị điểm cập nhật vào tập Y d(.) hàm khoảng cách (có thể hàm tính khoảng cách theo Euclid hay Mahananobis,…) Dựa vào ý tưởng thuật toán FFQS đề xuất năm 2004 cho việc thu thập ràng buộc từ người sử dụng Thuật toán FFQS gồm hai bước bản: Bước thứ nhằm tìm tập xương sống cụm chứa điểm nằm tập ràng buôc Như điểm cụm khác tạo thành ràng buộc cannot-link Sau tìm tập xương sống, phương pháp FFQS tiếp tục lấy ngẫu nhiên điểm thuộc tập liệu hình thành cặp điểm với tập xương sống để truy vấn người sử dụng thu thập must-link Phương pháp FFQS kiểm thử với thuật toán MPCK-means cho kết tốt so sánh với phương pháp lựa chọn ràng buộc phương pháp lấy ngẫu nhiên Năm 2008, thuật toán MMFFQS đề xuất dựa cải tiến thuật toán FFQS Cụ thể bước thuật tốn FFQS, thay lựa chọn điểm ngẫu nhiên, thuật toán MMFFQS lựa chọn điểm theo phương pháp Min-Max, điểm xa tập liệu so với tập điểm xuất ràng buộc mà chưa thuộc ràng buộc lựa chọn để hình thành cặp câu hỏi cho người sử dụng để gán nhãn mustlink/cannot-link Hình minh họa số ràng buộc thu thập theo thuật toán MMFFQS Phương pháp MMFFQS áp dụng thuật toán MPCK-means cho kết tốt thuật toán FFQS Tuy nhiên hạn chế hai thuật toán phải biết số lượng cụm từ đầu hai phương pháp phù hợp với tập liệu cụm có dạng hình cầu kích thước cụm tương tự Và với thuật toán phân cụm nửa giám sát MCSSDBS, MMSSGC, hay MCGC - thuật tốn tìm cụm có hình dạng sử dụng ràng buộc thu thập thuật toán FFQS/MMFFQS cho kết cải tiến khơng cao Hình Ví dụ ràng buộc thu thập phương pháp MMFFQS Trong số nghiên cứu gần đây, chiến lược chia để trị tức chia tập liệu thành nhiều phần nhỏ để thực công đoạn phần nhỏ tỏ hiệu nhiều trường hợp Năm 2008, thuật tốn phân cụm SPARCL [16] giới thiệu gồm hai bước bản: Bước sử dụng thuật toán K-Means chia tập liệu thành nhiều cụm sau sử dụng độ đo cụm ghép cụm nhỏ lại với thu cụm có hình dạng Thuật tốn SPARCL có độ phức tạp tính tốn nhỏ thuật tốn loại DBSCAN Năm 2009, thuật toán xấp xỉ Spectral clustering [17] giới thiệu dùng hai công đoạn SPARCL, nhiên thay dùng độ đo tương tự hai cụm để ghép lại tác giả đề xuất sử dụng trực tiếp thuật toán Spectral Vũ Việt Vũ, Nguyễn Anh Tuấn, Lê Thị Kiều Oanh 241 Clustering với trọng tâm cụm thu từ K-Means Năm 2017, thuật toán COBRA [18] sử dụng KMeans để chia thành nhiều cụm nhỏ thu thập ràng buộc sử dụng cho cặp cụm tương ứng Kết thực nghiệm tính hiệu phương pháp đề xuất Thậm chí thuật tốn K-Means cịn áp dụng để tăng tốc độ tính tốn tốn khung nhỏ [19] Trong phần bái báo, sử dụng ý tưởng áp dụng vào việc thu thập ràng buộc cải tiến cho thuật toán MMFFQS III PHƯƠNG PHÁP ĐỀ XUẤT Trong phần này, chúng tơi trình bày thuật tốn KMMFFQS (K-Means based MMFFQS) Thuật toán KMMFFQS tương đối đơn giản bao gồm hai bước sau: Bước áp dụng thuật toán K-Means nhằm chia tập liệu thành nhiều cụm khác Tập xương sống bao gồm tất centroid cụm Ở centroid cụm điểm thuộc tập liệu gần với trọng tâm cụm Bước thứ hai áp dụng thuật toán MMFFQS vào để thực việc truy vấn cặp liệu nhằm thu thập ràng buộc Hai điểm quan trọng thuật tốn KMMFFQS là: Chúng ta khơng cần biết trước số cụm, việc sử dụng K-Means nhằm chia tập liệu ban đầu thành lượng đủ lớn cụm Q trình biến cụm có hình dạng thành hợp cụm có hình dạng cầu theo thuật toán K-Means Với việc chia nhỏ tập liệu, thu thập ràng buộc phù hợp với loại thuật toán phân cụm nửa giám sát MPCK-means, MCSSGC, MCSSDBS, MCGC,… Hình minh họa cặp điểm dùng để truy vấn để gán nhãn (must-link/cannot-link) người sử dụng sử dụng thuật tốn KMMFFQS Tương tự hình minh họa số ràng buộc must-link cannot-link thu thập cho tập liệu gồm cụm theo phân bố Gaussian Hình Ví dụ câu hỏi truy vấn cho tập liệu t4.8k.dat phương pháp KMMFFQS Việc lựa chọn số cụm bước thuật toán KMMFFQS vấn đề đơn giản Theo [19], giả sử n số lượng điểm tập liệu X, chọn số lượng cụm nhỏ n Quá trình lựa chọn điểm để hình thành cặp ứng viên gán nhãn người sử dụng phụ thuộc vào tập điểm có trước Điểm chọn theo phương pháp Min-Max cách xa tập điểm thu thập trước Hình Ví dụ ràng buộc thu thập phương pháp KMMFFQS LỰA CHỌN CÁC RÀNG BUỘC CHO THUẬT TOÁN PHÂN CỤM NỬA GIÁM SÁT 242 IV KẾT QUẢ THỰC NGHIỆM Để đánh giá hiệu thuật tốn, chúng tơi sử dụng tập liệu lấy từ trang website chứa tập liệu thực UCI Chi tiết tập liệu trình bày bảng Độ đo Rand Index [20] sử dụng để tính tốn chất lượng phân cụm cho thuật tốn Độ đo Ran Index tính tỷ số tổng số lượng cặp nằm cụm số lượng cặp nằm cụm khác theo giá trị thực chia cho tổng số cặp tập liệu xét Để đánh giá hiệu thuật toán đề xuất, chúng tơi sử dụng thuật tốn MCSSGC để tính toán kết Phương pháp KMMFFQS so sánh với phương pháp lựa chọn ngẫu nhiên cặp để gán nhãn người sử dụng Ngoài kết phân cụm thuật toán SSGC [21] (thuật toán phân cụm nửa giám sát sử dụng seed) trình bày hình Bảng Dữ liệu dùng thực nghiệm từ UCI ID Tên tập liệu Ecoli Iris Protein Soybean Thyroid Zoo N 336 150 115 47 215 101 M 20 35 16 K Từ kết trình bày hình thấy với số lượng ràng buộc chất lượng thuật toán MCSSGC tăng lên đáng kể sử dụng ràng buộc thu thập phương pháp đề xuất Chúng ta giải thích cải tiến nhờ sử dụng thuật toán K-Means vào pha thứ thuật toán đề xuất V KẾT LUẬN Trong báo giới thiệu phương pháp KMMFFQS, phương pháp mở rộng từ thuật toán MMFFQS cách sử dụng thuật toán K-Means vào chia nhỏ tập liệu trước áp dụng chiến thuật Min-Max Bằng cách thuật toán KMMFFQS thu thập ràng buộc tập liệu với hình dạng kích thước cụm Kết thực nghiệm với tập liệu từ UCI cho thấy hiệu thuật toán đề xuất Trong thời gian tới tiếp tục tiến hành thực nghiệm để so sánh thuật toán đề xuất với phương pháp khác áp dụng thuật toán phân cụm nửa giám sát khác Ecoli Iris Protein Soybean Vũ Việt Vũ, Nguyễn Anh Tuấn, Lê Thị Kiều Oanh 243 Zoo Thyroid Hình Ví dụ ràng buộc thu thập phương pháp KMMFFQS VI TÀI LIỆU THAM KHẢO [1] Rui Xu, Donald C Wunsch II Survey of clustering algorithms IEEE Trans Neural Networks 16(3): 645-678 (2005) [2] S Basu, I Davidson, and K L Wagstaff, Constrained Clustering Advances in Algorithms, Theory, and Applications, Chapman and Hall/CRC Data Mining and Knowledge Discovery Series, 1st edn., 2008 [3] Sugato Basu, Mikhail Bilenko, Raymond J Mooney A probabilistic framework for semi-supervised clustering KDD 2004: 59-68 [4] Nizar Grira, Michel Crucianu, Nozha Boujemaa Semi-Supervised Fuzzy Clustering with Pairwise-Constrained Competitive Agglomeration FUZZ-IEEE 2005: 867-872 [5] Carlos Ruiz, Myra Spiliopoulou, Ernestina Menasalvas Ruiz Density-based semi-supervised clustering Data Min Knowl Discov 21(3): 345-370 (2010) [6] Rajul Anand, Chandan K Reddy Graph-Based Clustering with Constraints PAKDD (2) 2011: 51-62 [7] Viet Vu Vu, Hong Quan Do Graph-based Clustering with Background Knowledge SoICT 2017: 167-172 [8] Viet Vu Vu, Hong Quan Do Density-based clustering with side information and active learning KSE 2017: 166171 [9] Ian Davidson, Kiri Wagstaff, Sugato Basu Measuring Constraint-Set Utility for Partitional Clustering Algorithms PKDD 2006: 115-126 [10] Sugato Basu, Arindam Banerjee, Raymond J Mooney Active Semi-Supervision for Pairwise Constrained Clustering SDM 2004: 333-344 [11] Pavan Kumar Mallapragada, Rong clustering ICPR 2008: 1-4 Jin, Anil K Jain Active query selection for semi-supervised [12] Viet Vu Vu, Nicolas Labroche, Bernadette Bouchon-Meunier Improving constrained clustering with active query selection Pattern Recognition 45(4): 1749-1758 (2012) [13] Nizar Grira, Michel Crucianu, Nozha Recognition 41(5): 1834-1844 (2008) Boujemaa Active semi-supervised fuzzy clustering Pattern [14] Ahmad Ali Abin, Hamid Beigy Active constrained fuzzy clustering: A multiple kernels learning approach Pattern Recognition 48(3): 953-967 (2015) [15] M Lichman, UCI Machine Learning Repository [http://archive.ics.uci.edu/ml] Irvine, CA University of California, School of Information and Computer Science, 2013 [16] Vineet Chaoji, Mohammad Al Hasan, Saeed Salem, Mohammed J Zaki SPARCL: an effective and efficient algorithm for mining arbitrary shape-based clusters Knowl Inf Syst 21(2): 201-229 (2009) [17] Donghui Yan, Ling Huang, Michael I Jordan Fast approximate spectral clustering KDD, 2009, 907-916 [18] Toon van Craenendonck, Sebastijan Dumancic, Hendrik Blockeel: [19] COBRA A Fast and Simple Method for Active Clustering with Pairwise Constraints IJCAI 2017: 2871-2877 [20] W M Rand Objective criteria for the evaluation of clustering methods Journal of the American Statistical Association, 66 (336): 846–850, 197, 1971 244 LỰA CHỌN CÁC RÀNG BUỘC CHO THUẬT TOÁN PHÂN CỤM NỬA GIÁM SÁT [21] Viet Vu Vu An efficient semi-supervised graph based clustering Intelligent Data Analysis, 22(2): 297-307 (2018) SELECTING CONSTRAINTS FOR SEMI-SUPERVISED CLUSTERING Vu Viet Vu, Nguyen Anh Tuan, Le Thi Kieu Oanh ABSTRACT: Constraints based clustering is one kind of semi-supervised clustering that integrates a small set of constraints to the clustering algorithms to improve the performances of clustering process In fact, there are so many semi-supervised clustering algorithms proposed in the literature However, most of the time, constraints are generated at random or they are assumed to be available for each cluster Moreover, some constraint might actually decrease the performance of semi-supervised clustering algorithms if they cannot be carefully chosen In this paper, we introduce a new efficient algorithm extended from the MMFFQS algorithm for active constraints selection which relies on K-Means clustering and Min-Max method, called KMMFFQS Experiments conducted on real datasets from UCI show the effectiveness of our new algorithm Keywords: semi-supervised clustering, constraint, active learning, K-Means ...240 LỰA CHỌN CÁC RÀNG BUỘC CHO THUẬT TOÁN PHÂN CỤM NỬA GIÁM SÁT Một vấn đề quan trọng phát sinh q trình nghiên cứu thuật tốn phân cụm nửa giám sát việc lựa chọn ràng buộc Một số kết... việc lựa chọn ràng buộc tốt tăng đáng kể chất lượng phân cụm nhiên tập ràng buộc khơng lựa chọn tốt làm giảm chất lượng phân cụm [9] Việc lựa chọn cặp để gán nhãn nhằm thu thập ràng buộc cho tốt... trước Điểm chọn theo phương pháp Min-Max ln cách xa tập điểm thu thập trước Hình Ví dụ ràng buộc thu thập phương pháp KMMFFQS LỰA CHỌN CÁC RÀNG BUỘC CHO THUẬT TOÁN PHÂN CỤM NỬA GIÁM SÁT 242 IV