Trong nghiên cứu này, nhóm nghiên cứu tập trung cải tiến từ thuật toán phân cụm mờ với tham số mờ cho từng cụm dữ liệu. Đóng góp chính của bài báo: i) Xây dựng một thuật toán cải tiến từ thuật toán phân cụm mờ; ii) Xây dựng hàm tính tham số mờ cho từng cụm dữ liệu; iii) Cài đặt, đánh giá thuật toán cải tiến so với các thuật toán cùng loại.
TNU Journal of Science and Technology 226(16): 247 - 252 AN IMPROVEMENT OF FUZZY CLUSTERING METHOD WITH FUZZY PARAMETER FOR EACH DATA CLUSTER Nguyen Hong Tan1*, Le Khanh Duong1, Tran Thi Ngan2 1TNU - University of Information and Communication Technology, 2Thuyloi University ARTICLE INFO Received: 09/9/2021 Revised: 29/11/2021 Published: 30/11/2021 KEYWORDS Fuzzy clustering Fuzzy parameters Cluster data Performance Rating measure ABSTRACT Recently, fuzzy clustering is widely used to group data Fuzzy clustering is studied and applicable in many technical applications like crime hot spot detection, tissue differentiation in medical images, software quality prediction etc The researches on fuzzy clustering focuses mainly on the objective function to increase the performance of the clustering process However, the fuzzy parameter is an important factor affecting the performace of the clustering process The fuzzy parameter is used to reflect the degree of fuzzifier In this study, the research team focuses on improving the fuzzy clustering algorithm with fuzzy parameters for each data cluster Main contributions of the paper: i) building an improved algorithm from fuzzy clustering algorithm; ii) building a fuzzy parameter caculation function for each data cluster; iii) Executtion and evaluation the improved algorithm compared to other algorithms in the same field The experimental results of study show that the improved algorithm is more efficient than the original algorithm MỘT CẢI TIẾN PHÂN CỤM MỜ VỚI THAM SỐ MỜ CHO TỪNG CỤM DỮ LIỆU Nguyễn Hồng Tân1*, Lê Khánh Dương1, Trần Thị Ngân2 1Trường 2Trường Đại học Công nghệ Thông tin Truyền thơng - ĐH Thái Ngun Đại học Thủy lợi THƠNG TIN BÀI BÁO Ngày nhận bài: 09/9/2021 Ngày hoàn thiện: 29/11/2021 Ngày đăng: 30/11/2021 TỪ KHÓA Phân cụm mờ Tham số mờ Cụm liệu Hiệu Độ đo đánh giá TÓM TẮT Phân cụm mờ sử dụng nhiều thời gian gần để phân nhóm liệu Phân cụm mờ thường nghiên cứu nhiều lĩnh vực phát điểm nóng tội phạm, phân biệt mơ ảnh y tế, dự đoán chất lượng phần mềm Các nghiên cứu phân cụm mờ tập trung chủ yếu vào việc cải tiến hàm mục tiêu để tăng hiệu trình phân cụm Tuy nhiên để tăng hiệu trình phân cụm, yếu tố có ảnh hưởng lớn tham số mờ Khi đó, tham số mờ sử dụng để phản ảnh mức độ mờ hóa Do vậy, nghiên cứu này, nhóm nghiên cứu tập trung cải tiến từ thuật toán phân cụm mờ với tham số mờ cho cụm liệu Đóng góp báo: i) Xây dựng thuật toán cải tiến từ thuật toán phân cụm mờ; ii) Xây dựng hàm tính tham số mờ cho cụm liệu; iii) Cài đặt, đánh giá thuật toán tiến so với thuật toán loại Kết thực nghiệm nghiên cứu cho thấy thuật toán cải tiến cho hiệu tốt so với thuật toán gốc ban đầu DOI: https://doi.org/10.34238/tnu-jst.4970 * Corresponding author Email: nhtan@ictu.edu.vn http://jst.tnu.edu.vn 247 Email: jst@tnu.edu.vn TNU Journal of Science and Technology 226(16): 247 - 252 Giới thiệu Phân cụm liệu việc phân chia điểm liệu cụm liệu, cho điểm liệu có độ tương đồng cao thuộc cụm, điểm liệu có độ tương đồng thấp thuộc cụm khác [1] Các thuật toán phân cụm chia thành loại bản: phân cụm cứng phân cụm mờ Trong phân cụm cứng, điểm liệu thuộc cụm xác định Với phân cụm mờ, điểm liệu thuộc nhiều cụm liệu khác với độ thuộc vào cụm khác Các toán giới thực thường khó phân chia rõ ràng điểm liệu thuộc cụm nào, thời gian gần phương pháp phân cụm mờ sử dụng nhiều Các phương pháp phân cụm mờ ứng dụng phân loại tài liệu [2], phân đoạn ảnh [3], phân loại phương tiện tham gia giao thông [4], dự báo thời tiết [5] Các phương pháp nghiên cứu phát triển từ thuật toán phân cụm mờ (Fuzzy C-Mean: FCM) [6] thường giới thiệu để khắc phục nâng cao khả phân cụm thuật toán Một số nghiên cứu nhằm bổ sung thêm thông tin để trợ giúp phân cụm mờ, người ta phát triển phân cụm bán giám sát mờ [7]-[9] Một nhóm tác giả phát triển phân cụm mờ với tập mờ nâng cao [10], [11] Một số nhóm phát triển phân cụm mờ cho toán ứng dụng phân đoạn ảnh bổ sung thêm thơng tin khơng gian [12], bổ sung thông tin đặc trưng nha khoa để phân đoạn ảnh nha khoa [13] Các nghiên cứu thực với tham số mờ bằng2 (m=2), mà tập trung vào việc điều chỉnh thành phần cụm để làm tăng hiệu suất, từ làm tăng chất lượng phân cụm liệu Tuy nhiêu, yếu tố có ảnh hưởng đến q trình nâng cao chất lượng cụm tham số mờ chưa đề cập đến Năm 2020, tác giả Trần Đình Khang cộng [14] nghiên cứu đề cập đến việc lựa chọn cách tính tham số mờ với điểm liệu để làm tăng chất lượng trình phân cụm liệu Trong nghiên cứu này, nhóm nghiên cứu đưa cải tiến thuật toán phân cụm mờ với tham số mờ cho cụm liệu Khi thấy mối quan hệ trọng số mũ 𝑚 thuật toán phân cụm bán kính, kích thước cụm, khoảng cách tương đối phần tử xét vào tâm cụm Nhóm nghiên cứu, cài đặt đánh giá thử nghiệm thuật toán cải tiến với thuật toán phân cụm mờ thuật toán phân cụm mờ với tham số mờ điểm liệu Các phần báo cấu trúc sau: mục chúng tơi trình bày nghiên cứu liên quan để phát triển nghiên cứu Mục 3, chúng tơi trình bày chi tiết cải tiến phân cụm mờ với tham số mờ cho cụm liệu Mục 4, chúng tơi trình bày kết thực nghiệm, đánh giá so sánh thuật toán cải tiến phân cụm mờ với tham số mờ cho cụm liệu với số thuật toán khác Cuối cùng, kết luận đóng góp báo hướng phát triển báo Nghiên cứu liên quan 2.1 Thuật toán Fuzzy C-Mean Thuật toán phân cụm mờ Bezdek [6] đề xuất dựa độ thuộc ukj phần tử liệu Xk từ cụm j Hàm mục tiêu xác định sau: 𝑁 𝐶 𝑚 𝐽 = ∑ ∑ 𝑢𝑖𝑗 ‖𝑋𝑖 − 𝑉𝑗 ‖ → 𝑚𝑖𝑛 (1) 𝑖=1 𝑗=1 Trong đó: m tham số mờ hóa C số cụm liệu; N số phần tử liệu uij độ thuộc phần tử liệu Xi từ cụm j 𝑋𝑖 ∈ 𝑅 𝑟 phần tử thứ k X = X , X , , X N Vj tâm cụm j Khi ràng buộc (1) là: http://jst.tnu.edu.vn 248 Email: jst@tnu.edu.vn TNU Journal of Science and Technology 226(16): 247 - 252 𝐶 ∑ 𝑢𝑖𝑗 = 1; 𝑢𝑖𝑗 ∈ [0,1]; ∀𝑖 = 1, 𝑁 (2) 𝑗=1 Sử dụng phương pháp Lagrange giải tối ưu hàm mục tiêu (1) với buộc (2), xác định tâm cụm dựa vào (3) độ thuộc dựa vào (4) 𝑉𝑗 = 𝑢𝑖𝑗 = 𝑚 ∑𝑁 𝑖=1 𝑢𝑖𝑗 𝑋𝑖 𝑚 ∑𝑁 𝑖=1 𝑢𝑖𝑗 1 ‖𝑋𝑖 −𝑉𝑘 ‖ 𝑚−1 𝐶 ∑𝑘=1( ) ‖𝑋𝑖 −𝑉𝑗 ‖ ∀𝑗 = 1, 𝐶 (3) ∀𝑖 = 1, 𝑁; ∀𝑗 = 1, 𝐶 (4) Khi thuật tốn Fuzzy C-means sau (xem bảng 1) Bảng Thuật toán Fuzzy C-means Input Output FCM 3.1 3.2 Tập liệu X gồm N phần tử không gian r chiều; số cụm C; mờ hóa m; ngưỡng ԑ; số lần lặp lớn MaxStep>0 Ma trận U tâm cụm V Khởi tạo t=0 (𝑡) 𝑢𝑖𝑗 ← 𝑟𝑎𝑛𝑑𝑜𝑚; (𝑖 = 1, 𝑁; 𝑗 = 1, 𝐶) thỏa mãn điều kiện (2) Repeat t=t+1 ( ) Tính V j(t ) ; j = 1, C công thức (3) 3.3 Tính 3.4 (t ) (𝑡) 𝑢𝑖𝑗 ; (𝑖 Until U −U (t −1) = 1, 𝑁; 𝑗 = 1, 𝐶)bởi công thức (4) t > MaxStep 2.2 Thuật toán phân cụm mờ với tham số mờ cho điểm liệu Bảng Thuật toán MCFCM Input Output MCFCM 3.1 3.2 Tập liệu X gồm N phần tử , số cụm C, mi, ngưỡng 𝜀, số lần lặp tối đa maxStep > Ma trận U tâm cụm V Khởi tạo t=0 Khởi tạo ngẫu nhiên 𝑉 𝑡 Repeat t=t+1 Tính ma trận 𝑈 𝑡 dựa cơng thức 𝑢𝑖𝑗 = 3.3 3.4 Tính ma trận 𝑉 𝑡 dựa công thức 𝑉𝑘 = Until ‖𝑉 (𝑡) − 𝑉 (𝑡−1) ‖ ≥ 𝜀 or t > MaxStep ‖𝑋𝑖 −𝑉𝑘 ‖ 𝑚𝑖 −1 𝐶 ∑𝑗=1( ) ‖𝑋𝑖 −𝑉𝑗 ‖ 𝑁 𝑚 ∑𝑖=1 𝑢𝑖𝑘 𝑖 𝑋𝑖 𝑚𝑖 ∑𝑁 𝑘=1 𝑢𝑘𝑗 Trong thuật toán phân cụm mờ với nhiều tham số mờ Trần Đình Khang cộng [14] xây dựng dựa thuật toán phân cụm mờ với điểm liệu xây dựng tham số mờ riêng cho điểm liệu Khi đó, việc xác định tham số mờ xác định công thức (5) 𝑆𝑖 − 𝑆𝑚𝑖𝑛 𝛼 (5) 𝑚𝑖 = 𝑚1 + (𝑚2 − 𝑚1 ) ( ) ; 𝑖 = 1, 𝑁 𝑆𝑚𝑎𝑥 − 𝑆𝑚𝑖𝑛 Trong đó: m1, m2 giá trị cận cận tham số mi (1 m1m2) http://jst.tnu.edu.vn 249 Email: jst@tnu.edu.vn TNU Journal of Science and Technology - tham số đầu vào - Si = N /C j =1 Dij ; 226(16): 247 - 252 (i, j = 1, N ) Dij = X i − X j 𝑆𝑚𝑎𝑥 = 𝑚𝑎𝑥𝑖∈𝑁 (𝑆𝑖 ) 𝑆𝑚𝑖𝑛 = 𝑚𝑖𝑛𝑖∈𝑁 (𝑆𝑖 ) Thuật toán phân cụm mờ với tham số mờ cho điểm liệu (MCFCM) sau (Bảng 2) Cải tiến phân cụm mờ với tham số mờ theo cụm liệu Trong mục này, chúng tơi trình bày nội dung cải tiến phân cụm mờ với tham số mờ cho cụm liệu Khi mối quan hệ tham số mờ thuật toán phân cụm bán kính, kích thước cụm, khoảng cách tương đối điểm liệu với tâm cụm Khi xét độ thuộc phần tử 𝑥𝑖 vào cụm j: • Nếu bán kính cụm 𝑗 lớn 𝑚 nên nhỏ ngược lại, bán kính cụm j nhỏ 𝑚 nên lớn để tối ưu hóa vùng mờ tối đa phía cụm • Nếu khoảng cách tương đối điểm 𝑥𝑖 vào cụm j lớn so với khoảng cách tới cụm khác 𝑚 nên nhỏ ngược lại, khoảng cách tương đối điểm 𝑥𝑖 vào cụm j nhỏ so với khoảng cách tới cụm khác 𝑚 nên lớn khả 𝑥𝑖 thuộc vào cụm j cao • Nếu điểm có xu hướng thuộc vào cụm sẵn, ví dụ điểm thuộc vùng tập trung đơng điểm khác 𝑚 nên nhỏ đó, khả 𝑥𝑖 xét vào cụm cụ thể cao điểm khác • Mơ hình thực nghiệm dựa kinh nghiệm Khi việc xác định mơ hình thực sau: Hàm mục tiêu phân cụm mờ với tham số mờ theo cụm xác định công thức (6) 𝑚𝑗 𝐶 (6) 𝐽 = ∑𝑁 𝑖=1 ∑𝑗=1 𝑢𝑖𝑗 ‖𝑋𝑖 − 𝑉𝑗 ‖ → 𝑚𝑖𝑛 Với ràng buộc xác định (2) Với đề xuất tính giá trị tham số mj công thức (7) 𝑚𝑗 = + 𝑙𝑜𝑔 𝑢 +𝑙𝑜𝑔|𝐶 j = 1, C (7) 𝑗| 𝑗 Trong đó: 𝑢𝑗 = |𝐶𝑗 | ∑𝑋𝑖∈𝐶𝑗 𝑗 = 1, 𝐶 ‖𝑋𝑖 −𝑉𝑘 ‖ 𝑚−1 ∑𝐶 ( ) 𝑘=1 ‖𝑋 −𝑉 ‖ 𝑖 𝑗 (8) ( ) |𝐶𝑗 |: lực lượng phân tử cụm j; 𝐶𝑗 tập điểm liệu có độ thuộc lớn cụm j Sử dụng phương pháp Lagrange giải tối ưu hàm mục tiêu (6) với ràng buộc (2) 𝐶 𝑁 𝐿 = 𝐽 − ∑ 𝜆𝑖 (∑ 𝑢𝑖𝑗 − 1) 𝑖=1 𝑗=1 𝜕𝐽 =0 𝜕𝑉𝑗 𝜕𝐿 =0 𝜕𝑢𝑖𝑗 { Xác định tâm cụm dựa vào (9) độ thuộc dựa vào (10) 𝑢𝑖𝑗 = ‖𝑋𝑖 −𝑉𝑘 ‖ 𝑚𝑗 −1 ) ‖𝑋𝑖 −𝑉𝑗 ‖ ∑𝐶 𝑗=1( http://jst.tnu.edu.vn 250 (9) Email: jst@tnu.edu.vn TNU Journal of Science and Technology 226(16): 247 - 252 𝑚𝑗 ∑𝑁 𝑋𝑖 𝑖=1 𝑢𝑖𝑘 (10) 𝑚 𝑁 ∑𝑘=1 𝑢𝑘𝑗 𝑗 Thuật toán phân cụm mờ với tham số mờ cụm (MCFCM-C) thực sau (Bảng 3) 𝑉𝑘 = Bảng Thuật toán MCFCM-C Input Tập liệu X gồm N phần tử , số cụm C, mj, ngưỡng 𝜀, số lần lặp tối đa maxStep > Output Ma trận U tâm cụm V MCFCM-C Khởi tạo t=0 Khởi tạo ngẫu nhiên 𝑉 𝑡 Repeat 3.1 t=t+1 3.2 Tính ma trận 𝑈 𝑡 dựa công thức (9) 𝑚 ∑𝑁 𝑢𝑖𝑘 𝑗 𝑋𝑖 3.3 Tính ma trận 𝑉 𝑡 dựa công thức 𝑉𝑘 = 𝑖=1 𝑚𝑗 𝑁 3.4 ∑𝑘=1 𝑢𝑘𝑗 Until ‖𝑉 (𝑡) − 𝑉 (𝑡−1) ‖ ≥ 𝜀 or t > MaxStep Kết thực nghiệm Dữ liệu thực nghiêm liệu Liver, Diabetes, Arhythmia lấy kho liệu chuẩn UCI Machine Learning Repository Các độ đo dùng để đánh giá so sánh hiệu thuật toán cài đặt báo gồm Davies-Bouldin (DB) [15], PBM [15], Partition Coefficient (PC) [16] and Classification Entropy (CE) [16], Rand index (RI) [14] Thuật toán cải tiến phân cụm mờ với nhiều tham số mờ theo cụm (MCFCM-C) cài đặt với thuật toán có bao gồm thuật tốn phân cụm mờ với nhiều tham số (MCFCM [14]), phân cụm mờ (FCM [6]) Kết thực nghiệm với độ đo đánh giá hiệu thuật toán phân cụm mờ với nhiều tham số mờ theo cụm (trình bày mục 3) với thuật toán phân cụm loại liệu Liver, Diabetes, Arhythmia thể bảng Kết thực nghiệm cho thấy: với độ đo DB phương pháp MCFCM-C tốt phương pháp FCM, MCFCM liệu; với độ đo PBM phương pháp MCFCM-C tốt phương pháp FCM, MCFCM liệu; với độ đo CE phương pháp MCFCM tốt liệu Liver, Arrhythmia phương pháp MCFCM-C tốt liệu Diabetes, với độ đo RI phương pháp MCFCM-C tốt liệu Diabetes, Arrhythmia phương pháp MCFCM-C tốt liệu Liver Dựa độ đo đánh giá hiệu thuật tốn hiệu thuật tốn MCFCM-C cải tiến cho giá trị tốt với 9/12 giá trị đánh giá thuật toán MCFCM cho giá trị tốt với 3/12 giá trị đánh giá Với kết thuật tốn MCFCM-C tốt thuật tốn so sánh FCM MCFCM Bảng Kết thực nghiệm liệu Wine Data Liver Diabetes Arrhythmia Độ đo DBPBM+ CERI+ DBPBM+ CERI+ DBPBM+ CERI+ http://jst.tnu.edu.vn FCM 4,78 193,27 0,243 0,637 3,27 283,63 0,321 0,837 4,92 482,73 0,427 0,746 MCFCM 3,89 273,47 0,223 0,643 3,19 344,76 0,289 0,874 4,67 492,38 0,352 0,782 251 MCFCM-C 3,78 372,37 0,235 0,641 3,07 382,37 0,273 0,883 4,52 503,47 0,398 0,802 Email: jst@tnu.edu.vn TNU Journal of Science and Technology 226(16): 247 - 252 Kết luận Trong nghiên cứu này, tập trung vào việc cải tiến thuật toán Fuzzy C-Mean với tham số mờ theo cụm Đóng góp nhóm tác giả cải tiến thuật tốn Fuzzy CMean với tham số mờ theo cụm, xây dựng cách tính tham số mờ theo cụm Đồng thời, cài đặt thực nghiệm để đánh giá so sánh MCFCM-C với thuật toán FCM MCFCM Các kết thử nghiệm cho thấy, thuật toán MCFCM-C cho hiệu chất lượng cụm tốt so với thuật toán FCM, MCFCM Trong nghiên cứu tiếp theo, chúng tơi phân tích với nhiều loại liệu để đưa khuyến cáo phù hợp với liệu loại gì, xây dựng cách tính tham số mờ phù hợp với loại liệu TÀI LIỆU THAM KHẢO/ REFERENCES [1] Bezdek and C James, Pattern recognition with fuzzy objective function algorithms, Springer Science & Business Media, 2013 [2] S A Curiskis, B Drake, T R Osborn, and P J Kennedy, “An evaluation of document clustering and topic modelling in two online social networks: Twitter and Reddit,” Information Processing & Management, vol 57.2, 2020, Art no 102034 [4] W Ding, M Abdel-Basset, and H Hawash, “RCTE: A Reliable and Consistent Temporal-ensembling Framework for Semi-supervised Segmentation of COVID-19 Lesions,” Information sciences, vol 578, pp 559-573, 2021 [5] L Cao, C Wang, and J Li, “Vehicle detection from highway satellite images via transfer learning,” Information sciences, vol 366, pp 177-187, 2016 [6] H T Pham and H S Le,“Some novel hybrid forecast methods based on picture fuzzy clustering for weather nowcasting from satellite image sequences”, Applied Intelligence, vol 46.1, pp 1-15, 2017 [7] J C Bezdek, R Ehrlich, and W Full, “FCM: The fuzzy c‐mean clustering algorithm,” Comput Geosci, vol 10, pp 191-203, 1984 [8] E Yasunori, H Yukihiro, Y Makito, and M Sadaaki, “On semi-supervised fuzzy c-means clustering,” Fuzzy Systems, FUZZ-IEEE 2009 IEEE International Conference on, IEEE, 2009, pp 1119-1124 [9] X Yin, T Shu, and Q Huang, “Semi-supervised fuzzy clustering with metric learning and entropy regularization,” Knowledge-Based Systems, vol 35, pp 304-311, 2012 [10] H Zhang and J Lu, “Semi-supervised fuzzy clustering: A kernel-based approach,” Knowledge-Based Systems, vol 22, no 6, pp 477-481, 2009 [11] H S Le, “Generalized picture distance measure and applications to picture fuzzy clustering,” Applied Soft Computing, vol 46(C), pp 284-295, 2016 [12] E H Ruspini, J C Bezdek, and J M Keller, “Fuzzy clustering: A historical perspective,” IEEE Computational Intelligence Magazine, vol 14, no 1, pp 45-55, 2019 [13] L T Ngo, D S Mai, and W Pedrycz, “Semi-supervising Interval Type-2 Fuzzy C-Means clustering with spatial information for multi-spectral satellite image classification and changedetection,” Computers & geosciences, vol 83, pp 1-16, 2015 [14] M T Tran, T N Tran, and H S Le, “A novel semi-supervised fuzzy clustering method based on interactive fuzzy satisficing for dental X-ray image segmentation,” Applied Intelligence, vol 45, no 2, pp 402-428, 2016 [15] T D Khang, N D Vuong, M K Tran, and M Fowler, “Fuzzy C-Means Clustering Algorithm with Multiple Fuzzification Coefficients,” Algorithms, vol 13, no 7, p 158, 2020 [16] L Vendramin, R J Campello, and E R Hruschka, “Relative clustering validity criteria: A comparative overview,” Statistical analysis and data mining: the ASA data science Journal, vol 3-4, pp 209-235, 2010 http://jst.tnu.edu.vn 252 Email: jst@tnu.edu.vn ... toán phân cụm mờ với tham số mờ cho điểm liệu (MCFCM) sau (Bảng 2) Cải tiến phân cụm mờ với tham số mờ theo cụm liệu Trong mục này, chúng tơi trình bày nội dung cải tiến phân cụm mờ với tham số mờ. .. chi tiết cải tiến phân cụm mờ với tham số mờ cho cụm liệu Mục 4, chúng tơi trình bày kết thực nghiệm, đánh giá so sánh thuật toán cải tiến phân cụm mờ với tham số mờ cho cụm liệu với số thuật... toán cải tiến phân cụm mờ với nhiều tham số mờ theo cụm (MCFCM-C) cài đặt với thuật toán có bao gồm thuật tốn phân cụm mờ với nhiều tham số (MCFCM [14]), phân cụm mờ (FCM [6]) Kết thực nghiệm với