Bài viết đề xuất một phương pháp mới trong phân vùng dữ liệu theo độ tin cậy dựa trên phân cụm mờ viễn cảnh có tên gọi PT2FCM. Thuật toán đề xuất được so sánh thực nghiệm với một số phương pháp liên quan như phân cụm bán giám sát mờ trên tập mờ viễn cảnh (FCPFS), phân cụm bán giám sát mờ an toàn (CS3FCM), v.v.
TNU Journal of Science and Technology 227(08): 103 - 113 A SEMI-SUPERVISED FUZZY CLUSTERING METHOD FOR DATA PARTITION WITH CONFIDENCE PROBLEM BASED ON PICTURE FUZZY CLUSTERING Phung The Huan1, Hoang Thi Canh1*, Pham Huy Thong2 1TNU 2VNU - University of Information and Communication Technology - Information Technology Institute ARTICLE INFO Received: 21/02/2022 Revised: 20/4/2022 Published: 21/4/2022 KEYWORDS Fuzzy clustering Semi-supervised fuzzy clustering Safe clustering Confidence weight Picture fuzzy set ABSTRACT Data clustering and applications have received much research attention in recent years During data collection, it is possible that some data with lower confidence (wrong value, incorrect attribute, etc.) This will reduce the clustering performance with possible outliers and noises Several research directions have been proposed to solve this problem First, for data elements with wrong values or wrong attributes can use Safe semisupervised fuzzy clustering methods Secondly, for noisy data elements, the concept of Picture Fuzzy Set can be used, although there are some related studies to reduce noices and increase the quality of clustering, it is only on the traditional fuzzy set In this paper, we propose a new algorithm named as PT2FCM, to handle the problem of data partition with confidence problem The proposed method is implemented and experimentally compared against the related methods, including the standard Picture fuzzy clustering (FCPFS), and the Confidence-weighted safe semi-supervised clustering (CS3FCM), etc The experimental results show that the proposed method has better performance comparing to selected methods on the same datasets MỘT PHƯƠNG PHÁP PHÂN VÙNG DỮ LIỆU THEO ĐỘ TIN CẬY DỰA TRÊN PHÂN CỤM MỜ VIỄN CẢNH Phùng Thế Hn1, Hồng Thị Cành1*, Phạm Huy Thơng2 1Trường 2Viện Đại học Công nghệ Thông tin Truyền thông - ĐH Thái Nguyên Công nghệ Thông tin - ĐH Quốc gia Hà Nội THÔNG TIN BÀI BÁO Ngày nhận bài: 21/02/2022 Ngày hồn thiện: 20/4/2022 Ngày đăng: 21/4/2022 TỪ KHĨA Phân cụm mờ Phân cụm bán giám sát mờ Phân cụm an toàn Trọng số an toàn Tập mờ viễn cảnh TÓM TẮT Phân cụm liệu lĩnh vực ứng dụng hướng nghiên cứu nhận nhiều quan tâm từ nhà khoa học năm gần Trong trình thu thập liệu, số liệu có độ tin cậy thấp (sai giá trị, thuộc tính khơng xác, v.v.) tồn tồn tập liệu Điều làm giảm hiệu suất phân cụm với nhiễu ngoại lệ xảy Một số hướng nghiên cứu đưa để giải vấn đề Thứ nhất, liệu sai giá trị, sai thuộc tính sử dụng phương pháp phân cụm bán giám sát mờ an toàn Thứ hai, điểm liệu nhiễu sử dụng khái niệm tập mờ viễn cảnh, cho dù có số nghiên cứu liên quan nhằm tăng chất lượng phân cụm, nhiên dừng lại tập mờ truyền thống Trong báo này, đề xuất phương pháp phân vùng liệu theo độ tin cậy dựa phân cụm mờ viễn cảnh có tên gọi PT2FCM Thuật toán đề xuất so sánh thực nghiệm với số phương pháp liên quan phân cụm bán giám sát mờ tập mờ viễn cảnh (FCPFS), phân cụm bán giám sát mờ an toàn (CS3FCM), v.v Các kết thực nghiệm cho thấy, phương pháp đề xuất có chất lượng phân cụm tốt so với phương pháp liên quan tập liệu DOI: https://doi.org/10.34238/tnu-jst.5563 * Corresponding author Email: htcanh@ictu.edu.vn http://jst.tnu.edu.vn 103 Email: jst@tnu.edu.vn TNU Journal of Science and Technology 227(08): 103 - 113 Giới thiệu Ngày nay, gia tăng nguồn liệu đến từ mạng xã hội, kênh đa phương tiện Facebook, Amazon, Youtube, v.v nên nhu cầu cần thiết đặt cấu trúc phân cấp liệu lớn để truy cập truy xuất cách nhanh chóng, dễ dàng Dữ liệu có nhiều định dạng khác văn bản, hình ảnh, âm thanh, video, Kỹ thuật phân cụm liệu áp dụng nhiều lĩnh vực ứng dụng sinh học [1], ứng dụng thư viện [2], bảo hiểm [3], tài [4], phân đoạn hình ảnh y tế [5], [6],… Tuy nhiên, trình thu thập liệu tồn số liệu có độ tin cậy thấp tồn tập liệu Điều ảnh hưởng đến hiệu suất kết phân cụm liệu Vấn đề phân cụm liệu theo độ tin cậy coi việc giải toán phân cụm trường hợp số liệu gán nhãn khơng xác Như minh họa Hình 1, giả sử tập liệu bao gồm cụm có số liệu gán nhãn (hình vuông thể liệu gán nhãn thuộc Cụm hình tam giác thể liệu gán nhãn thuộc Cụm 2), hình trịn thể điểm liệu chưa gán nhãn Đường nét đứt ngầm hiển thị ranh giới hai cụm Ngồi cịn số liệu gán nhãn khơng xác, biểu diễn dấu thập phía ký hiệu liệu gán nhãn Mục tiêu tốn tìm đường ranh giới “tốt nhất” hai cụm với liệu gán nhãn xác khơng xác Hình Phân cụm liệu theo độ tin cậy Một cách tiếp cận điển hình để giải vấn đề phân cụm liệu theo độ tin cậy phân cụm bán giám sát mờ Được khởi xướng Pedrycz Waletzky [7], ý tưởng sử dụng kết phân loại có sẵn phần trình phân cụm với việc bổ sung vectơ thể hai giá trị liệu gán nhãn khơng gán nhãn Ngồi ra, phân cụm bán giám sát mờ an toàn sử dụng để giải vấn đề phân cụm liệu theo độ tin cậy Ý tưởng cách tiếp cận mô tả nghiên cứu Gan đồng nghiệp [8]-[11] bao gồm bước chính: i) tính tốn trọng số tin cậy liệu gán nhãn đồ thị cục bộ; ii) xây dựng xác định trung tâm cụm giá trị phần tử mờ theo liệu gán nhãn có trọng số tin cậy cao Một cách tiếp cận khác sử dụng tập mờ viễn cảnh [12], khái quát mở rộng tập mờ truyền thống với tập mờ trực cảm Các mơ hình dựa mờ viễn cảnh áp dụng cho nhiều tình liên quan đến lựa chọn như: đồng ý, dự, không đồng ý từ chối trả lời Các tình cho kết tốt thuật toán phân cụm dựa tập mờ trực cảm tập mờ truyền thống Trong báo này, đề xuất phương pháp phân vùng liệu theo độ tin cậy dựa phân cụm mờ viễn cảnh có tên gọi PT2FCM Phương pháp đề xuất thực nghiệm so sánh đem lại hiệu suất tốt so với phương pháp liên quan Các phần báo trình bày sau: Trong phần chúng tơi trình bày số phương pháp tiếp cận phân cụm bán giám sát mờ theo độ tin cậy ưu nhược điểm http://jst.tnu.edu.vn 104 Email: jst@tnu.edu.vn TNU Journal of Science and Technology 227(08): 103 - 113 Chi tiết phương pháp đề xuất trình bày phần Trong phần tiến hành đánh giá thực nghiệm, so sánh hiệu suất phân cụm phương pháp PT2FCM phương pháp liên quan Cuối cùng, phần đưa kết luận đóng góp báo, đề xuất hướng phát triển thời gian tới Một số phương pháp tiếp cận phân cụm bán giám sát mờ theo độ tin cậy 2.1 Phương pháp phân cụm bán giám sát mờ tiêu chuẩn (SSFCM) SSFCM phương pháp phân cụm bán giám sát mờ tiêu chuẩn đề xuất Pedrycz Waletzky [7] Trong hàm mục tiêu phương pháp SSFCM gồm thành phần: thành phần học không giám sát thành phần học có giám sát Với hàm mục tiêu biểu diễn sau: N C N C J s = uikm dik2 + ( uik − f ik bk ) dik2 → Min k =1 i =1 m k =1 i =1 (1) Trong đó, tập liệu X = X , X , , X k , , X N với số điểm liệu N , số cụm: ( C ), độ thuộc điểm liệu k cụm i : ( u ki ), khoảng cách d ki từ điểm liệu k đến tâm cụm Vi , độ thuộc f ki gán nhãn k cụm i , số mờ m Tham số sử dụng để cân thành phần học giám sát học không giám sát, bk sử dụng để phân biệt phần tử gán nhãn không gán nhãn 1 nế u X k gá n nhã n fik = nế u ngược lại 0 1 nế u X k gá n nhã n bk = nế u ngược lại 0 Các tâm cụm Vi độ thuộc uik tính tốn sau: N Vi = (3) N uik2 xk + (uik − fik bk )2 xk k =1 N k =1 N u + (uik − fik bk )2 xk k =1 (2) ik , i = 1, , C (4) k =1 1 + 1 − bk f ik j =1 uik = + f ik bk , i = 1, , C , k = 1, , L (5) C d ik2 1+ j =1 d jk Phương pháp phân cụm bán giám sát mờ tiêu chuẩn SSFCM có hiệu suất phân cụm tốt phương pháp phân cụm bán giám sát mờ có sử dụng thông tin bổ trợ, thông tin người dùng đưa vào để hướng dẫn trình phân cụm Phương pháp đạt hiệu suất cao với không nhiều số lượng thông tin bổ trợ gán nhãn cho điểm liệu Tuy nhiên, hiệu suất phương pháp phụ thuộc vào số cụm việc khởi tạo ngẫu nhiên giá trị tâm cụm ban đầu 2.2 Phương pháp phân cụm bán giám sát an tồn có trọng số độ tin cậy (CS3FCM) C Trong phương pháp CS3FCM [8] phần tử khác có ảnh hưởng khác đến hiệu suất phân cụm Về mặt hình thức, có tập liệu: tập thứ X = x1 ,x , , x l tập liệu gán nhãn tập thứ hai X u = x l +1 ,x l + , , x n tập liệu không gán nhãn Trong C số cụm, phần tử xk có nhãn yk 1, , c Trong phương pháp CS3FCM, http://jst.tnu.edu.vn 105 Email: jst@tnu.edu.vn TNU Journal of Science and Technology 227(08): 103 - 113 tác giả sử dụng FCM để chia tất điểm liệu thành cụm sau tính tốn ma trận phân hoạch U = u ước lượng nhãn đầu Y = y1 , , y l , y l +1 , y n sử dụng thuật c n toán đối sánh Kuhn–Munkres [13], nhãn ước lượng yk |lk =1 nhãn xác y k |lk =1 so sánh để có ma trận N c bao gồm phần tử pij , pij đo lường khả nhãn 𝑖th phân lớp vào lớp 𝑗th p11 p N c = 21 pc1 Điều kiện pc c u i =1 p1c p2 c pcc p12 p22 ij (6) = pij Đối với phần tử gán nhãn xk , yk = y k p y k , yk cao độ an tồn, tin cậy phần tử cao Trọng số s k xk tính tốn sau: p if y k = y k y , y u y ,k sk = k k (7) p yk , y k (1 − u y , k ) otherwise Gan cộng xây dựng biểu đồ cục W = w kr nn để định nghĩa hàng xóm cho phần tử gán nhãn xác định trọng số biểu đồ: x − xr exp{ − k } neá u xr N p ( xk ) vaøyk = yr w kr = (8) nế u ngược lại 0 Trong đó, N p ( xk ) đại diện cho tập liệu p hàng xóm gần phần tử gán nhãn xk , xr đại diện cho phần tử không gán nhãn Hàm mục tiêu CS3FCM tính sau: N C l C l C N J c = uikm dik2 + 1 sk (uik − fik )2 dik2 + 2 wkr (uik − uir )2 → Min (9) k =1 i =1 k =1 i =1 k =1 sk r = l +1 i =1 C u i =1 ik = 1, k = 1, , N Độ thuộc uik liệu gán nhãn xk tính tốn sau: C p − jk j =1 q jk pik + C j =1 q jk u ik = qik Độ thuộc uir liệu khơng gán nhãn xr tính tốn sau: http://jst.tnu.edu.vn 106 (10) Email: jst@tnu.edu.vn TNU Journal of Science and Technology 227(08): 103 - 113 C zir t zir + Cj =1 ir j =1 tir u ir = tir 1− (11) Tâm cụm vi tính bởi: N vi = l uik2 xk + 1 sk (uik − fik )2 xk k =1 N u k =1 ik k =1 l + 1 sk (uik − f ik ) (12) k =1 Phương pháp phân cụm bán giám sát mờ an tồn có trọng số tin cậy CS3FCM có hiệu suất phân cụm tốt so với phương pháp SSFCM Trong phương pháp phân cụm bán giám sát mờ an tồn có trọng số CS3FCM, thuật tốn tiến hành so sánh tính tốn mức độ ảnh hưởng điểm liệu Các điểm liệu có mức độ ảnh hưởng lớn tới điểm lại mang trọng số lớn, ngược lại điểm có mức độ ảnh hưởng nhỏ có trọng số nhỏ Tuy nhiên, phương pháp có bất lợi thời gian chạy trình xây dựng đồ thị cục bộ, trải qua trình kiểm tra cập nhật nhãn điểm liệu 2.3 Phương pháp phân cụm mờ viễn cảnh (FCPFS) Khái niệm tập mờ viễn cảnh [12] đưa lần đầu vào năm 2014 Bùi Công Cường sở mở rộng tổng quát hóa tập mờ [14] tập mờ trực cảm [15] để đề xuất khái niệm tập mờ viễn cảnh Một tập mờ viễn cảnh tập không rỗng X định nghĩa sau: A = ( x, A( x), A( x), A( x) ) | x X (13) Trong đó, A( x) độ khẳng định phần tử x N , A( x) độ trung lập (độ dự) A( x) độ phủ định, thoả mãn ràng buộc: ij ,ij , ij 1, A( x) + A( x) + A( x) (14) Độ từ chối phần tử ký hiệu A( x) tính sau: A( x) = − ( A( x) + A( x) + A( x)) (15) Phạm Huy Thơng Lê Hồng Sơn đề xuất thuật toán phân cụm mờ viễn cảnh (FCPFS) [16], với hàm mục tiêu mô tả sau: N C J m (U , , ,V ) = ( ij (2 − ij )) m xi − v j i =1 j =1 N C + ij (logij + ij ) → Min i =1 j =1 Với ràng buộc định nghĩa sau: ij ,ij , ij 1, ij + ij + ij 1, i N ,1 j C (16) (17) C (2 − ) = 1, i N j =1 ij C ij (18) ij ) = 1, i N (19) C j =1 Sử dụng phương pháp Lagrange, Phạm Huy Thông cộng tính tốn nghiệm tối ưu hàm mục tiêu (16) là: ( http://jst.tnu.edu.vn ij + 107 Email: jst@tnu.edu.vn TNU Journal of Science and Technology 227(08): 103 - 113 N vj = ( (2 − )) ij i =1 N ( (2 − )) ij i =1 xi (20) m ij ij = xi − v j C k =1 xi − vk (2 − ij ) ( ij = m ij exp(−ij ) C exp(−ik ) (1 − C )1/( m −1) (21) C k =1 ik ) (22) k =1 ij = − (ij + ij ) − (1 − (ij + ij ) )1/ (23) Trong đó, (0,1) gọi hệ số mũ sử dụng để điều khiển độ từ chối tập mờ viễn cảnh Phương pháp phân cụm mờ viễn cảnh FCPFS có hiệu suất phân cụm tốt so với phương pháp trình bày SSFCM, CS3FCM, đặc biệt dạng liệu có nhiễu liệu bị gán nhãn sai Do phương pháp phân cụm mờ viễn cảnh FCPFS có sử dụng khái niệm tập mờ viễn cảnh, bao gồm thuộc tính độ thuộc, độ trung lập độ từ chối điểm liệu cụm Các thuộc tính cho kết phân cụm tốt hiệu suất phân cụm tập mờ mờ trực cảm Phương pháp đề xuất 3.1 Ý tưởng thuật toán Phương pháp phân cụm bán giám sát mờ an toàn viễn cảnh đề xuất PT2FCM dựa ý tưởng kết hợp phân cụm bán giám sát mờ an toàn tập mờ viễn cảnh, biểu diễn hàm mục tiêu bao gồm thành phần Ý tưởng bước thực mơ tả Hình Giai đoạn PT2FCM giảm thiểu khoảng cách phần tử liệu trung tâm cụm thông qua độ mờ viễn cảnh Giai đoạn thứ hai để xử lý "dữ liệu nhiễu" cách tích hợp đại lượng entropy mức độ dự độ từ chối mơ hình tập mờ viễn cảnh Giai đoạn thứ ba nhằm mục đích phối hợp phân cụm bán giám sát mờ an toàn với liệu gán nhãn để xử lý liệu chưa xác Kết đầu thuật toán cụm cuối với độ tin cậy mức độ xác Chi tiết thuật tốn cơng thức theo ý tưởng trình bày phần Hình Mơ hình thuật tốn đề xuất PT2FCM 3.2 Chi tiết thuật tốn 3.2.1 Mơ hình hóa http://jst.tnu.edu.vn 108 Email: jst@tnu.edu.vn TNU Journal of Science and Technology 227(08): 103 - 113 Từ ý tưởng trên, phần hình thành mơ hình hố phương pháp đề xuất Hàm mục tiêu bao gồm thành phần, hiển thị sau: N C J = ( kj (2 − kj )) X k − V j k =1 j =1 L ( kj (2 − kj ) f kj ) C + ( k =1 j =1 kj C k =1 j =1 (24) X k −Vj (2 − kj ) f kj ) Với ràng buộc: N + kj (log kj + kj ) + → Min kj + kj + kj (25) kj ) =1 C (26) C ( j =1 C ( j =1 kj kj + (2 − kj )) = (27) k = N , j = C Trong tập liệu X = X , X , , X N với số lượng phần tử N , số phần tử gán nhãn X : L N ; số lượng cụm (C) ; kj , kj , kj độ thuộc, độ dự, độ từ chối phần tử X k cụm j Trong hàm mục tiêu (24), thành phần thành phần phân cụm mờ viễn cảnh gốc (FCPFS) [16], thành phần thứ tương ứng với phân cụm bán giám sát mờ an tồn tập mờ viễn cảnh • Phần N C ( k =1 j =1 • Phần thứ hai N C k =1 j =1 kj kj (2 − kj )) X k − V j đại diện cho phân cụm mờ viễn cảnh (logkj + kj ) đại diện cho thông tin entropy giúp giảm nhiễu liệu thông qua mức độ dự từ chối điểm liệu L C ( kj (2 − kj ) f kj )2 X k − V j thành phần cho phần tử liệu • Phần thứ ba k =1 j =1 + ( kj (2 − kj ) f kj ) gán nhãn, k = L L số phần tử liệu gán nhãn Phần tử số (kj (2 − kj ) fkj )2 mô tả phân cụm bán giám sát mờ, f kj giá trị số, có giá trị nế u phầ n tửk nằ m cụm j fkj = (28) nế u ngược lại 0 Phần mẫu số + ( kj (2 − kj ) f kj )2 mô tả phân cụm bán giám sát an toàn Ý nghĩa thành phần sau: Sau phân cụm, điểm liệu gán nhãn, trọng số tăng lên; khơng, trọng số giảm xuống • Thông tin bổ trợ cho phân cụm bán giám sát mờ cấp độ thành viên trước Sử dụng thuật toán FCPFS ban đầu để phân cụm tất liệu bao gồm liệu gán nhãn khơng gán nhãn Từ tính giá trị ( kj , kj , kj ,V ) để làm sở tính tốn cho tất phần tử liệu 3.2.2 Giải nghiệm http://jst.tnu.edu.vn 109 Email: jst@tnu.edu.vn TNU Journal of Science and Technology 227(08): 103 - 113 Các phương án tối ưu mơ hình xác định công thức (24–27) thông qua phương pháp Lagrange N L ( kj (2 − kj ) f kj ) 2 ( (2 − )) X + Xk kj kj k k =1 k =1 + ( kj (2 − kj ) f kj ) Vj = (29) N L ( kj (2 − kj ) f kj ) 2 ( kj (2 − kj )) + k =1 k =1 + ( kj (2 − kj ) f kj ) Độ thuộc u liệu gán nhãn sau: kj = ( fkj ) 1 + C ( kj (2 − kj ) f kj (2 − kj ) i =1 ( f ki ) 1 + ( ki (2 − ki ) f ki ( ( ) X −V k j X −V k i (30) ) Độ thuộc u liệu chưa gán nhãn sau: kj = X k − Vj C i =1 X k − Vi (2 − kj ) Các độ thuộc khác tính tốn sau: kj = (1 − C e ki ) C C i =1 (31) − kj e − ki (32) i =1 kj = − (kj + kj ) − (1 − (kj + kj ) ) (33) 3.2.3 Chi tiết thuật toán PT2FCM Thuật toán phân cụm bán giám sát mờ an toàn tập mờ viễn cảnh (PT2FCM) trước hết sử dụng FCPFS để phân vùng tất liệu với kết đóng vai trò đầu vào phương pháp đề xuất Phương pháp PT2FCM mở rộng thuật toán FCPFS với việc thêm phần tử bán giám sát an toàn cho liệu gán nhãn Phương pháp phân vùng liệu đem lại hiệu cao liệu gán nhãn mà giảm số lượng nhãn nghi ngờ Thuật tốn đề xuất trình bày Thuật toán đây: Thuật toán Các bước thuật tốn PT2FCM Tập liệu X với số lượng phần tử N d chiều, số lượng phần tử gán nhãn Đầu X : L N ; số lượng cụm (C) ; ngưỡng ; tham số mờ m ; số mũ (0,1] số vào lần lặp tối đa Maxsteps Đầu Các ma trận độ thuộc , , tâm cụm V Chạy thuật toán FCPFS với tất phần tử liệu để lấy ( kj , kj , kj ,V ) 1: 2: 3: 4: 5: Khởi tạo: t = kj t random;kj t random;kj t random (k = N , j = C ) thoả mãn ràng buộc (25-27) Repeat t = t +1 http://jst.tnu.edu.vn 110 Email: jst@tnu.edu.vn TNU Journal of Science and Technology 227(08): 103 - 113 6: Tính V j ( j = 1, , C ) công thức (29) 7: Tính kj(t ) cho liệu gán nhãn (k = 1, , L; j = 1, , C ) cơng thức (30) 8: Tính kj(t ) cho liệu chưa gán nhãn (k = L + 1, , C; j = 1, , C) cơng thức (31) Tính kj(t ) ( k = 1, , N ; j = 1, , C ) cơng thức (32) 9: 10: Tính kj(t ) ( k = 1, , N ; j = 1, , C ) công thức (33) 11: Until t − t −1 + t − t −1 + t − t −1 Maxsteps số lần lặp tối đa Đánh giá thực nghiệm 4.1 Các điều kiện thực nghiệm Các thuật tốn thực máy tính để bàn với vi xử lý Intel(R) Xeon(R), 16GB RAM; ngôn ngữ lập trình C với Dev-C ++ IDE Các liệu thử nghiệm lấy từ Kho lưu trữ học máy UCI [17] trình bày Bảng Trong phần này, cài đặt thực nghiệm để so sánh, đánh giá hiệu phương pháp đề xuất PT2FCM với phương pháp SSFCM, CS3FCM FCPFS trược trình bày phần Các tiêu chí để so sánh, đánh giá thuật toán sau: i) Độ xác phân cụm: Giá trị cao độ xác phân cụm CA (Clustering Accuracy) [8] thể cho hiệu suất phân cụm tốt ii) Chất lượng phân cụm: Giá trị nhỏ độ đo DB (Davies–Bouldin index) [18] đem lại chất lượng phân cụm tốt Bảng Dữ liệu UCI dùng cho thực nghiệm STT 10 Bộ liệu Australian Balance-scale Dermatology Heart Iris Spambase Tae Waweform Wdbc Wine Số lượng mẫu 690 625 366 270 150 4601 151 5000 569 178 Số thuộc tính 14 34 13 57 40 30 13 Số cụm 3 3 4.2 Kết thực nghiệm 4.2.1 Đánh giá theo độ xác phân cụm Bảng Giá trị độ xác phân cụm (CA) 10 liệu Phương pháp Australian Balance-scale Dermatology Heart Iris Spambase Tae Waweform Wdbc Wine PT2FCM Trung Phương bình sai 0,5576 0,0274 0,5212 0,0417 0,6872 0,0274 0,8331 0,0306 0,8103 0,0287 0,5940 0,0255 0,4821 0,0293 0,5519 0,0365 0,6835 0,0265 0,8405 0,0301 http://jst.tnu.edu.vn FCPFS Phương Trung bình sai 0,5312 0,0150 0,5944 0,0388 0,7155 0,0203 0,7233 0,0188 0,7542 0,0327 0,5447 0,0146 0,4618 0,0461 0,5174 0,0229 0,7471 0,0161 0,7922 0,0586 111 CS3FCM Phương Trung bình sai 0,5186 0,0153 0,5404 0,0218 0,6728 0,0154 0,8081 0,0164 0,8069 0,0833 0,5674 0,0478 0,4844 0,0194 0,5134 0,0312 0,6041 0,0286 0,7579 0,0329 SSFCM Trung Phương bình sai 0,5227 0,0162 0,5490 0,0305 0,6719 0,0162 0,5414 0,0194 0,6411 0,0175 0,5144 0,0143 0,4580 0,0181 0,5711 0,0253 0,5683 0,0153 0,5889 0,0189 Email: jst@tnu.edu.vn TNU Journal of Science and Technology 227(08): 103 - 113 Độ xác phân cụm phương pháp đề xuất PT2FCM so sánh với phương pháp SSFCM, CS3FCM FCPFS trình bày Bảng Trong Bảng 2, phương pháp đề xuất PT2FCM có 5/10 giá trị tốt (Australian, Heart, Iris, Spambase Wine); phương pháp FCPFS có 3/10 giá trị tốt (Balance-scale, Dermatology, Wdbc); phương pháp CS3FCM có 1/10 giá trị tốt (Tae); cịn lại phương pháp SSFCM có 1/10 giá trị tốt (Waweform) Mặt khác, tỉ số trung bình độ xác phân cụm theo phương pháp PT2FCM so với phương pháp FCPFS, CS3FCM SSFCM 1,03, 1,05 1,17 Do đó, cách tổng thể độ xác phân cụm theo phương pháp PT2FCM tốt phương pháp FCPFS, CS3FCM SSFCM 4.2.2 Đánh giá theo chất lượng cụm Chất lượng phân cụm theo độ đo DB phương pháp đề xuất PT2FCM so sánh với phương pháp SSFCM, CS3FCM FCPFS trình bày Bảng Bảng Giá trị chất lượng phân cụm theo độ đo DB 10 liệu Phương pháp Australian Balance-scale Dermatology Heart Iris Spambase Tae Waweform Wdbc Wine PT2FCM Trung Phương bình sai 2,3610 0,1678 3,0984 0,2812 12,5601 1,1231 2,1627 1,0649 3,0312 0,1798 2,6472 0,2487 2,8903 0,1694 8,3421 1,2704 1,9235 0,0591 3,1089 0,0465 FCPFS Trung bình 3,3491 3,1854 9,9297 2,2254 3,0838 3,2775 2,7060 9,4595 2,6836 2,7263 Phươn g sai 0,0182 0,1062 1,8434 0,0261 0,0539 0,0157 0,1394 3,0705 0,0983 0,0400 CS3FCM Phương Trung bình sai 6,0265 0,0152 4,9964 0,1919 15,5687 2,0770 2,4040 0,1521 3,4747 0,2629 4,4607 0,5125 2,7640 0,0443 5,1157 0,1207 2,2870 0,0151 3,0655 0,0648 SSFCM Phương Trung bình sai 2,2527 0,0377 3,9196 0,1511 19,5570 0,9930 2,5519 0,9348 3,0464 0,0497 2,7543 0,1186 2,8909 0,0393 22,9106 1,9370 2,0328 0,0299 2,8765 0,0191 Trong Bảng 3, phương pháp PT2FCM có 5/10 giá trị tốt (Balance-scale, Heart, Iris, Spambase, Wdbc); phương pháp FCPFS có 3/10 giá trị tốt (Dermatology, Tae, Wine); phương pháp CS3FCM có 1/10 giá trị tốt (Waveform); cịn lại phương pháp SSFCM có 1/10 giá trị tốt (Australian) Tỉ số trung bình chất lượng phân cụm phương pháp PT2FCM so với phương pháp FCPFS, CS3FCM SSFCM 0,98, 0,84 0,65 Do đó, chất lượng phân cụm theo phương pháp PT2FCM tốt phương pháp liên quan Kết luận Trong báo này, đề xuất phương pháp phân vùng liệu theo độ tin cậy dựa phân cụm mờ viễn cảnh có tên gọi PT2FCM Thuật tốn đề xuất so sánh thực nghiệm thuật toán phân cụm bán giám sát mờ tiêu chuẩn (SSFCM), phân cụm bán giám sát mờ an toàn với trọng số tin cậy (CS3FCM) phân cụm bán giám sát mờ tập mờ viễn cảnh (FCPFS) theo tiêu chí độ xác phân cụm chất lượng cụm Các kết thực nghiệm cho thấy, phương pháp đề xuất có độ xác phân cụm chất lượng phân cụm tốt so với phương pháp liên quan Cụ thể sau: i.) Về độ xác phân cụm: Tỉ số trung bình độ xác phân cụm theo phương pháp PT2FCM so với phương pháp FCPFS, CS3FCM SSFCM 1,03, 1,05 1,17.; ii) Về chất lượng cụm: Tỉ số trung bình chất lượng phân cụm theo phương pháp PT2FCM so với phương pháp FCPFS, CS3FCM SSFCM 0,98, 0,84 0,65 Thuật tốn đề xuất có khả loại bỏ giảm bớt mức độ ảnh hưởng phần tử liệu bị nhiễu Tuy nhiên, phương pháp cịn số hạn chế mơ hình chứa nhiều tham số dẫn đến thời gian tính tốn cao Trong nghiên cứu tiếp theo, nhóm tác giả phát triển thuật toán để khắc phục nhược điểm http://jst.tnu.edu.vn 112 Email: jst@tnu.edu.vn TNU Journal of Science and Technology 227(08): 103 - 113 Lời cám ơn Nghiên cứu tài trợ Trường Đại học Công nghệ Thông tin Truyền thông - Đại học Thái Nguyên; đề tài mã số T2022-07-03 TÀI LIỆU THAM KHẢO/ REFERENCES [1] Y Wu, Y Guo, Y Xiao, and S Lao, “AAE-SC: A scRNA-seq clustering framework based on adversarial autoencoder,” IEEE Access, vol 8, pp 178962-178975, 2020 [2] J T Santoso, S Jumini, and Bhawika, Unsupervised Data Mining Technique for Clustering Library in Indonesia, Library Philosophy and Practice, pp 1-9, 2021 [3] W Shi, W N Chen, T Gu, H Jin, and J Zhang, “Handling Uncertainty in Financial Decision Making: A Clustering Estimation of Distribution Algorithm With Simplified Simulation,” IEEE Transactions on Emerging Topics in Computational Intelligence, vol 5, no 1, pp 42-56, 2020 [4] S Majumdar and Laha, Clustering and classification of time series using topological data analysis with applications to finance, Expert Systems with Applications, vol 162, 2020 [5] A Kumar, H S Bhadauria, and A Singh, “Semi-supervised OTSU based hyperbolic tangent Gaussian kernel fuzzy C-mean clustering for dental radiographs segmentation,” Multimedia Tools and Applications, vol 79, no 3, pp 2745-2768, 2020 [6] K Zhao, Y Jiang, K Xia, L Zhou, Y Chen, K Xu, and P Qian, “View-collaborative fuzzy soft subspace clustering for automatic medical image segmentation,” Multimedia Tools and Applications, vol 79, no 13, pp 9523-9542, 2020 [7] W Pedrycz and J Waletzky, “Fuzzy clustering with partial supervision,” IEEE Transactions on Systems, Man, and Cybernetics, Part B (Cybernetics), vol 27, no 5, pp 787-795, 1997 [8] H Gan, Y Fan, Z Luo, R Huang, and Z Yang, “Confidence-weighted safe semi-supervised clustering,” Engineering Applications of Artificial Intelligence, vol 81, pp 107-116, 2019 [9] H Gan, Z Li, W Wu, Z Luo, and R Huang, “Safety-aware graph-based semi-supervised learning,” Expert Systems with Applications, vol 107, pp 243-254, 2018 [10] H Gan, Y Fan, Z Luo, and Q Zhang, “Local homogeneous consistent safe semi-supervised clustering,” Expert Systems with Applications, vol 97, pp 384-393, 2018 [11 H Gan, “Safe Semi-Supervised Fuzzy C-Means Clustering,” IEEE Access, vol 7, pp 95659-95664, 2019 [12] B C Cuong and V Kreinovich, “Picture fuzzy sets,” Journal of Computer Science and Cybernetics, vol 30, no 4, pp 409-420, 2014 [13] L Lovász and M D Plummer, Matching theory, American Mathematical Soc, vol 378, 2009 [14] L A Zadeh, “Fuzzy sets,” In Fuzzy sets, fuzzy logic, and fuzzy systems: selected papers by Lotfi A Zadeh, pp 394-432, 1996 [15] K Atanassov, “Intuitionistic fuzzy sets,” International Journal Bioautomation, vol 20, no 1, pp 1-6, 2016 [16] P H Thong and L H Son, “Picture fuzzy clustering: a new computational intelligence method,” Soft Comput., vol 20, no 9, pp 3549-3562, 2016 [17] D Dua and C Graff, “UCI Machine Learning Repository,” 2019 [Online] Available http://archive.ics.uci.edu/ml [Accessed Jan 10, 2022] [18] D L Davies and D W Bouldin, “A cluster separation measure,” IEEE Transactions on Pattern Analysis and Machine Intelligence, vol 2, pp 224-227, 1979 http://jst.tnu.edu.vn 113 Email: jst@tnu.edu.vn ... thuật toán phân cụm dựa tập mờ trực cảm tập mờ truyền thống Trong báo này, đề xuất phương pháp phân vùng liệu theo độ tin cậy dựa phân cụm mờ viễn cảnh có tên gọi PT2FCM Phương pháp đề xuất thực... thời gian tới Một số phương pháp tiếp cận phân cụm bán giám sát mờ theo độ tin cậy 2.1 Phương pháp phân cụm bán giám sát mờ tiêu chuẩn (SSFCM) SSFCM phương pháp phân cụm bán giám sát mờ tiêu chuẩn... chất lượng phân cụm theo phương pháp PT2FCM tốt phương pháp liên quan Kết luận Trong báo này, đề xuất phương pháp phân vùng liệu theo độ tin cậy dựa phân cụm mờ viễn cảnh có tên gọi PT2FCM Thuật