Xây dựng không gian hạt giảm chiều dựa trên tính toán hạt là một bước tiền xử lý nhằm loại bỏ những thuộc tính không cần thiết và tìm kiếm ngoại lai đối với bài toán phân cụm dữ liệu không chắc chắn và quy mô lớn. Trong khi đó thuật toán C-Means khả năng mờ loại hai khoảng thực hiện hiệu quả trong xử lý dữ liệu không chắc chắn và có nhiễu.
Cơng nghệ thơng tin & Cơ sở tốn học cho tin học PHÂN CỤM C-MEANS KHẢ NĂNG MỜ LOẠI HAI KHOẢNG DỰA TRÊN TÍNH TỐN HẠT CẢI TIẾN Trương Quốc Hùng*, Ngơ Thành Long, Phạm Thế Long Tóm tắt: Xây dựng khơng gian hạt giảm chiều dựa tính tốn hạt bước tiền xử lý nhằm loại bỏ thuộc tính khơng cần thiết tìm kiếm ngoại lai tốn phân cụm liệu khơng chắn quy mơ lớn Trong thuật toán C-Means khả mờ loại hai khoảng thực hiệu xử lý liệu không chắn có nhiễu Tận dụng ưu điểm đó, đề xuất phương pháp phân cụm C-Means khả mờ loại hai khoảng dựa tính tốn hạt cải tiến (AGrIT2FPCM) Phương pháp sử dụng tính tốn hạt để tạo hạt giảm chiều, sau sử dụng lực hấp dẫn hạt để xác định tâm hạt nhằm cải tiến phép đo khoảng cách hạt với tâm cụm Các kết thực nghiệm tập liệu khác cho thấy phương pháp công bố có kết tốt so với phương pháp trước Từ khóa: Phân cụm mờ; Trích chọn đặc trưng; Phân cụm C-means khả mờ; Tính tốn hạt; Lực hấp dẫn hạt MỞ ĐẦU Thuật toán phân cụm có nhiều dạng khác phân cụm rõ K-means [1], phân cụm mờ loại FCM [2], phân cụm mờ dựa khả PCM [3] hay kết hợp FCM PCM (FPCM) [4] Gần có nhiều nghiên cứu đề xuất hướng cải tiến nhằm nâng cao chất lượng phân cụm thuật tốn FPCM [5]-[8] Ngồi ra, để xử lý tốt tính khơng chắn, có nhiều phương pháp sử dụng kỹ thuật logic mờ loại hai đề xuất [9]-[14] Trong nhóm E Rubio đề xuất phương pháp phân cụm C-Means khả mờ loại hai khoảng (IT2FPCM) mở rộng FPCM sử dụng tập mờ loại hai khoảng [15] Các mở rộng góp phần giảm ảnh hưởng nhiễu xử lý tính khơng chắn thuật toán FCM gốc tốt Tuy nhiên, thuật toán tồn hạn chế phân cụm liệu lớn nhiều chiều tốc độ thực chậm độ xác bị ảnh hưởng thuộc tính nhiễu Một hướng giải toán phân cụm liệu lớn, nhiều chiều tìm cách loại bỏ nhiễu thuộc tính dư thừa hay rút gọn thuộc tính liệu [16], [21] Có nhiều thuật tốn heuristic rút gọn thuộc tính cơng bố Trong J Qian đề xuất số thuật tốn giảm thuộc tính cho liệu lớn sử dụng map-reduce [17] nhóm L.Sun thiết kế phương pháp lựa chọn thuộc tính dựa hệ số entropy thơ [18], [19] tính tốn hạt [20] Trong nhóm Q.H.Hu giới thiệu phương pháp lựa chọn thuộc tính cách kết hợp tính tốn hạt lý thuyết xấp xỉ [21] Tuy nhiên, phương pháp lựa chọn thuộc tính cần gán nhãn mẫu huấn luyện thường áp dụng vào toán phân lớp Gần đây, tính tốn hạt cơng cụ mạnh để nghiên cứu giải toán phức tạp, liệu lớn, thông tin không chắn liệu nhiều chiều [22], [23] Tính tốn hạt trở thành phương pháp mơ suy nghĩ người giải tốn trí tuệ tính tốn có liên quan đến ý tưởng hạt logic hạt [24] sử dụng tảng cho phương pháp rút gọn thuộc tính [21], [20] Có nhiều mơ hình lai tính tốn hạt phương pháp khác đề xuất tạo loại hình thuật tốn học máy Những mơ hình dựa cấu trúc hạt nhiều loại liệu phương pháp học khác [25], [26] Trong công bố gần đây, chúng tơi áp dụng tính tốn hạt để thực rút gọn thuộc tính cho tốn phân cụm nhằm giảm ảnh hưởng xấu từ số chiều lớn tập liệu [28] Bên cạnh nghiên cứu lực hấp dẫn hạt dựa ý tưởng định luật vạn vật hấp dẫn Newton 176 T Q Hùng, N T Long, P T Long, “Phân cụm C-Means … tính tốn hạt cải tiến.” Nghiên cứu khoa học công nghệ hướng nghiên cứu thu hút nhiều ý Dựa ý tưởng nhóm M.A Sanchez trình bày phương pháp để tìm kiếm hạt thông tin mờ từ liệu đa chiều [29] Nhóm tác giả M Alswaitti đề xuất thuật toán phân cụm liệu dựa lực hấp dẫn tối ưu hóa [30] Trên sở đó, phương pháp phân cụm C-means khả mờ loại hai khoảng dựa tính tốn hạt cải tiến (AGrIT2FPCM) đề xuất Phương pháp tận dụng khả IT2FPCM xử lý nhiễu kết hợp tính tốn hạt để loại bỏ ảnh hưởng thuộc tính dư thừa đối tượng nhiễu Ngoài lực hấp dẫn hạt sử dụng để xác định tâm hạt, qua cải tiến phép đo khoảng cách hạt tâm cụm Các phần lại báo tổ chức sau: Phần giới thiệu ngắn gọn số kiến thức sở phân cụm C-Means khả mờ loại hai khoảng, tính tốn hạt lực hấp dẫn hạt; Phần đề xuất phân cụm IT2FPCM dựa tính tốn hạt cải tiến; Phần đưa số kết thực nghiệm Phần phát biểu kết luận đề xuất hướng nghiên cứu KIẾN THỨC CƠ SỞ 2.1 Phân cụm C-Means khả mờ loại khoảng Thuật toán phân cụm C-Means khả mờ loại khoảng mở rộng thuật toán phân cụm C-Means khả mờ loại sử dụng tập mờ loại [15] Các trọng số mũ mờ m trọng số mũ khả p khoảng giá trị tương ứng: m = [m , m ]; p = [p , p ] Ma trận phân hoạch mờ u nằm khoảng u , u , u , u cận cận khoảng thuộc mờ độ thuộc liệu x vào cụm v Ma trận phân hoạch khả t nằm khoảng t , t , t , t cận cận khoảng thuộc khả độ thuộc liệu x vào cụm v Chúng xác định sau: = , = , = (2) , = đó, ≤ ≤ , ≤ (1) (3) , ≤ ; , (4) số cụm số phần tử liệu Tâm cụm nằm khoảng , , cụm thứ Chúng xác định sau: ∑ ( + ) = ∑ ( + ) , Tạp chí Nghiên cứu KH&CN quân sự, Số 59, 02 - 2019 cận cận tâm (5) 177 Công nghệ thơng tin & Cơ sở tốn học cho tin học = ∑ ( ∑ + ( + ) (6) ) đó, = ; = Giảm kiểu để xác định ma trận phân hoạch mờ, ma trận phân hoạch khả tâm cụm: + (7) = ̅ + (8) = + (9) = 2.2 Tính tốn hạt 2.2.1 Hạt thơng tin tính chất hạt Hạt thông tin [28] định nghĩa = , ( ) , liên quan đến khái niệm hạt thông tin, ( ) mô tả mở rộng hạt thông tin Đối với hệ thống phân cụm = ( , ), tính chất hạt hệ thống với tập thuộc tính ( ), ⊆ xác định sau: tập hạt = { } biểu diễn | ( ) = / | | ( )| , | | ( )∈ (10) 2.2.2 Mức độ ảnh hưởng thuộc tính dựa tính chất hạt Sự ảnh hưởng tập thuộc tính hệ thống phân cụm [28] xác định dựa tính chất hạt Trong hệ thống phân cụm = ( , ), mức độ ảnh hưởng thuộc tính ∈ biểu diễn { } ( ) xác định sau: ( − )− ( ) (11) { }( ) = Giá trị { } ( ) lớn mức độ ảnh hưởng thuộc tính a lớn, ( − ) với ngược lại thuộc tính ∈ dư thừa A giá trị ( ) Thuật toán rút gọn trình bày ngắn gọn sau: Thuật tốn 1: Rút gọn thuộc tính dựa tính tốn hạt Đầu vào: Một hệ thống thông tin hạt = ( , ) ≠ ∅ tập đối tượng ≠ ∅ tập thuộc tính Đầu ra: tập rút gọn thuộc tính tối thiểu , biểu diễn Bước 1: Xác định lõi tập thuộc tính ( ) sau: Tính mức độ quan trọng thuộc tính A biểu diễn { } ( ) theo công thức (11), ( ) ≠ chọn thuộc tính vào ( ) { } Bước 2: 4.1 Gán ≔ ( ) ( ) = ( ) điều kiện dừng thỏa mãn 4.2 Nếu 4.3 repeat: 4.3.1 Với thuộc tính ∈ − , tính tốn mức độ ảnh hưởng ∪ { }: ( ) ( )= 4.3.2 Tìm thuộc tính mà mức độ ảnh hưởng lớn ′ max ′ ∈ 4.3.3 Thêm thuộc tính vào lõi: ≔ ∪ until GK(C) = GK(A) 178 T Q Hùng, N T Long, P T Long, “Phân cụm C-Means … tính tốn hạt cải tiến.” Nghiên cứu khoa học công nghệ 2.2.3 Không gian hạt trích chọn đặc trưng Phương pháp xây dựng khơng gian hạt trích chọn đặc trưng [28] xác định sau: Các đối tượng = { , , … , } phân cụm vào cụm theo thuộc tính thứ thuật tốn FPCM [4], ∈ Trên thuộc tính thứ , cụm gán nhãn cách đánh số tăng dần từ đến tương ứng với giá trị tăng dần liệu cụm Ma trận nhãn cụm hình thành từ phần tử ( , ) nhãn đối tượng thứ thuộc tính thứ , ≤ ( , ) ≤ , = [ ( , )]( × ) Từ giá trị { , , … , } hàng ma trận nhãn cụm , xây dựng hạt = { , ( )}, = { , , … , }, ( ) = { ∈ ∶ ( , 1) = ∧ ( , 2) = ∧ … ∧ ( , ) = } Như khơng gian hạt G hình thành từ tập hạt, = { }, = 1,2, … , với số hạt, ≤ ≤ , biểu diễn = | | Chú ý ta xét hạt với = { , , … , }, ∃ ≠ với ≠ Phương pháp xây dựng không gian hạt trích chọn đặc trưng mơ tả ngắn gọn sau: Thuật tốn 2: Xây dựng khơng gian hạt trích chọn đặc trưng Đầu vào: Tập liệu = { }, = , = , , … , , số cụm tham số lọc nhiễu Đầu ra: Tập thuộc tính tập rút gọn tối thiểu không gian hạt Bước 1: 3.1 Thực thuật toán thuộc tính ∈ để thành lập ma trận nhãn cụm = [ ( , )]( × ) ( , ) nhãn cụm đối tượng thứ thuộc tính thứ 3.2 Loại bỏ đối tượng thuộc tính ngoại lai theo thứ tự công thức: ( ) (12) ≔ − { } < ∀ = 1,2 , = 1,2, , ≔ − { } (1, ) = (2, ) = ⋯ = ( ′ , ) (13) Bước 2: Xây dựng không gian hạt 4.1 Khởi tạo G = ∅, r = 0, ID = {1,2, … , n}, k = 0, trong số hàng ma trận , tập số số hạt 4.2 repeat 4.2.1 = + 4.2.2 repeat = +1 until ∈ 4.2.3 Thiết lập theo giá trị hàng thứ ma trận : = ( , 1), ( , 2), … , ( , ) số thuộc tính tập sau loại ngoại lai 4.2.4 Tìm ( ) = { ∈ : ( , 1) = ( , 1) ∧ ( , 2) = ( , 2) ∧ … ∧ ( , ) = ( , )} if | ( )| > then 4.2.4.1 for each ∈ ( ): = − { }, = −{ } 4.2.4.2 = ( , ( )) 4.2.4.3 if not ( , 1) = ( , 2) = ⋯ = ( , ) then = ∪ { } until =∅ Bước 3: Thực thuật toán tập hạt G để thu tập rút gọn tối thiểu C A Tạp chí Nghiên cứu KH&CN quân sự, Số 59, 02 - 2019 179 Công nghệ thông tin & Cơ sở toán học cho tin học 2.2.4 Lực hấp dẫn hạt Định luật vạn vật hấp dẫn Newton lý thuyết quan trọng vật lý học Theo định luật vạn vật hấp dẫn khối điểm hút khối điểm khác lực theo phương đường thẳng cắt hai điểm Lực tỷ lệ thuận với tích hai khối lượng tỷ lệ nghịch với bình phương khoảng cách hai điểm: = (14) ‖ , ‖ đó, lực hút hai khối, số hấp dẫn có giá trị 6.674 ∗ 10 , khối lượng khối thứ khối thứ hai, ‖ , ‖ khoảng cách hai tâm khối Định luật lý giải khối điểm khơng gian có lực tương tác tất khối điểm lại vũ trụ, ý tưởng thuật toán phân cụm dựa lực hấp dẫn hạt FGGCA [29] Thuật tốn mơ lực hấp dẫn khơng gian, điểm liệu coi khối đơn có khối lượng giả định 100 kg Các điểm liệu hay khối có trọng lượng xem xét thuộc tính gồm: vị trí , khối lượng mật độ lực hấp dẫn Khi điểm liệu thứ hạt thứ biểu diễn = ( , , ), với 1≤ ≤ | ( )|, 1≤ ≤ | | PHÂN CỤM C-MEANS KHẢ NĂNG MỜ LOẠI HAI KHOẢNG DỰA TRÊN TÍNH TỐN HẠT CẢI TIẾN 3.1 Xác định trọng tâm hạt dựa lực hấp dẫn Để xác định trọng tâm hạt thu từ thuật tốn chúng tơi thực theo trình tự sau: Bước đầu tiên, tính tốn lực tương tác tất điểm liệu hạt hay lực hấp dẫn tác động điểm tất điểm khác hạt: ( )×( ) = (15) , Tổng lực hấp dẫn điểm tất điểm khác hạt tạo nên mật độ lực hấp dẫn điểm đó: | ( )| (16) =∑ , với ≠ Bước thứ hai, hạt xếp tất điểm liệu theo thứ tự giảm dần mật độ lực hấp dẫn tương ứng Sau xếp, phần tử đầu tương ứng với điểm có mật độ lực hấp dẫn cao phần tử cuối tương ứng với điểm có mật độ lực hấp dẫn thấp Bước thứ ba, hạt xét theo thứ tự ưu tiên từ điểm có mật độ lực hấp dẫn cao đến điểm có mật độ hấp dẫn nhỏ Với điểm xét tìm hạt gần so với , sau thực ghép sau: = ∪ (17) Như sau ghép, biến lại có thay đổi khối lượng vị trí Cụ thể khối lượng thêm phần khối lượng : = + (18) Vị trí cập nhật tâm trọng lực khối lượng hai điểm , trước đó, biểu diễn bởi: = , (19) + Tiếp theo tính tốn hệ số chia tỷ lệ , biểu diễn phương trình (20) Vị trí 180 T Q Hùng, N T Long, P T Long, “Phân cụm C-Means … tính tốn hạt cải tiến.” Nghiên cứu khoa học công nghệ cập nhật phương trình (21), nghĩa vị trí xác định độ xê dịch phía đoạn: Ρ λ = (20) , = + λ( − ) (21) Sau trình trên, hạt số lượng điểm giảm khối lượng chung từ tất điểm hạt giữ nguyên Để tìm trọng tâm hạt, thực lặp lại tiếp trình đến số điểm hạt lại Vị trí điểm kết trọng tâm hạt Thuật tốn 3: Thuật tốn tìm trọng tâm hạt Đầu vào: Không gian hạt = { } với ≤ ≤ | |, | | số hạt không gian hạt } Đầu ra: Tập trọng tâm hạt ={ For each = to | | Bước 1: 3.1 Gán số điểm ban đầu = | ( )| 3.2 Khởi tạo: Khởi tạo điểm liệu , ,…, hạt thứ , đó: = 100, = ( tương ứng khối lượng mật độ hấp dẫn hạt thứ ) Bước 2: repeat: 5.1 Tính tất lực hấp dẫn tương tác hạt thứ : = ( )×( , ) với ≠ , ≤ , ≤ , số hấp dẫn 5.2 Tính mật độ hấp dẫn cho điểm: =∑ = 6.674 × 10 với ≠ 5.3 Sắp xếp điểm hạt thứ theo mật độ hấp dẫn giảm dần 5.4 Thực ghép điểm Tìm gần nhất, thực ghép hai điểm , với ∀ , , ≤ ≤ − 1; ≤ ≤ 5.4.1 Xác định trọng lượng điểm ghép: = + 5.4.2 Xác định tâm trọng lực: 5.4.3 Xác định hệ số tỷ lệ : = = , , 5.4.4 Xác định vị trí điểm ghép: = + 5.4.5 Cập nhật số lượng điểm lại hạt: = until: =1 Bước 3: Trọng tâm hạt thứ : = Next − −1 3.2 Thuật toán C-Means khả mờ loại hai khoảng dựa tính tốn hạt cải tiến (AGrIT2FPCM) Xem xét hệ thống phân cụm hạt = ( , ), không gian hạt = { }, = ′ ( ) | | | | = Hạt đầu vào = , với = , , … , ′ , = số thuộc tính Tạp chí Nghiên cứu KH&CN quân sự, Số 59, 02 - 2019 181 Công nghệ thông tin & Cơ sở toán học cho tin học Thực phương pháp tìm trọng tâm hạt dựa lực hấp dẫn, tương ứng hạt thu trọng tâm hạt Khi đó, khoảng cách hạt tâm cụm , ≤ ≤ xác định khoảng cách trọng tâm hạt tâm cụm : (22) =‖ − ‖ Ma trận phân hoạch mờ nằm khoảng , , , cận cận khoảng thuộc mờ độ thuộc hạt vào cụm Ma trận phân hoạch khả nằm khoảng , , , cận cận khoảng thuộc khả độ thuộc hạt vào cụm Chúng xác định theo công thức (1), (2), (3) (4), = 1,2, … , ; = 1,2, … , ; tính cơng thức (22) Các cận cận , tâm cụm thứ xác định sau: ∑ ( + )× ×| | = (23) ∑ + ×| | ∑ ( = + ∑ )× ×| + ×| | (24) | = 1,2, … , ; = , = | | số điểm liệu hạt Tiếp theo thực giảm kiểu để xác định ma trận phân hoạch mờ, ma trận phân hoạch khả tâm cụm theo công thức (7), (8) (9) Thuật toán C-Means khả mờ loại hai khoảng dựa tính tốn hạt cải tiến (AGrIT2FPCM) trình bày ngắn gọn sau: Thuật tốn 4: AGrIT2FPCM Đầu vào: Hệ thống phân cụm ( , ) tập liệu = { , , … , }, tập thuộc tính = , , … , , số cụm , sai số tham số nhiễu Đầu ra: ma trận độ thuộc khả , ma trận độ thuộc mờ ma trận tâm Bước 1: Áp dụng thuật toán hệ thống phân cụm ( , ) để thu tập thuộc tính rút gọn tối thiểu không gian hạt G Bước 2: Áp dụng thuật tốn khơng gian hạt để thu tập trọng tâm hạt } ={ Bước 3: Áp dụng thuật toán IT2FPCM hệ thống phân cụm = ( , ) sau: 5.1 Gán số bước lặp = 5.2 repeat: 5.2.1 = + 5.2.2 Cập nhật ma trận độ thuộc khả ( ) dùng công thức (3), (4) (8) 5.2.3 Loại bỏ hạt ngoại lai nhiễu ={ ∈ : max ( ) ≥ , ∀ = 1,2, … , } 5.2.4 Cập nhật ma trận độ thuộc mờ ( ) dùng công thức (1), (2) (7) 5.2.5 Cập nhật ma trận tậm cụm (24) (9) until: Gán liệu ( () = ( ) , ( ) ,…, ( ) dùng công thức (23), ) − () ≤ vào cụm thứ > , = 1,2, , ≠ THỰC NGHIỆM Trong phần này, số tập liệu tiếng công bố sử dụng thực 182 T Q Hùng, N T Long, P T Long, “Phân cụm C-Means … tính tốn hạt cải tiến.” Nghiên cứu khoa học cơng nghệ nghiệm Để phân tích so sánh kết phân cụm, báo sử dụng phương pháp phân cụm khác bao gồm: FPCM [4], GrFPCM (thực FPCM [4] khơng gian hạt từ thuật tốn 2) AGrIT2FPCM, AGrIT2FPCM thuật tốn đề xuất nghiên cứu Các thuật toán thực chương trình VC++ chạy máy tính Intel core i7-3517U CPU 1.90GHz - 2.40GHz, RAM 8.0 GB Thông qua điều chỉnh thực nghiệm, kết phân cụm ổn định với tham số thiết lập sau: = 1.5, = 2.5, = 1.5, = 2.5, = 2, = 2, tham số nhiễu θ = 0.1 = 0.0001 Các kết thực phân cụm đánh giá qua số tỷ lệ xác thực tỷ lệ xác thực sai [31] định nghĩa sau: TPR = ; FPR = (25) TP số liệu phân lớp xác, FN số liệu phân lớp lỗi – khơng xác, FP số liệu phân lớp khơng xác TN số liệu phân lớp lỗi xác Các thuật toán cho giá trị TPR cao giá trị FTR thấp tương ứng với độ xác phân cụm cao Bảng Các tập liệu thử nghiệm Tập liệu Số phần Số thuộc Số lớp Số thuộc tính tử tính sau rút gọn WDBC 569 30 DNA 106 57 2 Madelon 4400 500 12 Lymphoma 45 4026 15 Leukaemia 38 7129 Global Cancer Map(GCM) 190 16063 14 16 Embryonal Tumours 60 7129 Colon 62 2000 Các tập liệu sử dụng bao gồm: Wis-consin Diagnostic Breast Cancer (WDBC), E coli promoter gene sequences (DNA), Madelon năm tập liệu ung thư khác (Lymphoma, Leukaemia, Global Cancer Map (GCM), Embryonal Tumours Colon) [28] Chi tiết tập liệu tập thuộc tính rút gọn tối thiểu thể Bảng Bảng Kết thử nghiệm Tập liệu FPCM Chỉ số FS TPR FPR WDBC 30 92.6% 2.8% DNA 57 91.5% 2.80% Madelon 500 90.8% 3.30% Lymphoma 4026 88.9% 2.20% Leukaemia 7129 81.6% 7.90% Global Cancer 16063 90.0% 5.30% Map Embryonal 7129 88.3% 8.30% Tumours Colon 2000 80.6% 9.70% GrFPCM TPR FPR 95.4% 1.9% 96.20% 1.90% 94.80% 2.10% 95.60% 2.20% 94.70% 2.60% 96.80% 1.10% AGrIT2FPCM FS TPR FPR 96.1% 1.6% 97.20% 1.90% 12 95.80% 1.90% 15 95.60% 2.20% 97.40% 2.60% 16 97.90% 1.10% 95.00% 1.70% 96.70% 1.70% 93.50% 3.20% 95.20% 3.20% FS 12 15 16 Các tập liệu bảng phân cụm FPCM, GrFPCM AGrIT2FPCM với số cụm số lớp Trong FPCM thực phân cụm tập liệu đầy đủ Tạp chí Nghiên cứu KH&CN quân sự, Số 59, 02 - 2019 183 Công nghệ nghệ thông tin & C Cơ sở sở tốn học cho tin học thuộcc tính GrFPCM AGrIT2FPCM th thu thựcc hi n phân ccụm m không gian hhạtt G vvớii thu thuộ ộcc tính tính rút gọ gọnn đđầầu u c a Thu Thuậtt toán Các kết k t qu phân ccụm m qua ch sốố ho hoặcc chất ch t lượ lượng ng củ củaa phân ccụm m đư đượcc báo cáo B Bảảng ng đư đượ ợcc th thể hi n trự ng biểu bi u đồ đồ hình ình Trong thu trựcc quan bbằng thuậậtt tốn đđềề xu t AGrIT2FPCM có đđộộ xác cao tương ứng xuất ng vvớ ớii giá tr trị TPR cao FTR th thấấp p Thu Thuậậtt toán AGrIT2FPCM thu đư đượ ợcc TPR cao nh nhấấtt FPR nh nhỏ nh t ttậập p d liệu li u tỷ tỷ lệ xác thực th c hay ch số s TPR củ củaa ttấtt ccả bộ ữ liệệu theo thu thuậtt toán đđề xuấ xuất đềềuu có giá tr trị 95 % Hình 1 Biểểuu đđồ kkếtt quả thử nghi nghiệm m 55 K KẾT ẾT LUẬN Bài báo đđãã trình bày thu thuật ật tốn phân cụm C C Means Means kh khảả mờ loại hai khoảng tính tốn hhạt ạt cải tiến Ph Phương ương pháp th thực ực rút gọn thuộc tính liệu nhằm giữ lại thuộc tính vvàà lo nhằm loại ại thuộc tính ddư th thừa ừa Hơn Hơn nữa, nữa, ph ương pháp phương đềề xuất sử dụng tính tốn hạt vvàà hàm thu thuộc ộc loại hai khoảng ccòn òn có ý ngh nghĩa ĩa nâng cao khả xxử lý tính khơng chắn Ngo Ngồi ài ra, ddựa ựa trên llực ực hấp dẫn hạt, ph phương ương pháp xác định ịnh trọng tâm hạt để cải tiến phép đo khoảng cách hạt với tâm cụm Các th thực ực nghiệm nghiệm đ ợc thực tr ên ố cho thấy kết số tập liệu đđãã công bbố phương pháp đđềề xuất tốt hhơn ơn so với với ph phương ương pháp phân ccụm ụm khác M Một ột số hư hướng ớng nghi nghiên ứu nh ssử dụng ph phương ương pháp ti tiến ến hóa (như (như ên ccứu giải ải thuật di truyền) đểể tối ưu tham ssố ố thuật toán phân cụm mở rộng phân cụm ụm sử dụng hhàm àm thu thuộc ộc loại hai dạng hạt TÀI LI LIỆU ỆU THAM KHẢO [1] T Kanung et al [1] al,, “An Efficient kk-Means Means Clustering Algorithm: Analysis and Implementation” Implementation”,, IEEE Trans On Pattern Analysis and Machine Intelligence Intelligence, Vol 24, No (2002), pp 881 881-893 893 [2] J.C Bezdek, R Ehrlich, W Full, ““FCM: [2] FCM: The Fuzzy cc Means Means Clustering Algorithm Algorithm”, ”, Computers & Geosciences, Vol 10 10,, No 22 3 (1984), pp 191 191-203 203 [3] R Krishnapuram, J Keller, “A possibilistic approach to clustering“, IEEE Trans [3] Fuzzy Syst., Vol 1,, No (1993), pp 98 98-110 110 [4] N.R Pal, K.Pal, J.C Bezdek, “A mixed cc-means [4] means clustering model“ model“,, Proceedings of the Sixth IEEE International Conference on Fuzzy Systems, Vol 11,, (1997), pp 11 11-21 21 184 T Q Hùng, N T Long, P T Long, “Phân ccụm ụm C C Means Means … tính tốn h ạt cải tiến tiến.”” hạt Nghiên cứu khoa học công nghệ [5] S Askari et al, "Generalized Possibilistic Fuzzy C-Means with novel cluster validity indices for clustering noisy data", Applied Soft Computing, Vol 53, (2017), pp 262283 [6] S Askari et al, "Generalized entropy based possibilistic fuzzy C-Means for clustering noisy data and its convergence proof", Neurocomputing, Vol 219, (2017), pp 186-202 [7] M B Ferraro, P Giordani, "Possibilistic and fuzzy clustering methods for robust analysis of non-precise data", International Journal of Approximate Reasoning, Vol 88, (2017), pp 23-38 [8] J Aparajeeta et al, "Modified possibilistic fuzzy C-means algorithms for segmentation of magnetic resonance image", Applied Soft Computing, Vol 41, (2016), pp 104-119 [9] N Karnik, M Mendel, "Operations on type-2 set", Fuzzy Set Syst., Vol 122, No 2, (2001), pp 327–348 [10] M Mendel, "Uncertain Rule-Based Fuzzy Logic Systems: Introduction and new directions", Prentice-Hall Inc., Upper Saddle River (2001) [11] C Hwang, F.C Rhee, "Uncertain fuzzy clustering: interval type-2 fuzzy approach to Cmeans", IEEE Trans Fuzzy Syst., Vol 15, No (2007), pp 107-120 [12] M.H.F Zarandi et al, "Type-II fuzzy possibilistic C-mean clustering", In: IFSA/EUSFLAT Conference, (2009), pp 30–35 [13] E Rubio and O Castillo, “Optimization of the Interval Type-2 Fuzzy C-Means using Particle Swarm Optimization”, NaBIC, (2013), pp 10-15 [14] J P Sarkar et al, "Rough Possibilistic Type-2 Fuzzy C-Means clustering for MR brain image segmentation", Applied Soft Computing, Vol 46, (2016), pp 527-536 [15] E Rubio et al, "A new Interval Type-2 Fuzzy Possibilistic C-Means clustering algorithm", In: NAFIPS/WConSC Conference, (2015), pp 1-5 [16] B M Joshi et al, “High Dimensional Unsupervised Clustering Based Feature Selection Algorithm”, International Journal of Engineering Science and Technology (IJEST), Vol 4, No (2012), pp.2022-2029 [17] J Qian, L Ping, et al, "Hierarchical attribute reduction Algorithms for big data using Map Reduce", Knowledge-based Systems, Vol 73, (2015), pp.18-31 [18] L Sun et al, "New Approach for Feature Selection by Using Information Entropy", Journal of Information and Computational Science, Vol 8, (2011), pp.2259-2268 [19] L Sun et al, "Feature Selection Using Rough Entropy-Based Uncertainty Measures in Incomplete Decision Systems", Knowledge Based Systems, Vol 36, (2012), pp.206-216 [20] L Sun et al, "Granular Space-Based Feature Selection and Its Applications", Journal of Software, Vol 8, No (2013), pp.817-826 [21] Q H Hu et al, "Mixed Feature Selection Based on Granulation and Approximation", Knowledge-Based System, Vol 21, (2008), pp.294-304 [22] L.-y Gao et al, "Research on Granular Computing Cased on Rough Set Theory and Its Application", Control and APG, Vol 24, No 12-3 (2008), pp.189-191 [23] H Li, "Research on Knowledge Reduction based on Knowledge Granularity", Journal of Suzhou University, Vol 25, No (2010), pp.16-19 [24] W Pedrycz, "From fuzzy data analysis and fuzzy regression to granular fuzzy data analysis", Fuzzy Sets and Systems, Vol 274, (2015), pp.12-17 [25] S Ding et al, "Research on the hybrid models of granular computing and support vector machine", Artificial Intelligence Review, Vol 43, No (2015), pp.565-577 [26] Y Qian, Y Li, J Liang, "Fuzzy Granular Structure Distance", IEEE Trans on Fuzzy Systems , Vol 23, No (2015), pp 2245-2259 [27] H Runxin and H Nian, "The Reduction of Facial Feature Based on Granular Tạp chí Nghiên cứu KH&CN quân sự, Số 59, 02 - 2019 185 Cơng nghệ thơng tin & Cơ sở tốn học cho tin học Computing", Electronics and Signal Processing, LNEE 97, (2011), pp 1015-1021 [28] H Q Truong et al, "Advanced Fuzzy Possibilistic C-means Clustering Based on Granular Computing", IEEE International Conference on Systems, Man, and Cybernetics, (2016) [29] M.A Sanchez et al, “Fuzzy granular gravitational clustering algorithm for multivariate data”, Information Sciences, Vol 279, (2014), pp 498-511 [30] M Alswaitti et al, "Optimized gravitational-based data clustering algorithm", Engineering Applications of Artificial Intelligence, Vol 73, (2018), pp 126-148 [31] Kohavi R, Provost F, "Glossary of Terms", Machine Learning, Vol 30, (1998), pp 271-274 ABSTRACT INTERVAL TYPE-2 FUZZY POSSIBILISTIC C-MEANS CLUSTERING BASED ON ADVANCED GRANULAR COMPUTING The feature selection granular space construction is preprocessing step to remove redundant features and detect outlier for clustering problems which often are used to deal with large and high dimensional datasets Meanwhile the Interval Type Fuzzy Possibilistic C-Means Clustering algorithm is effective in processing uncertainty and noisy data Utilizing this advantages, we propose the method of Interval Type Fuzzy Possibilistic C-Means Clustering based on advanced Granular Computing (AGrIT2FPCM) In this method, Granular Computing is used to create dimensional reduction granules, then the method of Granular Gravitational Forces is used to determine the centroid of granules to improve the measurement of the distance between the granules and centroids of the cluster Experimental results reported for various datasets in comparison with other approaches exhibit the advantages of the proposed method Keywords: Fuzzy clustering; Feature selection; Fuzzy possibilistic C-means clustering; Granular computing; Granular gravitational Nhận ngày 24 tháng 12 năm 2018 Hoàn thiện ngày 09 tháng 01 năm 2019 Chấp nhận đăng ngày 12 tháng 02 năm 2019 Địa chỉ: Học viện Kỹ thuật quân * Email: truongqhung@gmail.com 186 T Q Hùng, N T Long, P T Long, “Phân cụm C-Means … tính tốn hạt cải tiến.” ... 2.1 Phân cụm C-Means khả mờ loại khoảng Thuật toán phân cụm C-Means khả mờ loại khoảng mở rộng thuật toán phân cụm C-Means khả mờ loại sử dụng tập mờ loại [15] Các trọng số mũ mờ m trọng số mũ khả. .. giới thiệu ngắn gọn số kiến thức sở phân cụm C-Means khả mờ loại hai khoảng, tính tốn hạt lực hấp dẫn hạt; Phần đề xuất phân cụm IT2FPCM dựa tính tốn hạt cải tiến; Phần đưa số kết thực nghiệm Phần... [30] Trên sở đó, phương pháp phân cụm C-means khả mờ loại hai khoảng dựa tính tốn hạt cải tiến (AGrIT2FPCM) đề xuất Phương pháp tận dụng khả IT2FPCM xử lý nhiễu kết hợp tính tốn hạt để loại bỏ