Phân cụm dữ liệu mờ theo tiếp cận đại số gia tử

90 19 0
Phân cụm dữ liệu mờ theo tiếp cận đại số gia tử

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

BỘ CÔNG THƯƠNG TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP THÀNH PHỐ HỒ CHÍ MINH PHẠM XUÂN THẢO PHÂN CỤM DỮ LIỆU MỜ THEO TIẾP CẬN ĐẠI SỐ GIA TỬ Chuyên ngành: KHOA HỌC MÁY TÍNH Mã chuyên ngành: 60480101 LUẬN VĂN THẠC SĨ THÀNH PHỐ HỒ CHÍ MINH, NĂM 2019 Cơng trình hồn thành Trường Đại học Cơng nghiệp TP Hồ Chí Minh Người hướng dẫn khoa học: TS Đoàn Văn Thắng Người phản biện 1: TS Đàm Quang Hồng Hải Người phản biện 2: TS Lê Ngọc Sơn Luận văn thạc sĩ bảo vệ Hội đồng chấm bảo vệ Luận văn thạc sĩ Trường Đại học Cơng nghiệp thành phố Hồ Chí Minh ngày 12 tháng năm 2019 Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm: PGS.TS Phạm Thế Bảo Chủ tịch Hội đồng TS Lê Nhật Duy Thư ký TS Đàm Quang Hồng Hải Phản biện TS Lê Ngọc Sơn Phản biện TS Phạm Văn Chung Uỷ viên CHỦ TỊCH HỘI ĐỒNG TRƯỞNG KHOA CNTT BỘ CÔNG THƯƠNG TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP THÀNH PHỐ HỒ CHÍ MINH CỘNG HỊA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập - Tự - Hạnh phúc NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên: Phạm Xuân Thảo MSHV:16083181 Ngày, tháng, năm sinh: 20/04/1974 Nơi sinh: Vĩnh Phúc Chuyên ngành: Khoa học Máy tính Mã chuyên ngành: 60480101 I TÊN ĐỀ TÀI: Phân cụm liệu mờ theo tiếp cận đại số gia tử NHIỆM VỤ VÀ NỘI DUNG: Tìm hiểu tập mờ số thuật toánphân cụm liệu mờ Nghiên cứu tìm hiểu đại số gia tử, phân cụm liệu mờ theo tiếp cận đại số gia tử II NGÀY GIAO NHIỆM VỤ: Theo định giao đề tài số 1486/QĐ-ĐHCN ngày 25/06/2018 III NGÀY HOÀN THÀNH NHIỆM VỤ: 25/12/2018 IV NGƯỜI HƯỚNG DẪN KHOA HỌC: TS Đoàn Văn Thắng Tp Hồ Chí Minh, ngày … tháng … năm 2019 NGƯỜI HƯỚNG DẪN CHỦ NHIỆM BỘ MÔN ĐÀO TẠO TS Đoàn Văn Thắng TRƯỞNG KHOA CNTT LỜI CẢM ƠN Để hoàn thành luận văn này, em xin bày tỏ lòng biết ơn chânthành sâu sắc đến Tiến sĩ Đồn Văn Thắng, người tận tình trực tiếp hướng dẫn em suốt trình triển khai nghiên cứu đề tài, tạo điều kiện để em hoàn thành luận văn Em xin chân thành cảm ơn tới tồn thể q thầy giáo khoa Cơng nghệ Thông tin, Trường Đại học Công nghiệp TP.HCM cung cấp thêm nhiều kiến thức quý giá thông qua môn học, chuyên đề truyền đạt tận tình suốt trình em học tập khoa để em hồn thành tốt luận văn Cuối xin chân thành cảm ơn tới gia đình, bạn bè, đồng nghiệp ln đồng hành cổ vũ, động viên giúp đỡ suốt trình học tập thực luận văn Xin chân thành cảm ơn! i TÓM TẮT LUẬN VĂN THẠC SĨ Phân cụm mờ nhiều tác giả quan tâm nghiên cứu theo nhiều cách tiếp cận khác có nhiều kết cơng bố khai phá liệu Tuy nhiên, việc khai phá liệu mờ với nhiều kiểu liệu khác để tìm đối tượng thuộc cụm vấn đề khó phức tạp Trong luận văn này, với nhiều ưu điểm đại số gia tử ngữ nghĩa ngơn ngữ lượng hóa ánh xạ định lượng ĐSGT, ngữ nghĩa ngơn ngữ biểu thị lân cận khoảng xác định độ đo tính mờ giá trị ngôn ngữ thuộc tính với vai trị biến ngơn ngữ, chúng tơi trình bày phương pháp để phân đối tượng thuộc cụm sử dụng đại số gia tử trở nên đơn giản trực quan ii ABSTRACT Fuzzy clusters have been studied by many authors in various approaches and there have been many results published in data mining However, for fuzzy data mining with many different data types to find objects of a certain cluster is difficult and complex In this dissertation, with many advantages of hedge algebras on linguistic semantics quantified by quantitative mappings of HA, the semantics of the language can be denoted by a neighbor of defined intervals by measuring the fuzziness of linguistic values of an attribute as a linguistic variable, we present a new way of dividing objects belonging to a cluster more simpler and intuitive by use hedge algebra iii LỜI CAM ĐOAN Tôi xin cam đoan nội dung luận văn kết nghiên cứu thân hướng dẫn cán hướng dẫn khoa học Cơng trình nghiên cứu nhiều tác giả đưa vào luận văn (nếu có) đồng ý đồng tác giả Việc tham khảo nguồn tài liệu (nếu có) thực trích dẫn ghi nguồn tài liệu tham khảo theo quy định Học viên Phạm Xuân Thảo iv MỤC LỤC MỤC LỤC v DANH MỤC HÌNH ẢNH .vii DANH MỤC BẢNG BIỂU viii DANH MỤC TỪ VIẾT TẮT ix MỞ ĐẦU 1 Đặt vấn đề Mục tiêu nghiên cứu Đối tượng phạm vi nghiên cứu 4 Cách tiếp cận phương pháp nghiên cứu Ý nghĩa thực tiễn đề tài CHƯƠNG TẬP MỜ VÀ ĐẠI SỐ GIA TỬ 1.1 Tập mờ 1.1.1 Tập mờ, thông tin không chắn liệu mờ 1.1.2 Một số khái niệm đặc trưng phép toán tập mờ 1.1.3 Tổng qt hóa ba phép tốn tập mờ 14 1.1.4 Biến ngôn ngữ 16 1.2 Đại số gia tử 18 1.2.1 Một số khái niệm 18 1.2.2 Các tính chất độ đo tính mờ ĐSGT 21 1.3 Đại số gia tử tuyến tính đầy đủ 22 1.3.1 Một số khái niệm 22 1.3.1.1 Khoảng mờ khái niệm mờ 22 1.3.1.2 Khoảng mờ mức k 23 1.3.2 Các tính chất tơpơ 24 1.3.3 Ngữ nghĩa liệu dựa lân cận tôpô ĐSGT 25 CHƯƠNG PHÂN CỤM MỜ 27 2.1 Tổng quan phân cụm mờ 27 v 2.2 Các thuật toán phân cụm mờ 30 2.2.1 Thuật toán FCM (Fuzzy C-means) 30 2.2.1.1 Hàm mục tiêu 30 2.2.1.2 Thuật toán FCM 33 2.2.2 Thuận toán ɛFCM (ɛ- Insensitive Fuzzy C-Means) 37 2.2.2.1 Hàm mục tiêu 37 2.2.2.2 Thuật toán ɛFCM 39 2.2.3 Thuật toán FCM cải tiến 39 2.2.3.1 Thuật toán 1: Thuật toán lựa chọn điểm liệu làm ứng viên cho việc chọn trung tâm cụm 40 2.2.3.2 Thuật toán 2: Thuật toán lược bớt ứng viên 42 2.2.3.3 Thuật toán 3: Thuật toán chọn ứng viên làm cực tiểu hàm mục tiêu 42 2.2.3.4 Thuật tốn 4: Gán trung tâm có liên kết “gần gũi” vào cụm 43 2.2.3.5 Tổng kết thuật toán FCM – Cải tiến 47 CHƯƠNG PHÂN CỤM THEO ĐSGT VÀ ỨNG DỤNG 49 3.1 Thuật toán phân cụm mờ theo ĐSGT 49 3.2 Cài đặt thực nghiệm ứng dụng 54 KẾT LUẬN VÀ KIẾN NGHỊ 60 Kết luận 60 Kiến nghị 60 DANH MỤC CƠNG TRÌNH ĐÃ CƠNG BỐ CỦA HỌC VIÊN 61 TÀI LIỆU THAM KHẢO 62 PHỤ LỤC 64 Kết cài đặt thực nghiệm 64 Bài báo 72 LÝ LỊCH TRÍCH NGANG CỦA HỌC VIÊN 78 vi DANH MỤC HÌNH ẢNH Hình 1.1 Biểu diễn hàm thành viên số khái niệm tập mờ 11 Hình 1.2 Biểu diễn số phép tốn tập mờ 13 Hình 2.1 Mơ liệu đơn chiều 35 Hình 2.2 Hàm thuộc với trọng tâm cụm A K-Means 35 Hình 2.3 Hàm thuộc với trọng tâm cụm A FCM 36 Hình 2.4 Các cụm khám phá thuật toán FCM 36 vii PHỤ LỤC Cài đặt thực nghiệm Giá trị đặc trưng GTĐT theo ĐSGT (1) Giá trị đặc trưng Income Age Income Age Phân cụm (2) (3) (4) (5) (6) (1) Code Code GTĐT theo ĐSGT Income Age Income Age Phân cụm (2) (3) (4) (5) (6) A001 17546 48 0,175 0,575 A301 thấp 19 0,05 0,1 A002 30085,1 40 0,325 0,425 A302 thấp 37 0,175 0,425 A003 16575,4 51 0,175 0,575 A303 29231 45 0,325 0,575 A004 23 khả già 0,175 0,1 A304 41462 già 0,55 0,575 A005 thấp khả cao 0,675 0,7 A305 57398 67 0,825 0,9 A006 37869,6 57 0,55 0,7 A306 thấp 35 0,175 0,3 A007 trẻ 0,05 0,1 A307 52117 63 0,675 0,9 A008 8877,07 khả thấp 58 0,325 0,775 A308 trẻ 0,325 0,425 A009 25304,3 trẻ 0,325 0,425 A309 26281 khả thấp 48 0,325 0,575 A010 24212,1 54 0,325 0,7 A310 11921 28 0,175 0,1 A011 59803,9 66 0,825 0,9 A311 30659 46 0,325 0,575 A012 26658,8 52 0,325 0,7 A312 36646 66 0,45 0,9 A013 15735,8 44 0,175 0,425 A313 30760 già 0,325 0,9 A014 cao 0,825 0,9 A314 thấp 18 0,175 0,1 A015 0,175 0,3 A315 18037 54 0,175 0,7 A016 thấp khả thấp 66 khả trẻ 38 0,325 0,425 A316 42628 già 0,55 0,575 A017 17729,8 trẻ 0,175 0,425 A317 22110 60 0,325 0,9 A018 41016 46 0,55 0,575 A318 37689 già 0,55 0,575 A019 26909,2 già 0,325 0,9 A319 23172 trẻ 0,325 0,225 A020 22522,8 trẻ 0,325 0,225 A320 21951 39 0,325 0,425 A021 57880,7 61 0,825 0,9 A321 38103 0,55 0,7 A022 16497,3 già 0,175 0,575 A322 22883 53 khả trẻ 0,325 0,3 A023 cao 54 0,55 0,7 A323 11044 A024 thấp 27 0,175 0,1 A324 A025 12640,3 22 0,175 0,1 A026 41034 56 0,55 0,7 A027 thấp 45 0,175 0,575 A028 thấp trẻ 0,175 A029 39 A030 29359,1 khả thấp A031 0,05 0,1 24028 trẻ khả trẻ 0,325 0,3 A325 28495 36 0,325 0,3 A326 9465,2 trẻ 0,05 0,1 A327 34852 trẻ 0,45 0,425 0,425 A328 0,1 0,425 A329 24 khả già 0,325 0,325 22000 khả cao 0,675 0,7 61 0,325 0,9 A330 18556 27 0,175 0,1 22942,9 già 0,325 0,9 A331 52770 già 0,675 0,9 A032 16325,8 20 0,175 0,1 A332 thấp 18 0,175 0,1 A033 23443,2 45 0,325 0,575 A333 29542 33 0,325 0,3 64 Giá trị đặc trưng GTĐT theo ĐSGT (1) Giá trị đặc trưng Income Age Income Age Phân cụm (2) (3) (4) (5) (6) (1) Code Code GTĐT theo ĐSGT Income Age Income Age Phân cụm (2) (3) (4) (5) (6) A034 29921,3 33 0,325 0,3 A334 17861 48 0,175 0,575 A035 37521,9 43 0,55 0,425 A335 23 0,175 0,1 A036 thấp 27 0,175 0,1 A336 21042 khả thấp trẻ 0,325 0,425 A037 10953 trẻ 0,05 0,1 A337 26901 39 0,325 0,425 A038 13381 36 0,175 0,3 A338 38081 65 0,55 0,9 A039 18504,3 43 0,175 0,425 A339 cao 60 0,55 0,9 A040 66 0,325 0,9 A340 thấp 20 0,175 0,1 A041 25391,5 khả thấp 55 0,325 0,7 A341 28865 45 0,325 0,575 A042 26952,6 già 0,325 0,575 A342 48346 già 0,675 0,9 A043 55716,5 già 0,825 0,9 A343 53104 64 0,675 0,9 A044 27571,5 32 0,325 0,3 A344 19417 51 0,175 0,575 A045 thấp 20 0,175 0,1 A345 23638 34 0,325 0,3 A046 52670,6 64 0,675 0,9 A346 42378 già 0,55 0,9 A047 13283,9 già 0,175 0,575 A347 39745 50 0,55 0,575 A048 13106,6 29 0,175 0,225 A348 45190 66 0,675 0,9 A049 39547,8 52 0,55 0,7 A349 37931 63 0,55 0,9 A050 17867,3 47 0,175 0,575 A350 24042 53 0,325 0,7 A051 thấp 24 0,175 0,1 A351 32000 33 0,45 0,3 A052 23894,8 36 0,325 0,3 A352 24424 38 0,325 0,425 A053 16259,7 trẻ 0,175 0,425 A353 24608 56 0,325 0,7 A054 29794,1 48 0,325 0,575 A354 43057 già 0,55 0,575 A055 56842,5 63 0,825 0,9 A355 30199 49 0,325 0,575 A056 47835,8 52 0,675 0,7 A356 50186 54 0,675 0,7 A057 24977,5 58 0,325 0,775 A357 22916 trẻ 0,325 0,425 A058 23124,9 28 0,325 0,1 A358 thấp trẻ 0,05 0,1 A059 thấp 0,175 0,225 A359 thấp 52 0,45 0,7 A060 25334,3 29 khả trẻ 0,325 0,3 A360 22792 52 0,325 0,7 A061 24763,3 42 0,325 0,425 A361 51621 già 0,675 0,9 A062 36589 già 0,45 0,9 A362 56 0,175 0,7 A063 27022,6 già 0,325 0,575 A363 19919 khả thấp 56 0,325 0,7 A064 thấp trẻ 0,175 0,1 A364 trẻ 0,175 0,1 A065 5014,21 21 0,05 0,1 A365 12549 khả cao 56 0,675 0,7 A066 17390,1 42 0,175 0,425 A366 thấp trẻ 0,175 0,1 A067 thấp 19 0,05 0,1 A367 29867 0,325 0,775 A068 thấp 41 0,45 0,425 A368 47750 59 khả già 0,675 0,7 A069 19403,1 30 0,175 0,225 A369 11282 21 0,05 0,1 A070 10441,9 31 0,05 0,225 A370 34074 64 0,45 0,9 A071 thấp 25 0,175 0,1 A371 46870 62 0,675 0,9 65 Giá trị đặc trưng GTĐT theo ĐSGT (1) Giá trị đặc trưng Income Age Income Age Phân cụm (2) (3) (4) (5) (6) (1) A372 38454 44 Code 0,05 0,1 GTĐT theo ĐSGT Income Age Income Age Phân cụm (2) (3) (4) (5) (6) 0,425 A072 8062,73 A073 31982 36 0,45 0,3 A373 7756,4 24 0,05 0,1 A074 23197,5 58 0,325 0,775 A374 28414 52 0,325 0,7 A075 52674 64 0,675 0,9 A375 47199 67 0,675 0,9 A076 già 0,45 0,775 A376 20866 41 0,175 0,425 45 0,325 0,575 A377 33204 già 0,45 0,775 A078 35610,5 khả thấp khả cao 61 0,675 0,9 A378 24824 trẻ 0,325 0,425 A079 14724,5 30 0,175 0,225 A379 17987 19 0,175 0,1 A080 34524,9 già 0,45 0,775 A380 9909,8 20 0,05 0,1 A081 50 0,325 0,575 A381 26543 56 0,325 0,7 A082 22052,1 khả thấp trẻ 0,325 0,225 A382 32584 già 0,45 0,575 A083 12591,4 29 0,175 0,225 A383 14607 30 0,175 0,225 A084 thấp 35 0,175 0,3 A384 34837 40 0,45 0,425 A085 24026,1 62 0,325 0,9 A385 26921 36 0,325 0,3 A086 31683,1 36 0,45 0,3 A386 38248 57 0,55 0,7 A087 15525 25 0,175 0,1 A387 15689 49 0,175 0,575 A088 22562,2 già 0,325 0,9 A388 30158 61 0,325 0,9 A089 thấp 0,175 0,225 A389 14642 29 0,175 0,225 A090 32000 30 khả già 0,45 0,7 A390 15933 48 0,175 0,575 A091 24814,5 trẻ 0,325 0,425 A391 56 0,675 0,7 A092 25429,3 28 0,325 0,1 A392 45000 khả thấp 40 0,325 0,425 A093 34866,5 53 0,45 0,7 A393 38248 già 0,55 0,775 A094 42579,1 61 0,55 0,9 A394 22053 già 0,325 0,9 A095 cao 61 0,55 0,9 A395 25469 già 0,325 0,775 A096 thấp trẻ 0,05 0,1 A396 67 0,325 0,9 A097 7948,62 22 0,05 0,1 A397 23486 khả thấp 40 0,325 0,425 A098 30870,8 34 0,325 0,3 A398 34182 48 0,45 0,575 A099 12125,8 35 0,175 0,3 A399 57445 64 0,825 0,9 A100 15348,9 trẻ 0,175 0,1 A400 cao 43 0,55 0,425 A101 26707,9 54 0,325 0,7 A401 19481 34 0,175 0,3 A102 11604,4 trẻ 0,175 0,1 A402 thấp 26 0,175 0,1 A103 thấp 42 0,175 0,425 A403 38598 48 0,55 0,575 A104 thấp 43 0,45 0,425 A404 20754 35 0,175 0,3 A105 34513,6 64 0,45 0,9 A405 13865 24 0,175 0,1 A106 32395,5 trẻ 0,45 0,425 A406 36599 0,45 0,575 A107 46633 49 0,675 0,575 A407 45856 47 khả già 0,675 0,7 A108 13039,9 23 0,175 0,1 A408 22362 31 0,325 0,225 A109 thấp 23 0,175 0,1 A409 21984 trẻ 0,325 0,425 A077 trẻ Code 66 0,55 Giá trị đặc trưng GTĐT theo ĐSGT (1) Giá trị đặc trưng Income Age Income Age Phân cụm (2) (3) (4) (5) (6) (1) 0,225 A410 thấp Code trẻ 0,325 Code GTĐT theo ĐSGT Income Age Income Age Phân cụm (2) (3) (4) (5) (6) A110 24031,5 23 0,05 0,1 A111 thấp 36 0,45 0,3 A411 A112 25333,2 34 0,325 0,3 A412 18159 27 0,175 0,1 7304,2 22 0,05 0,1 A113 37094,2 51 0,45 0,575 A413 58092 67 0,825 0,9 A114 33630,6 36 0,45 0,3 A414 26 0,175 0,1 0,7 A415 16519 khả cao A115 43228,2 56 0,55 58 0,675 0,775 A116 47796,8 0,675 A117 21730,3 54 khả già 0,7 A416 thấp 27 0,175 0,1 A118 10044,1 26 A119 17270,1 trẻ A120 45765 64 0,675 A121 29525,5 46 0,325 A122 54863,8 62 0,825 0,9 A422 41438 A123 20799 36 0,175 0,3 A423 11411 A124 33028,3 35 0,45 0,3 A424 43941 A125 45031,9 già 0,675 0,575 A425 A126 39010,8 già 0,55 0,575 A127 25257,7 37 0,325 0,425 A128 42603,9 48 0,55 A129 thấp trẻ 0,175 A130 22000 27 A131 23246,4 A132 cao A133 0,325 0,7 A417 12533 36 0,175 0,3 0,05 0,1 A418 22849 31 0,325 0,225 0,175 0,425 A419 25699 28 0,325 0,1 0,9 A420 21613 57 0,325 0,7 0,575 A421 48951 già 0,675 0,9 già 0,55 0,575 22 0,05 0,1 58 0,55 0,775 20 0,175 0,1 A426 17240 khả thấp 44 0,325 0,425 2 A427 29866 0,325 0,9 0,575 A428 32184 65 khả già 0,45 0,7 0,425 A429 17309 34 0,175 0,3 0,325 0,1 A430 35 0,325 0,3 43 0,325 0,425 A431 27864 khả thấp 48 0,325 0,575 61 0,55 0,9 A432 58367 64 0,825 0,9 16716,1 52 0,175 0,7 A433 16849 46 0,175 0,575 A134 thấp 64 0,45 0,9 A434 28139 42 0,325 0,425 A135 cao 66 0,825 0,9 A435 23038 47 0,325 0,575 A136 32000 53 0,45 0,7 A436 thấp trẻ 0,175 0,1 A137 thấp 20 0,175 0,1 A437 16480 35 0,175 0,3 A138 39205,3 57 0,55 0,7 A438 32000 64 0,45 0,9 A139 42173,9 65 0,55 0,9 A439 12117 18 0,175 0,1 A140 55263 già 0,825 0,9 A440 15417 trẻ 0,175 0,1 A141 37095,2 khả thấp 52 0,45 0,7 A441 29415 40 0,325 0,425 47 0,325 0,575 A442 44682 già 0,675 0,575 trẻ 0,175 0,1 A443 36281 43 0,45 0,425 A144 17240,6 khả cao 64 0,675 0,9 A444 thấp 38 0,45 0,425 A145 18923 25 0,175 0,1 A445 15797 21 0,175 0,1 A146 51204,2 58 0,675 0,775 A446 31865 0,45 0,425 A147 thấp 34 0,175 0,3 A447 43720 trẻ khả già 0,55 0,7 A142 A143 67 Giá trị đặc trưng GTĐT theo ĐSGT (1) Giá trị đặc trưng GTĐT theo ĐSGT Income Age Income Age Phân cụm (2) (3) (4) (5) (6) (1) A448 30800 35 0,325 Code 0,1 Code Income Age Income Age Phân cụm (2) (3) (4) (5) (6) A148 18860,3 20 0,175 0,3 A149 25732,5 63 0,325 0,9 A449 48972 53 A150 28240,4 0,325 0,225 A450 34061 38 A151 28193,6 30 khả già 0,675 0,7 0,45 0,425 0,325 0,7 A451 28939 trẻ 0,325 0,425 A152 36432,8 43 0,45 0,425 A452 38540 A153 54618,8 63 0,825 0,9 A453 27045 43 0,55 0,425 59 0,325 0,775 A154 24760,8 33 0,325 0,3 A454 51284 59 0,675 0,775 A155 23356,1 41 0,325 0,425 A156 thấp 20 0,05 0,1 A455 thấp 24 0,175 0,1 A456 11866 trẻ 0,175 0,1 A157 26462,5 già 0,325 0,575 A457 13268 32 0,175 0,3 A158 24 0,175 A159 20467,3 khả thấp 0,1 A458 cao già 0,825 0,9 60 0,325 0,9 A459 13700 18 0,175 0,1 A160 thấp A161 18875,7 44 0,175 0,425 A460 46964 66 0,675 0,9 23 0,175 0,1 A461 23476 41 0,325 0,425 A162 thấp 40 0,175 0,425 A462 24554 64 0,325 0,9 A163 A164 20708,5 già 0,175 0,575 A463 18050 trẻ 0,175 0,1 7549,38 21 0,05 0,1 A464 15238 29 0,175 0,225 A165 24904 40 0,325 0,425 A465 thấp 28 0,175 0,1 A166 24071,8 26 0,325 0,1 A466 57 0,325 0,7 A167 9589,91 trẻ 0,05 0,1 A467 28422 khả thấp trẻ 0,325 0,425 A168 8562,86 24 0,05 0,1 A468 12810 34 0,175 0,3 A169 26707,5 37 0,325 0,425 A469 15109 43 0,175 0,425 A170 34020,5 56 0,45 0,7 A470 37415 63 0,45 0,9 A171 49175,7 52 0,675 0,7 A471 62 0,55 0,9 A172 thấp trẻ 0,175 0,1 A472 41522 khả thấp 51 0,325 0,575 A173 24346,6 35 0,325 0,3 A473 21140 già 0,175 0,9 A174 26999,4 34 0,325 0,3 A474 27758 41 0,325 0,425 A175 41558,1 già 0,55 0,9 A475 22678 trẻ 0,325 0,225 A176 56340,3 58 0,825 0,775 A476 12179 33 0,175 0,3 A177 37558,5 40 0,55 0,425 A477 26107 43 0,325 0,425 A178 30099,3 41 0,325 0,425 A478 27418 40 0,325 0,425 A179 thấp trẻ 0,175 0,425 A479 23337 47 0,325 0,575 A180 36086,1 63 0,45 0,9 A480 cao già 0,55 0,575 A181 17655 trẻ 0,175 0,1 A481 11536 30 0,175 0,225 A182 56658,9 60 0,825 0,9 A482 44659 47 0,675 0,575 A183 37706,5 già 0,55 0,9 A483 thấp 44 0,45 0,425 A184 thấp 48 0,175 0,575 A484 16404 23 0,175 0,1 A185 29622 38 0,325 0,425 A485 thấp trẻ 0,175 0,1 A186 thấp già 0,45 0,575 A486 khả 64 0,675 0,9 68 Giá trị đặc trưng GTĐT theo ĐSGT Income Age Income Age Phân cụm (2) (3) (4) (5) (6) Code (1) Giá trị đặc trưng Code (1) GTĐT theo ĐSGT Income Age Income Age Phân cụm (2) (3) (4) (5) (6) cao A187 18275,5 20 0,175 0,1 A487 21624 35 0,325 0,3 A188 34410 48 0,45 0,575 A488 16626 19 0,175 0,1 A189 38 0,45 0,425 A489 14015 27 0,175 0,1 A190 34866,9 khả thấp 41 0,325 0,425 A490 20409 27 0,175 0,1 A191 63130,1 67 0,825 0,9 A491 31671 58 0,45 0,775 A192 thấp 39 0,175 0,425 A492 thấp già 0,175 0,575 A193 49024,9 già 0,675 0,9 A493 27756 61 0,325 0,9 A194 16249,8 0,175 0,425 A494 40950 59 0,55 0,775 A195 36192,1 41 khả già 0,45 0,7 A495 43743 già 0,55 0,575 A196 thấp 52 0,175 0,7 A496 38460 44 0,55 0,425 A197 trẻ 0,175 0,225 A497 40973 50 0,55 0,575 A198 18802,4 khả cao 52 0,675 0,7 A498 46588 64 0,675 0,9 A199 thấp 26 0,175 0,1 A499 43800 già 0,55 0,575 A200 20819 26 0,175 0,1 A500 18912 46 0,175 0,575 A201 26077,8 46 0,325 0,575 A501 27766 39 0,325 0,425 A202 cao 0,55 0,575 A502 0,45 0,775 16977,3 0,175 0,7 A503 33007 khả thấp già A203 46 khả già 0,325 0,3 A204 19012,8 37 0,175 0,425 A504 15308 22 0,175 0,1 A205 thấp 22 0,175 0,1 A505 59806 0,825 0,9 A206 14388,6 18 0,175 0,1 A506 28658 63 khả trẻ 0,325 0,3 A207 59409,1 63 0,825 0,9 A507 23175 già 0,325 0,775 A208 14960,2 25 0,175 0,1 A508 11595 22 0,175 0,1 A209 39666,6 67 0,55 0,9 A509 50410 60 0,675 0,9 A210 thấp trẻ 0,175 0,1 A510 thấp trẻ 0,05 0,1 A211 24474,1 61 0,325 0,9 A511 13328 29 0,175 0,225 A212 33123,7 già 0,45 0,775 A512 16089 44 0,175 0,425 A213 14433,4 22 0,175 0,1 A513 cao già A214 13175,5 28 0,175 0,1 A514 thấp 25 A215 9824,37 trẻ 0,05 0,1 A515 33886 trẻ A216 thấp trẻ 0,175 0,1 A516 thấp A217 15156,2 27 0,175 0,1 A517 A218 A219 thấp 31693,5 0,45 0,45 0,425 0,425 5 A220 A221 28598,7 26261,7 trẻ 39 khả trẻ 37 0,325 0,325 0,3 0,425 A222 42124,1 47 0,55 A223 39308,7 42 A224 43530 67 32 0,55 0,9 0,175 0,1 0,45 0,425 0,175 0,575 20263 48 khả trẻ 0,175 0,3 A518 A519 33615 22007 già trẻ 0,45 0,325 0,575 0,1 2 A520 A521 28981 12164 56 38 0,325 0,175 0,7 0,425 0,575 A522 thấp 36 0,175 0,3 0,55 0,425 A523 12684 27 0,175 0,1 0,55 0,9 A524 thấp 34 0,175 0,3 69 Giá trị đặc trưng GTĐT theo ĐSGT (1) Giá trị đặc trưng Income Age Income Age Phân cụm (2) (3) (4) (5) (6) (1) Code A225 49874,4 57 A226 27434,8 A227 50474,6 A228 Code GTĐT theo ĐSGT Income Age Income Age Phân cụm (2) (3) (4) (5) (6) 0,675 0,7 A525 18707 44 0,175 0,425 già 0,325 0,575 A526 19327 43 0,175 0,425 67 0,675 0,9 A527 thấp 32 0,175 0,3 24888,2 56 0,325 0,7 A528 21 0,05 0,1 A229 28021,6 37 0,325 0,425 A529 10672 khả thấp 0,325 0,225 A230 thấp trẻ 0,175 0,1 A530 43500 30 khả già 0,55 0,7 A231 30189,4 59 0,325 0,775 A531 59175 0,825 0,9 A232 28969,4 31 0,325 0,225 A532 27643 64 khả trẻ 0,325 0,3 A233 31 khả trẻ 0,175 0,225 A533 30068 59 0,325 0,775 A234 14058,5 khả thấp 0,325 0,3 A534 29714 60 0,325 0,9 A235 41438,2 57 0,55 0,7 A535 13950 27 0,175 0,1 A236 16711,3 49 0,175 0,575 A536 10073 29 0,05 0,225 A237 52255,9 65 0,675 0,9 A537 37851 53 0,55 0,7 A238 thấp 22 0,175 0,1 A538 57176 già 0,825 0,9 A239 18067,5 26 0,175 0,1 A539 38784 trẻ 0,55 0,425 A240 thấp trẻ 0,175 0,1 A540 10192 19 0,05 0,1 A241 thấp 26 0,05 0,1 A541 21821 48 0,325 0,575 A242 56031,1 59 0,825 0,775 A542 thấp 39 0,45 0,425 A243 35263,5 67 0,45 0,9 A543 thấp 32 0,175 0,3 A244 thấp 34 0,175 0,3 A544 48771 63 0,675 0,9 A245 27825,5 50 0,325 0,575 A545 21096 già 0,175 0,575 A246 cao 46 0,55 0,575 A546 36257 40 0,45 0,425 A247 7606,25 23 0,05 0,1 A547 15282 27 0,175 0,1 A248 22000 trẻ 0,325 0,1 A548 9317 22 0,05 0,1 A249 20347 0,175 0,425 A549 0,175 0,425 22000 0,325 0,3 A550 thấp khả cao 42 A250 trẻ khả trẻ 58 0,675 0,775 A251 cao già 0,825 0,9 A551 thấp 23 0,05 0,1 A252 thấp 45 0,45 0,575 A552 32245 già 0,45 0,775 A253 thấp 23 0,175 0,1 A553 41107 già 0,55 0,575 A254 17882,9 42 0,175 0,425 A554 39358 49 0,55 0,575 A255 10629,1 trẻ 0,05 0,1 A555 36096 67 0,45 0,9 A256 24262,8 62 0,325 0,9 A556 7723,9 20 0,05 0,1 A257 26097,9 49 0,325 0,575 A557 18566 trẻ 0,175 0,425 A258 23371 28 0,325 0,1 A558 25133 41 0,325 0,425 A259 22000 trẻ 0,325 0,425 A559 32000 trẻ 0,45 0,425 A260 12166,9 36 0,175 0,3 A560 24858 67 0,325 0,9 A261 thấp 22 0,175 0,1 A561 16399 trẻ 0,175 0,425 A262 28882,3 40 0,325 0,425 A562 23288 25 0,325 0,1 A263 21612,2 40 0,325 0,425 A563 50898 57 0,675 0,7 70 Giá trị đặc trưng GTĐT theo ĐSGT (1) Giá trị đặc trưng Income Age Income Age Phân cụm (2) (3) (4) (5) (6) (1) Code Code GTĐT theo ĐSGT Income Age Income Age Phân cụm (2) (3) khả trẻ (4) (5) (6) 0,325 0,3 A264 46358,4 60 0,675 0,9 A564 22447 A265 19166 trẻ 0,175 0,1 A565 44 0,325 0,425 A266 thấp 21 0,175 0,1 A566 23092 khả thấp 30 0,325 0,225 A267 33229 58 0,45 0,775 A567 22235 43 0,325 0,425 A268 30396,1 già 0,325 0,575 A568 thấp 19 0,175 0,1 A269 34625,2 63 0,45 0,9 A569 29574 trẻ 0,325 0,425 A270 16672,8 trẻ 0,175 0,1 A570 17944 già 0,175 0,575 A271 60747,5 67 0,825 0,9 A571 thấp 49 0,45 0,575 A272 56394,3 già 0,825 0,9 A572 36166 0,45 0,425 A273 36 0,175 0,3 A573 27713 0,325 0,3 A274 13236,4 khả thấp 40 khả trẻ 31 0,325 0,225 A574 22401 trẻ 0,325 0,425 A275 27056,5 42 0,325 0,425 A575 43 0,325 0,425 A276 18 0,05 0,1 A576 37 0,325 0,425 A277 9362,58 khả thấp 28470 khả thấp già 0,325 0,575 A577 19160 24 0,175 0,1 A278 22366,1 25 0,325 0,1 A578 45343 62 0,675 0,9 A279 24477,5 già 0,325 0,9 A579 6294,2 18 0,05 0,1 A280 36972,4 trẻ 0,45 0,425 A580 25128 47 0,325 0,575 A281 22327,8 32 0,325 0,3 A581 51879 già 0,675 0,9 A282 15610,2 18 0,175 0,1 A582 thấp trẻ 0,175 0,1 A283 54314,5 64 0,825 0,9 A583 46 0,325 0,575 A284 39175,8 43 0,55 0,425 A584 21984 khả thấp 47 0,325 0,575 A285 thấp 22 0,175 0,1 A585 23528 33 0,325 0,3 A286 9485,84 25 0,05 0,1 A586 9516,9 20 0,05 0,1 A287 24675,7 trẻ 0,325 0,425 A587 18365 20 0,175 0,1 A288 28253,6 0,325 0,775 A588 32000 43 0,45 0,425 A289 14136,5 58 khả trẻ 0,175 0,3 A589 49674 già 0,675 0,775 A290 37162,1 52 0,45 0,7 A590 12623 29 0,175 0,225 A291 13519,2 23 0,175 0,1 A591 23819 25 0,325 0,1 A292 39253,6 44 0,55 0,425 A592 32000 40 0,45 0,425 A293 46323,8 51 0,675 0,575 A593 20268 già 0,175 0,575 A294 thấp trẻ 0,175 0,1 A594 51417 65 0,675 0,9 A295 22495,7 42 0,325 0,425 A595 30972 59 0,325 0,775 A296 32548,9 34 0,45 0,3 A596 47025 già 0,675 0,9 A297 24583,4 54 0,325 0,7 A597 9672,3 30 0,05 0,225 A298 8639,24 18 0,05 0,1 A598 15976 trẻ 0,175 0,225 A299 thấp 47 0,175 0,575 A599 14712 29 0,175 0,225 A300 13667,7 trẻ 0,175 0,1 A600 26672 trẻ 0,325 0,425 71 Bài báo Kỷ yếu Hội thảo khoa học Công nghệ Thông tin Truyền thông – ICT 2018 Trường Đại học Thông tin Liên lạc – Trường Đại học Nha Trang – Trường Đại học Đà lạt – Sở Thông tin Truyền thơng Khánh Hịa, 2018, pp.12-16 72 Kỷ yếu HỘI THẢO KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG (ICT2018) Kỷ yếu Hội thảo Khoa học Công nghệ thông tin Truyền thơng 2018 (ICT 2018) Thuật tốn K-Means mờ phân cụm liệu mờ Đoàn Văn Thắng, Võ Quang Hồng Khang, Phạm Xn Thảo Trường Đại học Cơng nghiệp Thành phố Hồ Chí Minh, Thành phố Hồ Chí Minh, Việt Nam Tóm tắt nội dung—Phân cụm mờ nhiều tác giả quan tâm nghiên cứu theo nhiều cách tiếp cận khác có nhiều kết công bố khai phá liệu Tuy nhiên, việc khai phá liệu mờ với nhiều kiểu liệu khác để tìm đối tượng thuộc cụm vấn đề khó phức tạp Vì vậy, báo này, với nhiều ưu điểm đại số gia tử, trình bày phương pháp để phân đối tượng thuộc cụm sử dụng đại số gia tử đơn giản trực quan Từ khóa—DSGT, phân cụm mờ, khai phá liệu I MỞ ĐẦU Phân cụm liệu kỹ thuật quan trọng khai phá liệu, thuộc lớp phương pháp học khơng giám sát học máy Hiện nay, có nhiều định nghĩa khác kỹ thuật này, chất ta hiểu phân cụm qui trình tìm cách nhóm đối tượng cho vào cụm, cho đối tượng cụm tương tự đối tượng khác cụm khơng tương tự Mục đích phân cụm tìm chất bên nhóm liệu Các thuật tốn phân cụm (Clustering Algorithms) sinh cụm (clusters) Tuy nhiên, khơng có tiêu chí xem tốt để đánh hiệu của phân tích phân cụm, điều phụ thuộc vào mục đích phân cụm như: data reduction, “natural clusters”, “useful” clusters, outlier detection Theo nghiên cứu cho thấy chưa có phương pháp phân cụm tổng quát giải trọn vẹn cho tất dạng cấu trúc cụm liệu Hơn nữa, phương pháp phân cụm cần có cách thức biểu diễn cấu trúc cụm liệu, với cách thức biểu diễn khác có tương ứng thuật tốn phân cụm phù hợp Vì phân cụm liệu vấn đề khó mở, phải giải nhiều vấn đề cách ừọn vẹn phù hợp với nhiều dạng liệu khác nhau, đặc biệt liệu hỗn hợp ngày tăng hệ quản trị liệu thách thức lớn lĩnh vực học máy Trong báo này, chúng tơi tập nghiên cứu thuật tốn Kmeans phân cụm liệu mờ theo cách tiếp cận đại số gia tử (ĐSGT) Những ưu điểm cấu trúc ĐSGT ngữ nghĩa ngơn ngữ lượng hóa ánh xạ định lượng ĐSGT, ngữ nghĩa ngơn ngữ biểu thị lân cận khoảng xác định độ đo tính mờ giá trị ngơn ngữ thuộc tính với vai trị biến ngơn ngữ 12 Bài báo trình bày sau: Mục trình bày số khái niệm liên quan đến ĐSGT làm sở cho mục Mục trình bày số thuật tốn phân cụm liệu Mục trình bày thuật tốn K-Means theo tiếp cận DSGT, cuối kết luận II MỘT SỐ KHÁI NIỆM LIÊN QUAN Sau số khái niệm ánh xạ định lượng [7] cách thức xác định hệ lân cận ngữ nghĩa định lượng [8, 10] Cho ĐSGT X = (X, G, H, ≤), X = LDom(X), G = {1, c− , W, c+ , 0} tập phần tử sinh, H tập gia tử xem phép tốn ngơi ≤ quan hệ thứ tự ngữ nghĩa X Tập X sinh từ tập G phép toán H Như vậy, phần tử X có dạng biểu diễn x = hn hn−1 .h1 x, x ∈ G Tập tất phần tử sinh từ phần tử x ký hiệu H(x) Cho tập gia tử H = H − ∪ H + , H + = {h1 , , hp } H − = {h−1 , , h−q }, tuyến tính với thứ tự sau: h1 < < hp h−1 < < h−q , p, q > Khi đó, ta có định nghĩa liên quan sau: Định nghĩa 1: Hàm f m : X → [0, 1] gọi độ đo tính mờ X thoả mãn điều kiện sau: 1) f m độ đo mờ đầy đủ f m(hi u) = f m(u) X, tức −q≤i≤p, i=0 2) Nếu x khái niệm rõ, tức H(x)={x} fm(x)=0, f m(0) = f m(W ) = f m(1) = f m(hy) 3) Với ∀x, y ∈ X, ∀h ∈ H, ta có ffm(hx) m(x) = f m(y) , nghĩa tỉ số khơng phụ thuộc vào x y, kí hiệu µ(h) gọi độ đo tính mờ (fuzziness measure) gia tử h Định nghĩa 2: (Hàm định lượng ngữ nghĩa v) Cho fm độ đo tính mờ X, hàm định lượng ngữ nghĩa v X định nghĩa sau: 1) v (W) = θ = fm(c − ), v (c − ) = θ − α.fm(c − ) v(c+ ) = θ + α.f m(c+ ) 2) Nếu ≤ j ≤ p thì: v(hj x) = v(x) + j Sign(hj x) × i=1 f m(hi x) − ω(hj x)f m(hj x) , Nếu −q ≤ j ≤ −1 thì: v(hj x) = v(x) + Sign(hj x) × −1 i=j f m(hi x) − ω(hj x)f m(hj x) , 12 Kỷ yếu HỘI THẢO KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG (ICT2018) Kỷ yếu Hội thảo Khoa học Công nghệ thông tin Truyền thơng 2018 (ICT 2018) đó: ω(hj x) = {α, β} [1 + Sign(hj x)Sign(hq hj x)(β − α)] ∈ Phân hoạch dựa độ đo tính mờ giá trị ngơn ngữ đại số gia tử Vì độ đo tính mờ từ khoảng đoạn [0, 1] họ khoảng từ có độ dài tạo thành phân hoạch [0, 1] Phân hoạch ứng với độ dài từ lớn mịn độ dài lớn vơ hạn độ dài khoảng phân hoạch giảm dần Ví dụ 1: Xét ĐDSGT AX = (X, G, H, ≤), H + = {More, Very} với More < Very, H − = {Little, Possibly} với Little > Possibly, C = {Small, Large} với Small phần tử sinh âm, Large phần tử sinh dương Cho W=0.5, fm(Little) = 0.4, fm(Possibly) = 0.1, fm(More) = 0.1, fm(Very) = 0.4 Bảng I GIÁ TRỊ ĐỊNH LƯỢNG V Giá trị ngôn ngữ Very Very Small Very Small Possibly Very Small Little Very Small Small Very Possibly Small Little Small More Little Small Very Little Small hàm v 0.04 0.10 0.11 0.16 0.25 0.26 0.40 0.41 0.46 Giá trị ngôn ngữ Very Very Large Very Large Possibly Very Large Little Very Large Large Very Possibly Large Little Large More Little Small Very Little Large hàm v 0.96 0.90 0.89 0.84 0.75 0.74 0.60 0.59 0.54 Định nghĩa 3: Cho P k = {I(x) : x ∈ Xk } với Xk = {x ∈ X : |x| = k} phân hoạch [0, 1] Ta nói u v theo mức k P k , ký hiệu u ≈k v, I(u) I(v) thuộc khoảng P k Có nghĩa ∀x, y ∈ X, u ≈k v ⇔ ∃∆k ∈ P k : I(u) ⊆ ∆k I(v) ⊆ ∆k III MỘT SỐ THUẬT TOÁN PHÂN CỤM Hiện nay, kỹ thuật phân cụm phân loại theo cách tiếp cận sau: Phương pháp phân cụm phân hoạch: Phương pháp phân hoạch tập hợp liệu có n phần tử thành k nhóm xác định số cụm thiết lập số cụm thiết lập đặc trưng lựa chọn trước Phương pháp tốt cho việc tìm cụm hình cầu không gian Euclidean Tuy nhiên, phương pháp xử lí cụm có hình dạng kỳ quặc cụm có mật độ điểm dầy đặc Phương pháp phân cụm phân cấp: Phương pháp xây dựng phân cấp sở đối tượng liệu xem xét Nghĩa xếp tập liệu cho thành cấu trúc có dạng hình cây, phân cấp xây dựng theo kỹ thuật đệ quy Phương pháp phân cụm dựa mật độ: phương pháp nhóm đếỉ tượng liệu dựa hàm mật độ xác định, mật độ số đối tượng lân cận đối tượng liệu theo nghĩa Phương pháp phân cụm dựa lưới: Phương pháp phân cụm dựa lưới thích hợp với liệu nhiều chiều, dựa cấu trúc liệu lưới để phân cụm, phương pháp chủ yếu tập trung áp dụng cho lớp liệu không gian Mục tiêu phương pháp lượng hóa liệu thành tạo thành cấu trủc liệu lưới Phương pháp phân cụm dựa mơ hình: Phương cố gắng khám phá phép xấp xỉ tốt tham số mơ hình cho khớp với liệu cách tốt Phương pháp phân cụm dựa mơ hình cố gắng khớp liệu vói mơ hình tốn học, dựa giả định liệu tạo hỗn hợp phân phối xác suất Phương pháp phân cụm có liệu ràng buộc: Sự phát triển PCDL không gian CSDL lớn cung cấp nhiều công cụ tiện lợi cho việc phân tích thơng tin địa lí, nhiên hầu hết thuật tốn cung cấp cách thức cho người dùng để xác định ràng buộc giới thực cần phải thỏa mãn trình phân cụm Ngồi ra, có số nhánh nghiên cứu phát triển sở phương pháp như: Phân cụm thống kê: Dựa khái niệm phân tích hệ thống, nhánh nghiên cứu sử dụng độ đo tương tự để phân hoạch đối tượng, chúng chi áp dụng cho liệu có thuộc tính số Phân cụm khải niệm: Kỹ thuật phát triển áp dụng eho liệu hạng mục, chúng phân cụm đối tượng theo khái niệm mà chúng xử lí Phân cụm mờ: Sử đụng kỹ thuật mờ để PCDL Các thuật toán thuộc loại lược đồ phân cụm thích hợp với tất hoạt động đời sống hàng ngày, chúng xử lí liệu thực khơng chắn Phân cụm mạng Kohonen: Loại phân cụm dựa khái niệm mạng nơron Mạng Kohonen có tầng nơron vào tầng nơron Mỗi nơron tàng vào tương ứng vói thuộc tính ghi, nơron vào kết nối với tất nơron tầng Mỗi liên kết gắn liền với trọng số nhằm xác định vị trí nơron tương ứng A Thuật Tốn K-Means Thuật toán thuộc phương pháp phân cụm phân hoạch K-Means thuật toán quan trọng sử dụng phổ biến kỹ thuật phân cụm Tư tưởng thuật tốn K-Means tìm cách phân nhóm đối tượng (objects) cho vào K cụm (K số cụm xác đinh trước, K nguyên dương) cho tổng bình phương khoảng cách đối tượng đến tâm nhóm (centroid ) nhỏ (hình 1) 13 13 Kỷ yếu HỘI THẢO KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG (ICT2018) Kỷ yếu Hội thảo Khoa học Công nghệ thông tin Truyền thơng 2018 (ICT 2018) Thuật tốn K-Means thực qua bước sau: Chọn ngẫu nhiên K tâm (centroid) cho K cụm (cluster) Mỗi cụm đại diện tâm cụm Tính khoảng cách đối tượng (objects) đến K tâm (thường dùng khoảng cách Euclidean) Nhóm đối tượng vào nhóm gần Xác định lại tâm cho nhóm Thực lại bước khơng có thay đổi nhóm đối tượng End IV THUẬT TOÁN PHÂN CỤM MỜ Phân cụm mờ phương pháp phân cụm liệu mà cho phép điểm liệu thuộc hai nhiều cụm thông qua bậc thành viên Ruspini (1969) giới thiệu khái niệm phân hoạch mờ để mô tả cấu trúc cụm tập liệu đề xuất thuật tốn để tính tốn tối ưu phân hoạch mờ Dunn (1973) mở rộng phương pháp phân cụm phát triển thuật toán phân cụm mờ Ý tưởng thuật toán xây đựng phương pháp phân cụm mờ dựa tối thiểu hóa hàm mục tiêu Bezdek (1981) cải tiến tổng quát hóa hàm mục tiêu mờ cách đưa ừọng số mũ để xây dựng thuật toán phân cụm mờ chứng minh độ hội tụ thuật toán cực tiểu cục Trong phần này, chúng tơi trình bày phương pháp xây dựng thuật toán phân cụm mờ sử dụng đại số gia cho thuật toán K-Means Phương pháp xem thuộc tính cấu trúc ĐSGT nên việc đánh giá đơn giản, trực quan hiệu Các bước thực sau: Bước 1: Xem miền trị thuộc tính mờ ĐGST (giải sử ký hiệu Dom(A)) Chuyển đổi giá trị Dom(A)) [0,1] Hình Thuật tốn K-Means B Thuật tốn FCM Thuật tốn FCM cung cấp q trình lặp để tối ưu (xấp xỉ cực tiểu) hàm mục tiêu dựa đo đạc độ tương tự có trọng số xk trung tâm cụm vi , sau vịng lặp, thuật tốn tính tốn cập nhật phần tử uik ma trận phân hoạch U Thuật tốn FCM tính tốn ma trận phân hoạch U kích thước cụm để thu mơ hình mờ từ ma trận Các bước thực thuật toán FCM sau: Input: Số cụm c tham số mũ m cho hàm mục tiêu J; Output: c cụm liệu cho hàm mục tiêu (1) đạt giá trị cực tiểu; Begin Nhập tham số cụm c (1 khả 0.084 1 0 group1 group2 Lần 2: Bước 4: Tính lại tọa độ tâm, nhóm có tâm c1=(0.162, 0.362) Tâm nhóm sau tính lại c2=(0.1, 0.313) Ma trận khoảng cách D2 = 0.042 0.3221 0.042 0.265 0.186 0.107 0.398 0.107 group1 group2 Bước Nhóm đối tượng vào nhóm gần G2 = 1 0 1 group1 group2 Kết thực phân cụm: Bảng IV GIÁ TRỊ ĐẶC TRUNG THEO ĐSGT Object Medicine A Medicine B Medicine C Medicine D Weight index (X) 0.12 0.204 0.3 0.424 pH(y) 0.1 0.1 0.225 0.4 Group 1 2 V KẾT LUẬN Bài báo đề xuất phương pháp phân cụm mờ theo cách tiếp cận ĐSGT Dựa giá trị định lượng ngữ nghĩa đề xuất thuật toán phân cụm mờ HA_ K-Means, thuật toán mở rộng thuật tốn K-Means, việc xem thuộc tính cấu trúc ĐSGT làm cho việc phân đối tượng cụm trở nên đơn giản hiệu Bước 3: Khởi tạo tâm (centroid) cho nhóm Giả sử ta chọn 15 15 Kỷ yếu HỘI THẢO KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG (ICT2018) Kỷ yếu Hội thảo Khoa học Công nghệ thông tin Truyền thông 2018 (ICT 2018) TÀI LIỆU [1] C H Nguyen and W Wechler, "Hedge algebras: an algebraic approach to structure of sets of linguistic truth values", Fuzzy sets and systems, vol 35, no 3, pp 281-293, 1990 [2] C H Nguyen, “A topological completion of refined hedge algebras and a model of fuzziness of linguistic terms and hedges”, Fuzzy Sets and Systems, vol 158, no 4, pp 436-451, 2007 [3] C H Nguyen and V L Nguyen,”Fuzziness measure on complete hedge algebras and quantifying semantics of terms in linear hedge algebras”, Fuzzy Sets and Systems, vol 158, no 4, pp 452-471 [4] Doan Van Thang and Doan Van Ban, “Defining membership functions based onapproach to hedge algebras” Journal of computer science and cybernetics, Vol 31, No 4, 2015 [5] D V Ban, T C Tuan, and D V Thang, “Querying data with fuzzy information in objectoriented databases based on hedge algebraic semantic" in Knowledge and Systems Engineering (KSE), 2012 Fourth International Conference on IEEE, 2012, pp 39-45 [6] D V Thang, “Dependence fuzzy objects", in Advanced Technologies for Communications (ATC), 2014 International Conference on IEEE, 2014, pp 160-166 [7] N Ho, “Quantifying hedge algebras and interpolation methods in approximate reasoning”, in Proc of the 5th Inter Conf on Fuzzy Information Processing, Beijing, 2003, pp 105-112 [8] M.P Windham, “Cluster validity for fuzzy clustering algorithms”, Fuzzy Sets and System, vol 3, pp 177-183, 1981 [9] W.Pedrycz, “Algorithms of fuzzy clustering with partial supervision”, Pattern Recognition, vol 23, pp.121-146, 1990 [10] W.Pedrycz, “Algorithms of fuzzy clustering with partial supervision”, Pattern Recognition, vol 23, pp.121-146, 1990 16 16 LÝ LỊCH TRÍCH NGANG CỦA HỌC VIÊN I LÝ LỊCH SƠ LƯỢC: Họ tên: PHẠM XUÂN THẢO Giới tính: NAM Ngày, tháng, năm sinh: 20/04/1974 Nơi sinh: VĨNH PHÚC Email: pxthao@gmail.com Điện thoại: 0913757564 II QUÁ TRÌNH ĐÀO TẠO: 1991-1995: SV Khoa Toán – Trường ĐH Sư phạm TP.HCM 1996-1998: SV KS-II Khoa CNTT - Trường ĐH Bách khoa TP.HCM 2016-2018: HV Khoa CNTT – Trường ĐH Cơng nghiệp TP.HCM III Q TRÌNH CƠNG TÁC CHUN MƠN: Thời gian 1997 - Nơi công tác Tổng Công ty 28 – TCHC - BQP Công việc đảm nhiệm IT XÁC NHẬN CỦA Tp HCM, ngày tháng … năm 2019 CƠ QUAN / ĐỊA PHƯƠNG Người khai Phạm Xuân Thảo 78 ... Phân cụm liệu mờ theo tiếp cận đại số gia tử NHIỆM VỤ VÀ NỘI DUNG: Tìm hiểu tập mờ số thuật toánphân cụm liệu mờ Nghiên cứu tìm hiểu đại số gia tử, phân cụm liệu mờ theo tiếp cận đại số gia tử. .. Luận văn nghiên cứu tập mờ, trình bày số thuật tốn phân cụm liệu mờ trung nghiên cứu tìm hiểu đại số gia tử, từ đề xuất thuật tốn K-means phân cụm liệu mờ theo cách tiếp cận ĐSGT [6] Những ưu điểm... Tập mờ Đại số gia tử: Trình bày khái quát tập mờ, liệu mờ thông tin không chắn, Tập lát cắt tập mờ số đặc trưng tập mờ phép toán tập mờ, giới thiệu biến ngôn ngữ từ liên quan đến Đại số gia tử,

Ngày đăng: 27/05/2021, 22:51

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan