Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 62 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
62
Dung lượng
2,02 MB
Nội dung
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN TRUNG ĐỨC TIẾP CẬN MỜ TRONG PHÂN CỤM DỮ LIỆU LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN Hà Nội, 2013 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN TRUNG ĐỨC TIẾP CẬN MỜ TRONG PHÂN CỤM DỮ LIỆU Ngành: Công nghệ thông tin Chuyên ngành: Hệ thống thông tin Mã số: 60 48 05 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN NGƢỜI HƢỚNG DẪN KHOA HỌC: PGS.TS Hoàng Xuân Huấn Hà Nội, 2013 MỤC LỤC DANH MỤC CÁC KÝ HIỆU, TỪ VIẾT TẮT DANH MỤC CÁC HÌNH VẼ .4 DANH MỤC CÁC BẢNG BIỂU MỞ ĐẦU CHƢƠNG I: TỔNG QUAN VỀ PHÂN CỤM DỮ LIỆU 1.1 Phân cụm liệu 1.2 Thế phân cụm tốt 10 1.3 Các ứng dụng phân cụm liệu 11 1.4 Các phương pháp phân cụm liệu thông thường 13 1.4.1 Phương pháp phân cụm phân hoạch 13 1.4.2 Phương pháp phân cụm phân cấp 14 1.4.3 Phương pháp phân cụm dựa mật độ 16 1.4.4 Phương pháp phân cụm dựa lưới 17 1.5 Một số chủ đề liên quan 19 CHƢƠNG II: PHÂN CỤM DỮ LIỆU MỜ 20 2.1 Một số khái niệm sở lý thuyết tập mờ 20 2.1.1 Khái niệm tập mờ 20 2.1.2 Các dạng hàm liên thuộc tập mờ 22 2.1.3 Các thông số đặc trưng cho tập mờ 23 2.2 Phân cụm rõ – phân cụm mờ 24 2.2.1 Phân cụm rõ 24 2.2.2 Phân cụm mờ 24 2.3 Một số thuật toán phân cụm liệu mờ 27 2.3.1 Thuật toán phân cụm C-means mờ 27 2.3.2 Thuật toán Gustafson-Kessel .30 CHƢƠNG III: SỐ CỤM VÀ CHỈ SỐ ĐÁNH GIÁ 33 3.1 Vấn đề ước lượng số cụm 33 3.2 Quá trình ước lượng số cụm tối ưu 34 3.3 Một số số đánh giá điển hình cho phân cụm mờ 35 3.3.1 Chỉ số hệ số phân hoạch entropy phân hoạch 35 3.3.2 Chỉ số MPC 36 3.3.3 Chỉ số XB 36 3.3.4 Chỉ số K 37 3.3.5 Chỉ số PCAES 38 3.3.6 Chỉ số CO 39 CHƢƠNG IV: MỘT CHỈ SỐ ĐÁNH GIÁ SỐ CỤM MỚI CHO PHÂN CỤM MỜ .41 4.1 Nhận xét 41 4.2 Chỉ số đánh giá 42 4.3 Kết thực nghiệm 43 4.3.1 Các tập liệu 43 4.3.2 Các kết thu 45 KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN 58 TÀI LIỆU THAM KHẢO 59 DANH MỤC CÁC KÝ HIỆU, TỪ VIẾT TẮT DBSCAN FCM FN FPCM GG GK NN PC PCAES PCDL PE STING UPGMA 𝜀FCM Density – Based Spatial Clustering of Applications with Noise Fuzzy c-means Furthest Neighbour Fuzzy Possibilistic c-Means Gath – Geva Gustafson – Kessel Nearest Neighbour Partition Coeficient Partition Coefficient And Exponential Separation Phân cụm liệu Partition Entropy STatistical INformation Grid approach Un-weighted Pair-Group Method using Arithmetic averages 𝜀-Insensitive Fuzzy C-means DANH MỤC CÁC HÌNH VẼ Hình 1.1: Mơ vấn đề phân cụm liệu Hình 1.2: Các bước trình phân cụm liệu 10 Hình 1.3: Tiêu chuẩn phân cụm .11 Hình 1.4: Phân cụm tập S = {a, b, c, d, e} theo phương pháp “dưới lên” 15 Hình 1.5: Hai cụm tìm thuật toán DBSCAN 17 Hình 1.6: Hai cụm liệu tìm nhờ DBSCAN 17 Hình 1.7: Ba tầng liên tiếp cấu trúc STING 18 Hình 2.1: Biểu diễn tập nhiệt độ “NÓNG” 21 Hình 2.2: Biểu diễn tập mờ “Trẻ ”, “Trung niên”, “Già” 22 Hình 2.3: Đồ thị hàm liên thuộc hình tam giác 23 Hình 2.4: Đồ thị hàm liên thuộc hình thang .23 Hình 2.5: Độ cao, miền xác định, miền tin cậy tập mờ .24 Hình 2.6: Tập liệu “butterfly” .25 Hình 2.7: Kết phân cụm rõ tập liệu butterfly .26 Hình 2.8: Hai cụm mờ tập liệu butterfly 26 Hình 2.9: Các chuẩn khoảng cách khác sử dụng phân cụm mờ 30 Hình 2.10: Kết phân cụm tập liệu cụm khác hình dáng thuật tốn FCM GK 32 Hình 3.1: Phân cụm tập liệu với số lượng cụm khác .33 Hình 3.2: (a) Tập liệu gồm cụm, (b) kết phân cụm thuật toán FCM với số cụm 34 Hình 3.3: Quá trình ước lượng số cụm tối ưu 35 Hình 3.4: Kết phân cụm giá trị số PCAES với số cụm khác 39 Hình 4.1: Hai cụm A, B có số phần tử, phân phối giống kích thước, độ khác 41 Hình 4.2: Ba cụm A, B, C với tâm cụm biểu thị hình chữ nhật nhỏ 42 Hình 4.3: Mô tả tập liệu nhân tạo 45 Hình 4.4: Đồ thị biểu diễn kết số với tập liệu Sep_8 46 Hình 4.5: Đồ thị biểu diễn kết số với tập liệu Over_5 47 Hình 4.6: Đồ thị biểu diễn kết số với tập liệu Over_3 49 Hình 4.7: Đồ thị biểu diễn kết số với tập liệu Over_4 51 Hình 4.8: Đồ thị biểu diễn kết số với tập liệu Difzd_3 51 Hình 4.9: Đồ thị biểu diễn kết số với tập liệu Difz_3 52 Hình 4.10: Đồ thị biểu diễn kết số với tập liệu Iris 53 Hình 4.11: Đồ thị biểu diễn kết số với tập liệu Seeds 54 Hình 4.12: Đồ thị biểu diễn kết số với tập liệu Pima Indians Diabetes 56 DANH MỤC CÁC BẢNG BIỂU Bảng 1: Giá trị hàm liên thuộc tập liệu Butterfly thuật toán k-means cmeans mờ 27 Bảng 2: Mô tả tập liệu nhân tạo 44 Bảng 3: Giá trị số với tập liệu Sep_8 45 Bảng 4: Giá trị số với tập liệu Over_5 .46 Bảng 5: Giá trị số với tập liệu Over_3 48 Bảng 6: Giá trị số với tập liệu Over_4 49 Bảng 7: Giá trị số với tập liệu Difzd_3 51 Bảng 8: Giá trị số với tập liệu Difz_3 52 Bảng 9: Giá trị số với tập liệu Iris 53 Bảng 10: Giá trị số với tập liệu Seeds 54 Bảng 11: Giá trị số với tập liệu Pima Indians Diabetes 55 Bảng 12: Giá trị số lượng cụm tối ưu 𝑐 ∗ mà số xác định cho tập liệu 56 MỞ ĐẦU Phân cụm liệu toán thuộc vào lĩnh vực học máy không giám sát ứng dụng rộng rãi để khai thác thơng tin từ liệu Nó có nhiệm vụ tổ chức tập đối tượng liệu thành cụm cho đối tượng cụm “tương tự” đối tượng cụm khác “kém tương tự” Phương pháp phân cụm liệu truyền thống (PCDL rõ) chia tập liệu ban đầu thành cụm liệu đối tượng thuộc cụm Nhưng thực tế ranh giới cụm thường không rõ ràng, đối tượng liệu thuộc nhiều cụm khác nhau, phương pháp khơng mơ tả liệu thực Để tăng hiệu tính xác cho kết phân cụm, người ta áp dụng lý thuyết tập mờ vào việc phân cụm liệu xây dựng lên phương pháp phân cụm liệu mờ Hiện nay, phân cụm liệu mờ toán nhiều người quan tâm nghiên cứu ứng dụng thành công nhiều lĩnh vực: nghiên cứu thị trường, nhận dạng, xử lý ảnh, tìm kiếm thơng tin… Các thuật toán phân cụm mờ đa dạng như: Cmeans mờ (FCM), Gustafson-Kessel (GK), Gath-Geva (GG), Fuzzy Possibilistic CMeans (FPCM), 𝜀-Insensitive Fuzzy C-means (𝜀FCM), Tuy nhiên, thuật toán, thường yêu cầu người dùng xác định trước số lượng cụm Số cụm tham số quan trọng ảnh hưởng nhiều tới kết trình phân cụm, ứng với số lượng cụm khác cho kết phân cụm khác nhau, thật khó khăn để định kết phân cụm tốt hay số lượng cụm tối ưu gì? Luận văn trình bày khảo cứu tác giả tiếp cận phân cụm mờ Đặc biệt, sâu vào kỹ thuật đánh giá, ước lượng số cụm nhờ hàm số Trên sở đó, đề xuất số đánh giá số cụm nhờ kết hợp ưu điểm độ nén (compactness) [8,16] độ chồng (overlap) [17,29] Ưu điểm trội số thể qua kết thực nghiệm nhiều liệu thực nhân tạo so sánh với số điển hình có Ngồi phần kết luận, cấu trúc nội dung luận văn bao gồm chƣơng: Chương 1: Tổng quan phân cụm liệu Chương tập trung trình bày tổng quan PCDL, hướng tiếp cận Data Mining Trong sâu phân tích chi tiết vấn đề bản: khái niệm PCDL ý nghĩa thực tiễn; trình bày số phương pháp PCDL giải thuật điển hình phương pháp phân cụm Chương 2: Phân cụm liệu mờ Để làm rõ kỹ thuật PCDL mờ, chương trình bày số khái niệm lý thuyết tập mờ; phân tích kỹ thuật phân cụm rõ phân cụm mờ, trình bày hai thuật tốn phân cụm mờ điển hình: C-means mờ (viết tắt FCM) mở rộng thuật tốn Gustafson-Kessel (viết tắt GK) Chương 3: Số cụm số đánh giá Trong chương 3, luận văn đặc tả vấn đề ước lượng số cụm tốn phân cụm Phân tích số hàm số thông dụng để đánh giá chất lượng phân hoạch tạo thuật toán phân cụm mờ, nhờ xác định số cụm tối ưu cho tập liệu xét Chương 4: Một số đánh giá số cụm cho phân cụm mờ Chương 4, luận văn đề xuất số đánh giá số cụm nhờ kết hợp độ nén độ chồng cụm Tiến hành thực nghiệm nhiều liệu nhân tạo liệu thực cho thấy ưu điểm trội số so với số điển hình có q trình tìm kiếm số cụm tối ưu cho tập liệu 46 12 13 14 15 16 17 18 0.843 0.808 0.770 0.753 0.763 0.743 0.718 0.339 0.396 0.452 0.494 0.492 0.535 0.570 0.829 0.792 0.753 0.736 0.747 0.726 0.702 0.592 0.675 0.608 1.972 0.483 0.437 0.561 353.631 -1.970 405.754 -3.679 389.453 -5.535 1240.553 -6.594 321.926 -7.596 298.122 -8.766 378.134 -10.367 PC PE MPC 0.9 0.8 0.7 0.6 0.5 -2 0.4 -4 0.3 -6 0.2 -8 CO F Gia tri chi so Gia tri chi so 3.861 2.191 0.162 -1.030 -0.972 -3.439 -3.712 Chi so CO, Chi so F Chi so PC, PE, MPC 0.1 -2.456 -3.879 -5.659 -6.748 -6.798 -9.102 -9.243 10 So cum 12 14 16 -10 18 10 So cum 12 14 16 Chi so XB, PCAES Gia tri chi so -5 XB PCAES -10 -15 10 So cum Chi so K 12 14 16 18 10 So cum 12 14 16 18 1500 Gia tri chi so K 1000 500 Hình 4.4: Đồ thị biểu diễn kết số với tập liệu Sep_8 4.3.2.2 Tập liệu Over_5 Bảng 4: Giá trị số với tập liệu Over_5, c = 2, 3, …, 𝑐𝑚𝑎𝑥 = 500 ≈22 c PC 0.669 0.632 0.687 0.682 0.618 0.574 PE 0.498 0.654 0.629 0.679 0.828 0.937 MPC 0.337 0.447 0.582 0.603 0.541 0.503 XB 0.369 0.133 0.075 0.077 0.312 0.356 K PCAES 184.596 1.914 66.738 2.544 3.364 37.967 39.573 3.408 159.525 2.129 182.699 0.679 CO -0.025 -0.600 -0.492 -0.899 -2.037 -3.124 F 1.580 1.762 2.915 3.341 2.341 1.246 18 47 10 11 12 13 14 15 16 17 18 19 20 21 22 0.542 0.526 0.506 0.488 0.476 0.483 0.469 0.476 0.466 0.461 0.459 0.448 0.440 0.435 0.438 1.021 1.071 1.123 1.189 1.239 1.246 1.298 1.299 1.334 1.367 1.392 1.432 1.467 1.492 1.492 0.477 0.467 0.451 0.437 0.428 0.440 0.428 0.439 0.430 0.427 0.427 0.417 0.411 0.406 0.412 0.324 0.331 0.310 0.291 0.270 0.250 0.269 0.258 0.246 0.198 0.267 0.278 0.236 0.302 0.208 167.611 172.051 162.814 152.934 142.797 133.815 144.242 139.970 134.911 109.002 147.330 154.155 131.210 169.537 117.864 -0.788 -2.190 0.524 0.221 -0.487 -0.951 -2.102 -2.350 -0.981 -1.962 -2.321 -3.532 -4.607 -5.151 -6.380 Chi so PC, PE, MPC -4.607 -5.725 -7.376 -8.714 -9.654 -10.316 -11.697 -12.129 -13.295 -14.189 -15.220 -16.918 -18.294 -19.504 -20.213 -0.181 -1.291 1.264 0.355 -0.366 -0.771 -2.223 -2.205 -0.918 -1.940 -2.322 -4.152 -5.736 -6.198 -7.279 Chi so CO, Chi so F 1.6 PC PE MPC 1.4 CO F 1.2 Gia tri chi so 0.8 -10 -15 0.6 -20 0.4 10 12 So cum 14 16 18 20 -25 22 10 12 So cum 14 16 Chi so XB, PCAES Gia tri chi so 0.2 -5 -10 XB PCAES 10 12 So cum Chi so K 14 16 18 20 22 10 12 So cum 14 16 18 20 22 200 K Gia tri chi so Gia tri chi so -5 150 100 50 Hình 4.5: Đồ thị biểu diễn kết số với tập liệu Over_5 18 20 22 48 4.3.2.3 Tập liệu Over_3 Bảng 5: Giá trị số với tập liệu Over_3, c = 2, 3, …, 𝑐𝑚𝑎𝑥 = 900 = 30 c 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 PC 0.868 0.803 0.698 0.629 0.565 0.544 0.513 0.496 0.486 0.472 0.463 0.453 0.439 0.432 0.428 0.422 0.413 0.406 0.400 0.398 0.395 0.395 0.392 0.390 0.386 0.376 0.376 0.377 0.368 PE 0.232 0.372 0.577 0.730 0.847 0.922 1.023 1.092 1.128 1.183 1.227 1.274 1.325 1.357 1.387 1.420 1.456 1.490 1.519 1.537 1.566 1.585 1.598 1.619 1.648 1.680 1.691 1.702 1.736 MPC 0.735 0.705 0.597 0.536 0.478 0.468 0.444 0.433 0.428 0.419 0.414 0.407 0.396 0.392 0.390 0.386 0.379 0.373 0.369 0.368 0.366 0.367 0.365 0.365 0.361 0.352 0.353 0.355 0.346 XB 0.059 0.111 0.274 0.447 0.357 0.304 0.285 0.260 0.231 0.207 0.193 0.225 0.304 0.275 0.264 0.247 0.246 0.233 0.197 0.254 0.271 0.186 0.195 0.224 0.280 0.296 0.304 0.273 0.270 K 53.344 100.669 249.885 408.624 330.016 282.201 264.544 241.839 219.264 196.388 184.448 215.630 292.753 267.171 257.725 242.258 242.716 231.876 196.960 256.284 272.676 186.871 199.662 229.814 286.633 306.448 315.429 285.832 283.877 PCAES 1.588 1.838 0.432 -1.042 0.071 -0.699 -1.601 -2.507 -1.325 -0.960 -1.053 -2.162 -3.297 -2.219 -3.218 -4.276 -4.404 -3.829 -4.954 -4.814 -5.819 -8.882 -7.724 -8.785 -12.140 -10.706 -10.498 -12.482 -11.577 CO 0.174 0.047 -0.941 -2.039 -3.733 -5.008 -6.122 -7.190 -8.598 -9.904 -10.892 -12.241 -13.650 -15.098 -16.287 -17.345 -18.647 -20.066 -20.438 -21.970 -22.764 -24.209 -24.663 -26.203 -27.557 -28.703 -30.044 -30.964 -32.466 F 1.476 2.221 1.172 -0.019 1.167 0.019 -1.269 -2.312 -1.491 -1.515 -1.596 -3.037 -4.573 -3.834 -5.022 -6.181 -6.700 -6.477 -7.107 -7.460 -8.365 -11.963 -10.144 -11.597 -15.437 -14.145 -14.347 -16.227 -15.867 49 Chi so CO, Chi so F Chi so PC, PE, MPC 1.8 PC PE MPC 1.4 -5 1.2 -10 -15 0.8 -20 0.6 -25 0.4 -30 0.2 -35 CO F Gia tri chi so Gia tri chi so 1.6 10 15 So cum 20 25 30 10 15 So cum 20 25 30 Chi so XB, PCAES Gia tri chi so -5 -10 XB PCAES 10 15 So cum Chi so K 20 25 30 10 15 So cum 20 25 30 600 Gia tri chi so K 400 200 0 Hình 4.6: Đồ thị biểu diễn kết số với tập liệu Over_3 4.3.2.4 Tập liệu Over_4 Bảng 6: Giá trị số với tập liệu Over_4, c = 2, 3, …, 𝑐𝑚𝑎𝑥 = 1800 ≈42 c 10 11 12 13 14 PC 0.812 0.790 0.773 0.684 0.617 0.577 0.545 0.521 0.506 0.494 0.478 0.468 0.456 PE 0.306 0.391 0.457 0.635 0.761 0.861 0.934 1.014 1.075 1.119 1.172 1.218 1.277 MPC 0.624 0.685 0.697 0.605 0.540 0.507 0.480 0.461 0.451 0.443 0.431 0.424 0.414 XB 0.086 0.068 0.116 0.349 0.440 0.370 0.365 0.323 0.290 0.237 0.238 0.209 0.277 K PCAES 155.566 1.708 122.549 1.541 210.779 1.324 634.531 0.025 804.954 -0.150 677.743 -1.052 671.470 -0.645 594.920 -1.565 535.102 -2.468 439.609 -3.598 443.346 -0.854 389.590 -1.763 515.935 -3.692 CO -0.218 -0.135 -0.312 -1.396 -2.900 -4.330 -5.893 -7.131 -8.231 -9.579 -10.912 -11.963 -13.355 F 1.531 1.672 2.354 1.224 1.289 0.092 0.418 -0.867 -1.988 -3.441 -1.039 -2.103 -4.559 50 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 0.445 0.443 0.438 0.429 0.415 0.421 0.411 0.405 0.404 0.399 0.398 0.393 0.391 0.386 0.383 0.381 0.381 0.378 0.379 0.373 0.372 0.363 0.367 0.368 0.361 0.363 0.365 0.359 1.323 1.333 1.374 1.402 1.441 1.447 1.478 1.521 1.530 1.549 1.565 1.599 1.617 1.633 1.649 1.669 1.673 1.694 1.701 1.734 1.741 1.768 1.769 1.781 1.816 1.814 1.811 1.844 0.406 0.406 0.403 0.395 0.382 0.390 0.381 0.377 0.377 0.373 0.373 0.368 0.367 0.363 0.361 0.359 0.360 0.358 0.360 0.354 0.354 0.345 0.349 0.351 0.344 0.346 0.349 0.343 0.280 0.231 0.222 0.223 0.221 0.204 0.194 0.361 0.256 0.205 0.226 0.240 0.243 0.272 0.211 0.214 0.209 0.213 0.191 0.254 0.200 0.302 0.264 0.250 0.347 0.317 0.204 0.243 521.189 436.296 416.238 422.231 421.472 390.556 374.964 688.512 491.774 398.931 441.025 466.804 472.280 537.041 419.039 424.185 417.516 426.829 384.302 505.911 404.061 613.444 539.150 507.181 696.924 643.207 419.811 496.919 -4.760 -4.622 -6.693 -5.409 -4.296 -4.758 -5.090 -6.774 -8.719 -6.700 -7.366 -11.066 -10.648 -10.601 -9.539 -11.896 -10.910 -12.633 -12.679 -13.756 -15.093 -10.021 -15.923 -18.472 -19.096 -18.712 -20.653 -19.825 -14.461 -15.666 -16.795 -18.000 -20.165 -20.317 -22.322 -23.643 -24.292 -25.283 -26.682 -27.687 -28.994 -30.273 -31.362 -32.091 -33.896 -34.753 -35.121 -37.394 -37.650 -39.989 -40.356 -40.951 -42.148 -43.432 -43.752 -45.229 -5.791 -5.655 -8.108 -6.956 -6.859 -6.627 -7.825 -10.006 -11.557 -9.509 -10.564 -14.301 -14.287 -14.433 -13.415 -15.492 -15.316 -16.960 -16.404 -18.780 -19.448 -15.578 -20.864 -23.116 -23.953 -23.841 -25.052 -24.805 Chi so CO, Chi so F Chi so PC, PE, MPC 10 CO F PC PE MPC 1.8 1.6 -10 Gia tri chi so Gia tri chi so 1.4 1.2 0.8 -20 -30 0.6 -40 0.4 0.2 10 15 20 25 So cum 30 35 40 45 -50 10 15 20 25 So cum 30 35 40 45 51 Chi so XB, PCAES Gia tri chi so 10 -10 XB PCAES -20 -30 10 15 20 25 So cum Chi so K 30 35 40 45 1000 Gia tri chi so K 500 0 10 15 20 25 So cum 30 35 40 45 Hình 4.7: Đồ thị biểu diễn kết số với tập liệu Over_4 4.3.2.5 Tập liệu Difzd_3 Bảng 7: Giá trị số với tập liệu Difzd_3, c = 2, 3, …, 𝑐𝑚𝑎𝑥 = 30 ≈5 c PC 0.974 0.985 0.893 0.809 PE 0.066 0.044 0.197 0.323 MPC 0.948 0.978 0.857 0.761 XB 0.012 0.017 1.002 0.512 K PCAES 0.650 1.462 3.920 1.460 200.993 -0.010 231.370 -2.222 Chi so PC, PE, MPC CO 0.306 0.640 -0.013 -0.936 F 1.490 2.967 2.084 0.989 Chi so CO, Chi so F 0.9 0.8 CO F 2.5 PC PE MPC Gia tri chi so 0.6 0.5 0.4 1.5 0.5 0.3 0.2 -0.5 0.1 2.5 3.5 So cum 4.5 -1 2.5 3.5 So cum Chi so XB, PCAES Gia tri chi so 0 -2 -4 XB PCAES 2.5 3.5 So cum Chi so K 4.5 3.5 So cum 4.5 300 K Gia tri chi so Gia tri chi so 0.7 200 100 2.5 Hình 4.8: Đồ thị biểu diễn kết số với tập liệu Difzd_3 4.5 52 4.3.2.6 Tập liệu Difz_3 Bảng 8: Giá trị số với tập liệu Difz_3, c = 2, 3, …, 𝑐𝑚𝑎𝑥 = 110 ≈ 10 c 10 PC 0.980 0.961 0.825 0.723 0.795 0.673 0.622 0.605 0.597 PE 0.046 0.093 0.304 0.463 0.427 0.611 0.702 0.759 0.799 MPC 0.959 0.942 0.766 0.654 0.753 0.618 0.568 0.555 0.552 XB 0.008 0.032 0.396 0.257 0.622 0.411 0.410 0.347 0.292 K PCAES 1.138 1.822 6.074 0.738 94.943 -1.420 82.253 -0.519 159.544 -2.980 179.710 -2.817 186.069 -2.623 187.062 -3.011 184.548 -2.891 Chi so PC, PE, MPC CO 0.431 0.447 -0.564 -1.961 -1.150 -3.815 -5.698 -6.862 -7.504 F 1.837 2.050 0.919 1.703 0.084 -0.350 -0.837 -1.341 -0.883 Chi so CO, Chi so F PC PE MPC 0.9 CO F 0.8 0.7 Gia tri chi so 0.5 0.4 -2 -4 0.3 0.2 -6 0.1 So cum -8 10 So cum Chi so XB, PCAES Gia tri chi so 0 -2 -4 XB PCAES So cum Chi so K 10 So cum 10 200 K Gia tri chi so Gia tri chi so 0.6 150 100 50 Hình 4.9: Đồ thị biểu diễn kết số với tập liệu Difz_3 10 53 4.3.2.7 Tập liệu Iris Bảng 9: Giá trị số với tập liệu Iris, c = 2, 3, …, 𝑐𝑚𝑎𝑥 = 150 ≈12 c 10 11 12 PC 0.892 0.783 0.685 0.665 0.598 0.557 0.555 0.496 0.479 0.463 0.441 PE 0.196 0.396 0.581 0.676 0.797 0.908 0.997 1.073 1.135 1.198 1.255 MPC 0.784 0.675 0.580 0.582 0.517 0.483 0.491 0.433 0.421 0.409 0.390 XB 0.054 0.137 0.614 0.229 0.302 0.378 0.365 0.374 0.328 0.303 0.856 K 8.405 21.994 101.203 38.906 54.297 69.559 63.542 72.651 65.867 61.836 183.826 PCAES 1.563 1.435 -0.179 -0.975 -0.081 -1.336 -3.824 -1.540 -2.622 -3.777 -4.131 CO 0.477 -0.107 -1.140 -1.635 -3.274 -4.528 -4.627 -7.528 -8.914 -10.291 -12.299 F 1.489 1.839 1.079 0.179 1.171 -0.304 -2.815 -1.452 -2.980 -4.490 -5.759 Chi so CO, Chi so F Chi so PC, PE, MPC 1.4 PC PE MPC 1.2 CO F -2 0.6 0.4 -6 -8 -10 0.2 -12 So cum 10 11 -14 12 So cum Chi so XB, PCAES Gia tri chi so -4 Gia tri chi so 0.8 -2 XB PCAES -4 -6 So cum Chi so K 10 11 12 So cum 10 11 12 200 K Gia tri chi so Gia tri chi so 150 100 50 Hình 4.10: Đồ thị biểu diễn kết số với tập liệu Iris 10 11 12 54 4.3.2.8 Tập liệu Seeds Bảng 10: Giá trị số với tập liệu Seeds, c = 2, 3, …, 𝑐𝑚𝑎𝑥 = 210 ≈ 14 c 10 11 12 13 14 PC 0.805 0.726 0.639 0.575 0.538 0.508 0.491 0.472 0.462 0.445 0.435 0.432 0.415 PE 0.322 0.500 0.691 0.841 0.945 1.038 1.112 1.184 1.225 1.291 1.345 1.376 1.436 MPC 0.610 0.589 0.519 0.469 0.446 0.426 0.418 0.406 0.402 0.390 0.384 0.384 0.370 XB 0.102 0.151 0.164 0.264 0.243 0.275 0.344 0.287 0.322 0.293 0.269 0.244 0.227 K 21.703 32.627 35.693 57.911 54.623 62.591 79.299 67.156 77.479 70.901 65.573 60.809 56.840 PCAES 1.638 1.938 1.272 1.296 0.596 0.144 -0.869 -1.321 0.093 -0.711 -1.344 -1.302 -1.901 Chi so PC, PE, MPC F 1.458 1.890 1.123 1.421 0.832 0.049 -1.184 -2.067 -0.624 -1.656 -2.355 -2.497 -3.314 Chi so CO, Chi so F 1.6 PC PE MPC 1.4 CO F -2 Gia tri chi so 1.2 0.8 -4 -6 -8 0.6 -10 0.4 So cum 10 12 -14 14 So cum 10 Chi so XB, PCAES Gia tri chi so 0.2 -12 XB PCAES -1 -2 So cum Chi so K 10 12 14 So cum 10 12 14 80 K Gia tri chi so Gia tri chi so CO 0.158 -0.213 -1.217 -2.286 -3.402 -4.760 -5.899 -7.284 -8.493 -9.687 -10.603 -11.503 -12.871 60 40 20 Hình 4.11: Đồ thị biểu diễn kết số với tập liệu Seeds 12 14 55 4.3.2.9 Tập liệu Pima Indians Diabetes Bảng 11: Giá trị số với tập liệu Pima Indians Diabetes, c = 2, 3, …, 𝑐𝑚𝑎𝑥 = 768 ≈28 c 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 PC 0.824 0.763 0.664 0.538 0.525 0.440 0.422 0.392 0.347 0.338 0.307 0.306 0.296 0.287 0.270 0.253 0.241 0.231 0.219 0.220 0.215 0.203 0.199 0.198 0.185 0.187 0.181 PE 0.297 0.427 0.625 0.862 0.934 1.131 1.209 1.310 1.438 1.489 1.597 1.616 1.668 1.714 1.786 1.862 1.915 1.966 2.030 2.042 2.074 2.124 2.170 2.187 2.252 2.266 2.306 MPC 0.648 0.645 0.552 0.423 0.430 0.346 0.339 0.316 0.275 0.272 0.244 0.249 0.242 0.236 0.222 0.206 0.196 0.189 0.178 0.181 0.178 0.167 0.165 0.164 0.153 0.155 0.151 XB K PCAES 0.123 94.553 1.229 0.149 116.993 0.117 0.280 221.712 -0.738 0.876 699.845 -0.307 0.621 501.309 -1.193 2.689 2177.994 -0.907 1.830 1488.269 -0.776 1.474 1201.535 -1.701 3.960 3235.759 -1.627 2.519 2073.983 -1.397 2.180 1801.175 -2.864 1.541 1383.779 -2.484 1.286 1162.649 -2.031 1.153 1048.962 -3.070 1.077 981.569 -4.372 1.182 1080.455 -2.488 1.449 1327.734 -3.554 1.486 1374.862 -4.321 80.840 75319.086 -5.551 1.367 1281.443 -4.722 2.564 2476.919 -6.020 18.697 18219.647 -5.973 2.297 2227.478 -6.780 2.178 2142.813 -7.800 7.340 7191.643 -7.580 1.969 1947.757 -6.958 1.743 1728.271 -6.071 CO 0.007 -0.447 -1.583 -3.462 -4.394 -6.612 -7.994 -9.688 -12.439 -13.963 -16.740 -18.489 -20.243 -22.312 -24.255 -26.202 -28.523 -29.671 -30.269 -31.868 -33.241 -36.040 -35.867 -37.552 -39.611 -39.872 -40.427 F 1.092 0.826 0.156 -0.229 -1.040 -2.016 -2.287 -3.899 -5.575 -5.800 -9.046 -9.498 -9.801 -11.885 -14.157 -13.252 -15.637 -16.478 -17.307 -17.084 -18.510 -20.215 -19.952 -21.653 -22.489 -21.211 -19.902 56 Chi so PC, PE, MPC Chi so CO, Chi so F 2.5 PC PE MPC CO F -5 1.5 Gia tri chi so Gia tri chi so -10 -15 -20 -25 -30 0.5 -35 -40 0 10 15 So cum 20 25 -45 30 10 15 So cum 20 25 30 Chi so XB, PCAES Gia tri chi so 100 XB PCAES 50 -50 10 15 So cum Chi so K 20 25 30 10 15 So cum 20 25 30 x 10 Gia tri chi so K 0 Hình 4.12: Đồ thị biểu diễn kết số với tập liệu Pima Indians Diabetes Qua kết thực nghiệm chứng minh tính đắn ưu điểm trội số đề xuất so với số thông dụng có, đặc biệt trường hợp cụm khác kích thước mật độ, trường hợp cụm chồng Bảng 12: Giá trị số lượng cụm tối ưu 𝑐 ∗ mà số xác định cho tập liệu 𝑐∗ PC PE MPC XB K PCAES CO F Sep_8 8 8 8 8 Over_5 5 4 5 Over_3 2 2 3 Over_4 2 3 Tập liệu 57 Difzd_3 3 3 2 3 Difz_3 2 2 2 3 Iris 2 2 2 Diabetes 2 2 2 2 Seeds 2 2 3 58 KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN KẾT LUẬN Một toán quan trọng lĩnh vực khai phá liệu toán phân cụm liệu Phân cụm liệu, nói cách khái quát việc tự động sinh cụm dựa vào tương tự đối tượng liệu Trong kỹ thuật PCDL, kỹ thuật PCDL theo hướng tiếp cận mờ lĩnh vực nghiên cứu rộng lớn đầy triển vọng Chính vậy, với đề tài “Tiếp cận mờ phân cụm liệu”, luận văn tập trung tìm hiểu, nghiên cứu đạt số kết sau đây: Giới thiệu tổng quan PCDL, phân tích số phương pháp phân cụm liệu phổ biến phân cụm phân hoạch, phân cụm phân cấp, phân cụm dựa mật độ, phân cụm dựa lưới; trình bày số giải thuật điển hình phương pháp phân cụm Để làm rõ kỹ thuật PCDL mờ, luận văn trình bày số khái niệm lý thuyết tập mờ; phân tích chi tiết kỹ thuật phân cụm rõ phân cụm mờ, đưa ví dụ cụ thể cho cách tiếp cận cho thấy khác ưu điểm kỹ thuật phân cụm mờ Luận văn khảo cứu hai thuật tốn phân cụm mờ điển hình cmeans mờ (viết tắt FCM) thuật toán Gustafson-Kessel (viết tắt GK) Luận văn đặc tả vấn đề ước lượng số cụm tốn phân cụm Qua phân tích số số đánh giá ước lượng số cụm điển hình cho PCDL mờ, tác giả đề xuất số đánh giá cho thuật toán phân cụm mờ nhờ kết hợp độ nén độ chồng cụm Qua kết thực nghiệm chứng minh tính đắn hiệu suất số đề xuất trội so với số thơng dụng có, đặc biệt trường hợp cụm khác kích thước mật độ, trường hợp cụm chồng Mặc dù cố gắng nỗ lực hết mình, thời gian nghiên cứu trình độ thân có hạn nên luận văn khơng thể tránh khỏi thiếu sót hạn chế, tơi mong nhận ý kiến đóng góp để luận văn đạt kết tốt HƢỚNG PHÁT TRIỂN Trong thời gian tới, tơi cố gắng tìm hiểu nhiều phương pháp phân cụm liệu, đặc biệt phương pháp phân cụm liệu mờ cố gắng mở rộng ứng dụng thuật toán phân cụm mờ vào nhiều toán thực tế Ngoài ra, việc ước lượng số cụm tối ưu cho tập liệu yêu cầu lặp nhiều lần thuật toán phân cụm làm cho thời gian tìm kiếm tăng lên nhiều Bởi vậy, có cách để tìm kiếm số cụm với lần chạy thuật toán hướng nghiên cứu mà quan tâm 59 TÀI LIỆU THAM KHẢO Tiếng Việt [1] [2] [3] [4] [5] [6] [7] Nguyễn Như Hiền, Lại Khắc Lãi (2007), Hệ mờ & nơnon kỹ thuật điều khiển, Nhà xuất Khoa học tự nhiên công nghệ, Hà Nội Hồng Xn Huấn (2011), Giáo trình Nhận dạng mẫu, Đại học Công nghệ - Đại học Quốc gia Hà Nội Hồng Xn Huấn, Nguyễn Trung Thơng (2005), Phân cụm nửa giám sát với mơ hình phân cấp, Kỷ yếu hội thảo khoa học quốc gia lần thứ hai: Nghiên cứu ứng dụng công nghệ thông tin Bùi Ngọc Thăng (2007), Một thuật toán phân cụm mờ số cụm không xác định, Đại học Công nghệ - Đại học Quốc gia Hà Nội, luận văn thạc sĩ Hà Quang Thụy cộng (2009), Giáo trình khai phá liệu web, Nhà xuất Giáo dục Việt Nam, Hà Nội Hoàng Hải Xanh (2005), Về kỹ thuật phân cụm liệu Data mining, Đại học Công nghệ - Đại học Quốc gia Hà Nội, luận văn thạc sĩ Trần Thị Yến (2009), Phân cụm liệu trừ mờ ứng dụng, Đại học Công nghệ thông tin truyền thông - Đại học Thái Nguyên, luận văn thạc sĩ Tiếng anh [8] Chen Duo, Li Xue, Cui Du-Wu (2007), An adaptive cluster validity index for the Fuzzy C-means, IJCSNS International Journal of Computer Science and Network Security, Vol.7 No.2, pp 146-156 [9] D.W Kim, K.H Lee, D Lee (2004), On cluster validity index for estimation of the optimal number of fuzzy clusters, Pattern Recognition 37, pp 2009–2025 [10] G Grekousis, H Thomas (2012), Comparison of two fuzzy algorithms in geodemographic segmentation analysis: The Fuzzy C-Means and GustafsoneKessel methods, Applied Geography 34, pp 125-136 [11] J.C Bezdek, R Ehrlich, W Full (1984), FCM: The fuzzy c-Means clustering algorithm, Computers & Geosciences Vol 10, No 2-3, pp 191-203 [12] János Abonyi, Balázs Feil (2007), Cluster Analysis for Data Mining and system identification, Birkhäuser Basel – Boston – Berlin, pp 17-28 [13] Jiawei Han, Micheline Kamber (2006), Data Mining : Concepts and Techniques, Morgan Kaufmann Publishers, 2nd edition [14] Jiawei Han, Micheline Kamber, Jian Pei (2011), Data Mining : Concepts and Techniques, Morgan Kaufmann Publishers, 3rd edition [15] Jianhua Yang (2002), Algorithmic engineering of clustering and cluster validity with applications to web usage mining, School of Electrical Engineering and Computer Science, Australia 60 [16] K.L.Wu, M.S.Yang (2005), A cluster validity index for fuzzy clustering, Pattern Recognition Lett 26, pp 1275–1291 [17] K.R Zalik (2010), Cluster validity index for estimation of fuzzy clusters of different sizes and densities, Pattern Recognition 43, pp 3374-3390 [18] M D Mahecha, A Martinez, H.Lange, Markus Reichstein, Erwin Beck (2009), Identification of characteristic plant co-occurrences in neotropical secondary montane forests, Journal of Plant Ecology, vol 2, no 1, pp 31-41 [19] M Halkidi, Y Batistakis, M Vazirgiannis (2001), On clustering validation techniques, Journal of Intelligent Information Systems, 17:2/3, pp 107–145 [20] M Ramze Rezaee, B.P.F Lelieveldt, J.H.C Reiber (1998), A new cluster validity index for the fuzzy c-mean, Pattern Recognition Letters 19, pp 237–246 [21] N R Pal, J C Bezdek (1995), On cluster valitidy for the fuzzy c-means model, IEEE Transactions on fuzzy system, vol 3, no 3, pp 370-379 [22] Q Zhao (2012), Cluster validity in clustering methods, Publications of the University of Eastern Finland [23] Roburt Babuska (2004), Fuzzy and neural control, DISC Course Lecture Notes, pp 59-72 [24] R.N Dave (1996), Validating fuzzy partition obtained through c-shells clustering, Pattern Recognition Lett 17, pp 613–623 [25] R.Suganya, R.Shanthi (2012), Fuzzy C-Means Algorithm- A Review, International Journal of Scientific and Research Publications, Volume 2, pp 2250 – 3153 [26] S Ghosh, S.K Dubey (2013), Comparative Analysis of K-Means and Fuzzy CMeans Algorithms, International Journal of Advanced Computer Science and Applications, Vol 4, No.4, pp 35-39 [27] S.H Kwon (1998), Cluster validity index for fuzzy clustering, Electron Lett 34 (22), pp 2176–2177 [28] X.L Xie, G Beni (1991), A validity measure for fuzzy clustering, IEEE Trans Pattern Anal Mach Intell 13, pp 841–847 [29] Y.HUI, Ch Zuo, Y Yag, F Qu (2011), A cluster validity index for fuzzy c-means clustering, Interational Conference on System Science, Engineering Design and Manufacturing Informatization, 2011 Int Conf (vol.2), pp 263 – 266 [30] W Wang, Y Zhang (2007), On fuzzy cluster validity indices, ScienceDirect, vol 158, pp 2095-2117 Một số trang web [31] http://archive.ics.uci.edu/ml/ [32] http://old.voer.edu.vn/module/khoa-hoc-va-cong-nghe/suy-luan-voi-cac-tap-mofuzzy-logic.html [33] http://www.stat.columbia.edu/~madigan/W2025/notes/clustering.pdf ... tập mờ 2.2 Phân cụm rõ – phân cụm mờ 2.2.1 Phân cụm rõ Phương pháp phân cụm rõ dựa lý thuyết tập hợp cổ điển, phân đối tượng liệu thuộc vào xác cụm. [23] Mục tiêu q trình phân cụm phân chia tập liệu. .. tập mờ 23 2.2 Phân cụm rõ – phân cụm mờ 24 2.2.1 Phân cụm rõ 24 2.2.2 Phân cụm mờ 24 2.3 Một số thuật toán phân cụm liệu mờ 27 2.3.1 Thuật toán phân. .. phá liệu (data mining) toán phân cụm Ở mức bản, ta định nghĩa phân cụm liệu sau: [13] Phân cụm liệu (PCDL) trình phân chia tập liệu ban đầu thành cụm liệu phần tử cụm “tương tự” phần tử cụm khác