Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 98 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
98
Dung lượng
1,32 MB
Nội dung
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Nguyễn Thị Thu Hiền Các kỹ thuật phân cụm khai phá liệu LUẬN VĂN THẠC SĨ Hà Nội - 2009 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Nguyễn Thị Thu Hiền Các kỹ thuật phân cụm khai phá liệu Ngành: Mã số: Công Nghệ Thông tin 60.48.05 LUẬN VĂN THẠC SĨ NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS Vũ Đức Thi Hà Nội - 2009 -1- LỜI CAM ĐOAN Tôi xin cam đoan luận văn “Các kỹ thuật phân cụm khai phá liệu” cơng trình nghiên cứu riêng Các số liệu, kết nêu luận văn sử dụng trung thực Những kết luận luận văn chưa công bố cơng trình nghiên cứu khác Học viên thực Nguyễn Thị Thu Hiền -2- LỜI CẢM ƠN Luận văn hoàn thành hướng dẫn, bảo tận tình, chu đáo PGS.TS Vũ Đức Thi Qua đây, xin gửi lời cảm ơn sâu sắc đến Thầy giúp đỡ nhiệt tình Thầy suốt q trình tơi thực luận văn Tơi xin cảm ơn Thầy, Cô giáo Cán trường Đại học Công nghệ - Đại học Quốc gia Hà Nội truyền thụ kiến thức, kinh nghiệm học tập, nghiên cứu khoa học cho suốt trình học tập trường Tơi xin gửi lời cảm ơn tới trường Đại học Sư phạm Thái Nguyên, Khoa Toán, Tổ Tin học đồng nghiệp tạo điều kiện cho thực tốt kế hoạch học tập Cuối cùng, tơi xin bày tỏ lịng biết ơn tới gia đình tơi ln bên cạnh động viên, ủng hộ tạo điều kiện tốt cho tơi học tập hồn thành luận văn Học viên thực Nguyễn Thị Thu Hiền -3- MỤC LỤC LỜI CAM ĐOAN LỜI CẢM ƠN MỤC LỤC DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT DANH MỤC BẢNG BIỂU DANH MỤC HÌNH VẼ, ĐỒ THỊ LỜI MỞ ĐẦU CHƢƠNG - TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 11 1.1 Quá trình khám phá tri thức sở liệu 11 1.2 Tính liên ngành khai phá liệu 13 1.3 Các toán khai phá liệu điển hình 14 1.4 Các dạng liệu khai phá liệu 16 1.5 Hướng tiếp cận kỹ thuật khai phá liệu 16 1.6 Ứng dụng khai phá liệu 18 1.7 Các thách thức KPTT KPDL 18 CHƢƠNG - PHÂN CỤM DỮ LIỆU 19 2.1 Bài toán phân cụm liệu 19 2.2 Các giai đoạn trình phân cụm liệu 20 2.3 Ứng dụng phân cụm liệu 21 2.4 Các kiểu liệu độ đo tương tự 21 2.5 Các kỹ thuật tiếp cận phân cụm liệu 25 2.6 Yêu cầu thuật toán phân cụm liệu 29 CHƢƠNG - CÁC THUẬT TOÁN PHÂN CỤM DỮ LIỆU ĐIỂN HÌNH 30 3.1 Các thuật tốn phân cụm phân hoạch 30 3.1.1 3.1.2 3.1.3 3.1.4 Thuật toán k-means 30 Thuật toán PAM 33 Thuật toán CLARA 35 Thuật toán CLARANS 37 -4- 3.2 Các thuật toán phân cụm phân cấp 39 3.2.1 Thuật toán BIRCH 39 3.2.2 Thuật toán CURE 42 3.3 Các thuật toán phân cụm dựa mật độ 44 3.3.1 Thuật toán DBSCAN 44 3.3.2 Thuật toán OPTICS 48 3.3.3 Thuật toán DENCLUE 49 3.4 Các thuật toán phân cụm dựa lưới 51 3.4.1 Thuật toán STING 51 3.4.2 Thuật toán CLIQUE 53 3.4.3 Thuật toán WaveCluster 53 3.5 Phân cụm dựa mơ hình 54 3.5.1 Thuật toán EM 54 3.6 Các thuật toán phân cụm liệu kiểu hạng mục 57 3.6.1 3.6.2 3.6.3 3.6.4 3.7 Thuật toán k-modes 58 Thuật toán ROCK 61 Thuật toán STIRR 64 Thuật toán CACTUS 66 Phân cụm liệu hỗn hợp 70 3.7.1 Cơ sở toán học 70 3.7.2 Thuật toán k-prototypes 73 CHƢƠNG - PHÂN CỤM DỮ LIỆU MỜ 76 4.1 Giới thiệu 76 4.2 Thuật toán FCM 77 4.2.1 Hàm mục tiêu 77 4.2.2 Thuật toán FCM 78 4.3 Thuật toán FCM 80 4.3.1 Hàm mục tiêu 80 4.3.2 Thuật toán FCM 85 4.4 Một số kết thử nghiệm 85 4.4.1 Thí nghiệm liệu có ngoại lai 85 4.4.2 Phân cụm liệu nhóm có ngoại lai xếp chồng liệu 88 KẾT LUẬN 91 TÀI LIỆU THAM KHẢO 92 PHỤ LỤC 94 CÀI ĐẶT THỬ NGHIỆM THUẬT TOÁN K-MEANS 94 -5- DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT Từ cụm từ Từ viết tắt Từ tiếng Anh Cơ sở liệu CSDL Database Công nghệ thông tin CNTT Information Technology Khám phá tri thức KPTT Knowledge Discovery KDD Knowledge Discovery in Database Khai phá liệu KPDL Data mining Phân cụm liệu PCDL Data Clustering -6- DANH MỤC BẢNG BIỂU Bảng 2.1 Bảng giá trị tham số 22 Bảng 2.2 Các kiểu thuộc tính với độ đo thích hợp tương ứng 25 Bảng 3.1 Bảng tổng kết thuộc tính thuật tốn PCDL kiểu số 55 Bảng 3.2 Bảng tổng kết thuộc tính thuật tốn PCDL hạng mục 69 Bảng 4.1 Số lỗi tâm cụm lớn FCM FCM theo số phần tử ngoại lai 87 Bảng 4.2 Chuẩn Frobenius lỗi tâm cụm 88 Bảng 4.3 Cực đại lỗi tâm cụm với liệu có ngoại lai 89 Bảng 4.4 Frobenius lỗi tâm cụm cho liệu có ngoại lai 89 -7- DANH MỤC HÌNH VẼ, ĐỒ THỊ Hình 1.1 Quá trình khám phá tri thức CSDL 12 Hình 1.2 Tính đa/liên ngành khai phá liệu 13 Hình 1.3 Sơ đồ biểu diễn mơ hình học máy: cần học đường nét rời 17 Hình 2.1 Quá trình phân cụm liệu 20 Hình 2.2 Các khoảng cách Euclidean Manhattan hai đối tượng 23 Hình 2.3 Phương pháp xây dựng phân cụm phân cấp 26 Hình 2.4 Mơ tả phân cụm phân hoạch phân cụm phân cấp 27 Hình 3.1 Ý tưởng thuật tốn k-means 30 Hình 3.2 Các bước thuật tốn k-means 31 Hình 3.3 Chi tiết thuật toán k-means 32 Hình 3.4 Các bước thực thuật toán PAM 35 Hình 3.5 Các bước thực thuật toán CLARA 36 Hình 3.6 Thuật tốn CLARANS 38 Hình 3.7 Thuật tốn BIRCH sử dụng CF 40 Hình 3.8 Các bước thuật toán BIRCH 42 Hình 3.9 Một số cụm liệu khám phá thuật tốn CURE 43 Hình 3.10 Các bước thuật toán CURE 43 Hình 3.11 Hình dạng số cụm khám phá thuật toán DBSCAN 45 Hình 3.12 Liên thơng mật độ liên kết mật độ PCDL dựa mật độ 46 Hình 3.13 Thuật tốn DBSCAN 48 Hình 3.14 Thứ tự cụm tăng dần OPTICS 49 Hình 3.15 Biểu diễn hàm ảnh hưởng sóng ngang Gaussian 50 Hình 3.16 Mơ hình lưới sử dụng thuật tốn STING 51 -8- Hình 3.17 Các bước thực thuật toán STING 52 Hình 3.18 Ứng dụng thuật toán WaveCluster 54 Hình 3.19 Các bước thực thuật tốn EM 54 Hình 3.20 Mảng hạng mục tập liệu 60 Hình 3.21 Số đối tượng lân cận chung hai đối tượng liệu i, j 62 Hình 3.22 Tổng quan ROCK 63 Hình 3.23 Các bước thuật toán ROCK 64 Hình 3.24 Trình bày liệu thuật tốn STIRR 65 Hình 3.25 Một ví dụ sử dụng CACTUS 68 Hình 3.26: Ảnh hưởng l phân cụm 72 Hình 3.27: Thủ tục phân phối ban đầu thuật tốn k-prototypes 74 Hình 3.28: Thủ tục phân phối lại(re-allocation) k-prototypes 75 Hình 3.29: Q trình hội tụ thuật tốn k-prototypes 75 Hình 4.1 Thuật toán FCM 78 Hình 4.2 Mơ kết cụm khám phá thuật toán FCM 79 Hình 4.3 Thuật tốn FCM 85 Hình 4.4 Thực nghiệm phương pháp FCM 86 Hình 4.5 Thực nghiệm phương pháp FCM với = 86 Hình 4.6 Thực nghiệm FCM, = với cụm có liệu xếp chồng ngoại lai 90 Hình 4.7 Thực nghiệm FCM với cụm có liệu xếp chồng ngoại lai 90 - 82 - Hai biểu thức (4.16) (4.18) : m1 c xk v j m j 1 1 m 1 (4.19) Kết hợp (4.18) (4.19) : usk 1sc 1 k N x k x vs c j 1 k vj 1 m (4.20) 1 m Nếu Ik , lựa chọn uik = với i Ik iI k uik với i Ik kết tối thiểu hoá hàm tiêu chuẩn (4.8) Cuối cùng, cần điều kiện để tối thiểu hoá (4.8) tương ứng với U viết lại (4.10) Vấn đề khó khăn thu điều kiện cần cho ma trận mẫu V Kết hợp (4.8) (4.9) : c p N J m (U ,V ) (uik ) i 1 k 1 m x l 1 kl c p vil gil (vil ) (4.21) i 1 l 1 N gil (vil ) (uik )m xkl vil (4.22) k 1 gọi đánh giá trọng số -insensitive Với = 0, đánh giá trung tuyến mờ (Kersten, 1999) Vấn đề tối thiểu hàm tiêu chuẩn (4.8) nguyên mẫu suy biến thành vấn đề tối thiểu hoá c.p (4.22) với i = 1, …, c l = 1,…, p Trong trường hợp tổng quát, bất đẳng thức xkl – vil vil - xkl không thỏa mãn với liệu Nếu bổ sung biến bù k ,k , liệu xkl viết : vil xkl k xkl vil k (4.23) Do đó, việc tối thiểu hố (4.22) viết lại dạng : N gil (vil ) (uik )m (k k ) k 1 (4.24) - 83 - tối thiểu hoá đối tượng tới ràng buộc (4.23) k ,k Hàm Lagrange (4.24) với ràng buộc : N N Gil (vil ) (uik ) m ( k k ) k ( k vil xkl ) k 1 k 1 N N k 1 k 1 k ( k vil xkl ) ( k k k k ) (4.25) Trong k , k , k , k nhân Lagrange Mục tiêu tối thiểu hoá hàm Lagrange tương ứng với vil ,k ,k Nó phải cực đại hoá nhân Lagrange tương ứng Các điều kiện tối ưu sau (với điểm yên ngựa hàm Lagrange) lấy vi phân (4.25) tương ứng với vil ,k ,k đặt kết : Gil (vil ) N (k k ) vil k 1 Gil (vil ) (uik ) m k k k Gil (vil ) (uik ) m k k k (4.26) Hai điều kiện cuối (4.26) yêu cầu k , k bao hàm m k , k 0, uik Áp đặt điều kiện (4.26) hàm Lagrange (4.25), chúng ta có : N N Gil (vil ) ( ) xkl (k k ) k 1 k k (4.27) k 1 Cực đại hoá (4.27) tới ràng buộc : N (k k ) k 1 , 0,(u ) m ik k k (4.28) Thuật toán tối ưu điểm yên ngựa, với nhân Lagrange, điều kiện Karush-Kühn-Tucker phải thoả mãn : - 84 - k k vil xkl k k vil xkl m (uik ) k k m (uik ) k k (4.29) Hai điều kiện cuối (4.29) k (0,(uik )m ) dẫn tới k k (0,(uik )m ) kéo theo k Trong trường hợp này, hai điều kiện đầu (4.29) sinh : vil xkl , vil xkl , k (0,(uik )m ) k (0,(uik )m ) (4.30) Như vậy, xác định trung tâm cụm vil từ (4.30) việc lấy tùy ý xkl với nhân Lagrange tương ứng khoảng mở (0,(uik)m) Các phương trình (4.27), (4.28) (4.30) viết lại đẹp (4.11) (4.12) Lựa chọn tùy ý xkl (4.30) kết từ thực tế có nhiều xkl khoảng cách từ trung tâm cụm vil Từng liệu khoảng cách nhỏ có k( ) , khoảng cách lớn có k( ) (uik )m Do đó, việc lựa chọn xkl phải thoả mãn k( ) (0,(uik )m ) , phải thu giá trị tương tự trung tâm cụm Nhưng, từ số điểm quan sát, tốt để thu giá trị trung bình vil cho liệu có ràng buộc (4.30) thoả mãn, ví dụ : vil 1i c 1l p card(i+ ( xkl ) ( xkl ) i ) k ki+ k ki (4.31) Trên sở định lý (4.31), thu thuật toán gọi FCM (-insensitive Fuzzy C-Means) - 85 - 4.3.2 Thuật toán FCM Các bước thực thuật tốn FCM mơ tả hình 4.3 đây: Input: Số cụm c tham số m, cho hàm tiêu chuẩn J Output: c cụm liệu cho hàm tiêu chuẩn (2) đạt giá trị tối thiểu Begin Nhập giá trị cho hai tham số c (1 < c < N); m (1, ); khởi tạo ma trận mẫu V (0) Rpc , j Repeat j = j + 1; Tính ma trận phân hoạch mờ Uj theo công thức (4.5) ; Cập nhật trọng tâm V ( j ) v1( j ) , v2( j ) , , vc( j ) dựa vào công thức (4.6) ma trận Uj ; Until ( U ( j 1) U ( j ) F ) Trình diễn cụm kết End Hình 4.3 Thuật tốn FCM 4.4 Một số kết thử nghiệm Tất thí nghiệm FCM FCM sử dụng trọng số mũ m=2 Các bước lặp dừng tiêu chuẩn Frobenius cặp liên tiếp ma trận U 10-5 với FCM 10-2 với FCM Để tính nguyên mẫu cuối, đo việc thực phương pháp phân cụm với chênh lệch tuyệt đối tối đa trung tâm cụm tính tốn so với trung tâm thực cụm,… 4.4.1 Thí nghiệm liệu có ngoại lai Mục đích thí nghiệm để điều tra tính nhạy cảm phương pháp FCM FCM phần tử ngoại lai Tập liệu chiều hình 4.4 bao gồm nhóm phân chia số lượng phần tử ngoại lai định vị tại điểm (9, 9) Số phần tử ngoại lai thay đổi từ (không có phần tử ngoại lai) tới 20 (số phần tử ngoại lai với lực lượng cụm phía - bên phải đánh dấu gạch chéo) Các tâm cụm thực tính khơng qua phần tử ngoại lai, chúng đánh dấu hình tam giác Cả hai phương pháp - 86 - kiểm tra khởi tạo sử dụng nguyên mẫu (4,4), (5,5) (6,6), đánh dấu hình vng Phương pháp FCM kiểm tra với tham số = 0.2 (nhỏ bán kính cụm), 2.0 (xấp xỉ bán kính cụm) 3.0 (lớn bán kính cụm) Kết cho phương pháp FCM FCM với liệu từ hình 4.4, hình 4.5 cho bảng 4.1 4.2 Hình 4.4 Thực nghiệm phƣơng pháp FCM với số phần tử ngoại lai: 0, 4, 8, 12 16 Hình 4.5 Thực nghiệm phƣơng pháp FCM với = số phần tử ngoại lai: 6, 14 20 - 87 - Bảng 4.1 Số lỗi tâm cụm lớn FCM FCM theo số phần tử ngoại lai Number of outliers 10 12 14 16 18 20 = 0.2 FCM = 2.0 0.0188 0.0652 0.0101 0.0581 0.0780 0.1764 0.0922 0.1171 0.3739 0.1263 0.1766 0.5898 0.1585 0.2236 0.8375 0.1870 0.2514 1.1453 0.2169 0.2435 1.6039 5.8203 1.3452 5.8417 2.9990 6.2144 5.8503 2.9988 6.2143 5.8569 2.9987 6.2142 5.8621 0.2307 0.1047 0.0314 0.0314 0.1047 0.2718 0.1110 0.1465 0.2797 0.2180 0.4497 0.1465 0.1047 0.1467 0.2039 0.6085 0.1334 5.9081 0.1722 2.6480 5.9081 0.6085 0.1334 5.9081 0.6085 0.1334 5.9081 0.9190 0.2313 7.1561 0.9190 0.1511 7.1561 0.1712 0.1294 0.3282 0.1047 0.1831 0.0314 0.1047 0.1891 0.0314 0.1110 0.1334 0.1821 0.1173 0.1334 0.2889 0.1047 0.1334 0.3779 0.1251 0.1334 0.8405 0.1047 0.1334 0.2390 0.1047 0.1294 0.2519 0.1173 0.1334 3.0385 0.1173 0.1334 3.1936 FCM = 3.0 0.1047 0.1294 0.0126 0.1047 0.1334 0.0126 0.1047 0.2463 0.1350 0.1047 0.2710 0.0126 0.1047 0.3277 0.0126 0.1753 2.2363 0.0126 0.1047 0.4338 0.0784 0.1753 0.4780 0.2519 0.0336 1.0494 6.7621 1.2760 0.1294 5.9081 0.1173 0.1334 5.9081 - 88 - Bảng 4.2 Chuẩn Frobenius lỗi tâm cụm = 0.2 FCM = 2.0 = 3.0 0.0055 0.0456 0.1794 0.4226 0.8141 1.1468 2.7336 70.2390 104.3053 0.0821 0.1241 0.1298 0.2831 0.1194 35.7255 42.3886 35.7264 35.7264 0.1546 0.0629 0.0661 0.0807 0.1957 0.2739 0.8917 0.1326 0.1273 0.0281 0.0461 0.1133 0.1023 0.1363 5.1902 0.2237 0.3784 77.9249 104.33905 104.4583 53.6137 53.5580 9.6860 10.6388 36.9925 35.3492 Number of outliers 10 12 14 16 FCM 18 20 4.4.2 Phân cụm liệu nhóm có ngoại lai xếp chồng liệu Mục đích thí nghiệm để so sánh hữu ích phương pháp FCM FCM phân cụm nhóm có liệu ngoại lai có xếp chồng liệu Tập liệu chiều hình 4.6, bao gồm nhóm xếp chồng Mỗi nhóm sinh phát giả ngẫu nhiên t-phân phối Các trung tâm cụm thực (2, 2), (-2, 2) (2, -2) Các trung tâm cụm đánh dấu hình tam giác Tất tính tốn phần này, thành phần thứ k nguyên mẫu (prototype) khởi tạo thứ j nhận sau: v jk mk j 1 j c M k mk c 1 c số cụm, mk xik , M k max xik i i Giải thuật FCM kiểm tra với tham số nhận giá trị khác từ tới 4.0 với bước nhảy 0.5 Trong bảng 4.3, với giá trị khác tham số này, độ lệch tuyệt đối cực đại trung tâm cụm so với trung tâm thực cụm Đồng thời, định mức Frobenius độ lệch bảng 4.4 Đặc biệt hình 4.6 4.7 cho thấy độ lệch thực thi phương pháp FCM FCM - 89 - Bảng 4.3 Cực đại lỗi tâm cụm với liệu có ngoại lai Bảng 4.4 Frobenius lỗi tâm cụm cho liệu có ngoại lai - 90 - Hình 4.6 Thực nghiệm FCM, = với cụm có liệu xếp chồng ngoại lai Hình 4.7 Thực nghiệm FCM với cụm có liệu xếp chồng ngoại lai - 91 - KẾT LUẬN Luận văn “Các kỹ thuật phân cụm khai phá liệu” trình bày đƣợc số vấn đề sau: Luận văn trình bày tổng quan nét đặc trưng lĩnh vực khai phá liệu, bao gồm vấn đề trình khám phá tri thức CSDL, tốn KPDL điển hình, dạng liệu khai phá, hướng tiếp cận kỹ thuật KPDL ứng dụng vấn đề thách thức KPDL PCDL phương pháp KPTT quan trọng Data Mining có nhiều ý nghĩa khoa học thực tiễn Đây chủ đề trọng tâm cho nội dung nghiên cứu luận văn Chương luận văn trình bày cách hệ thống khái niệm PCDL phát biểu toán, giai đoạn trình PCDL, kiểu liệu độ đo, kỹ thuật tiếp cận PCDL yêu cầu thuật toán PCDL Trong chương chương 4, luận văn trình bày, phân tích cách chi tiết, có hệ thống phương pháp tiếp cận, kỹ thuật áp dụng PCDL, bao gồm tốn PCDL điển hình toán PCDL áp dụng lý thuyết tập mờ,… Cuối cùng, luận văn cài đặt thử nghiệm thuật tốn k-means Hƣớng nghiên cứu tiếp theo: Trong khn khổ luận văn, chúng tơi trình bày số phương pháp kỹ thuật điển hình áp dụng PCDL Bài tốn mở rộng nghiên cứu, tìm hiểu nhằm xây dựng ứng dụng đáp ứng nhu cầu thực tế Do đó, thời gian tới tiếp tục theo đuổi tiếp cận hướng nghiên cứu như: xây dựng phát triển kỹ thuật phân cụm cho liệu Web, văn bản, hình ảnh,… Kết hợp kỹ thuật phân cụm với kỹ thuật mờ, mạng nơron để giải số ứng dụng khác thực tế Do điều kiện thời gian khả thân nên luận văn tránh khỏi hạn chế, thiếu sót Vì vậy, tơi mong nhận đóng góp ý kiến, đánh giá, bảo thầy cô, bạn bè, đồng nghiệp để luận văn hoàn thiện - 92 - TÀI LIỆU THAM KHẢO Tài liệu tiếng Việt [1] Hoàng Kiếm, Lê Bá Phương, Ứng dụng khai phá liệu để tìm hiểu thơng tin khách hàng [2] Nguyễn Hồng Phương (2002), Nhập mơn Trí tuệ tính tốn, NXB Khoa học kỹ thuật, Hà Nội [3] Nguyễn Anh Trung - Trung tâm Công nghệ Thông tin Ứng dụng kỹ thuật khai phá liệu vào lĩnh vực viễn thông [4] Đinh Mạnh Tường (2003), Trí tuệ nhân tạo, NXB Đại học Quốc gia Hà Nội, Hà Nội [5] Hoàng Hải Xanh (2005), Về kỹ thuật phân cụm liệu Data mining, Luận văn thạc sỹ Tài liệu tiếng Anh [6] Daniel T.Larose (2006), “Data mining: methods and models”, Wiley Interscience [7] David Hand, Heikki Mannila, Padhraic Smyth (2001), “Principles of Data Mining”, Massachusetts Institute of Technology [8] D P Mercer (2003), “Clustering large datasets”, Linacre College [9] DavidGibson, Jon M Kleinberg, and Prabhakar Raghavan (1998) “Clustering Categorical Data: An Approach Based on Dynamical Systems” In Proceedings of the 24th International Conference on Very Large Data Bases, (VLDB), pages 311-322, NewYork, NY, USA [10] Ester M., Kriegel H.-P., Sander J., Xu X.(1996): “A Density-Based Algorithm for Discovering Clusters in Large Spatial Databases with Noise”, Proc 2nd Int Conf on Knowledge Discovery and Data Mining, Portland, OR, AAAI Press, pages 226-231 [11] Fahim, Salem, Torkey, Ramadan (2006), “An efficient enhanced k-means clustering algorithm”, J Zhejiang Univ SCIENCE A [12] Jiawei Han, Micheline Kamber (2001), “Data Mining: Concepts and Techniques”, Morgan Kaufmann Publishers - 93 - [13] Jacek Leski (2001), “An -Insensitive approach to fuzzy clustering”, Int J Appl Math Comput Sci, Vol.11, No.4, 993 -1007 [14] J.MacQueen (1967), “Some methods for classification and analysis of multivariate observations”, Proc, 5th Berkeley Symp Math Statist, Prob [15] Krzysztof J Cios, Witold Pedrycz , Roman W Swiniarski, Lukasz A Kurgan (2007), “Data mining: A knowledge discovery approach”, Springer [16] Mehmed Kantardzic (2003) “Data Mining: Concepts, Models, Methods, and Algorithms” John Wiley & Sons, 2003 [17] Periklis Andritsos (2002), “Data Clustering Techniques”, University of Toronto, Department of Computer Science [18] Raymond T.Ng, Jiawei Han (1994), “Efficient and effective clustering methods for Spatial Data Mining”, Santiago, Chile [19] Rui Xu (2005), “Survey of Clustering Algorithms”, IEEE Transactions on Neural Networks, Vol.16, N0.3 [20] Sudipto Guha, Rajeev Rastogi, Kyuseok Shim, “ROCK: A Robust Clustering Algorithm for categorical attributes” [21] Tian Zhang, Raghu Ramakrishnan, Miron Livn (1996), “BIRCH: An efficient data clustering method for very large databases”, Montreal, Canada [22] Usama Fayyad, Gregory Piatetsky-Shapiro, Padhraic Smyth (1996), “From Data Mining to Knowledge Discovery in Databases”, American Association for Artificial Intelligence [23] WeiWang, Jiong Yang, Richard Muntz, “STING: A Statistical Information Grid Approach to Spatial Data Mining”, Department of Computer Science University of California, LosAngeles, pages 188-192 [24] Zhexue Huang (1998) “Extensions to the k-means Algorithm for Clustering Large Data Sets with Categorical Values” Workshop on Research Issues on Data Mining and Knowledge Discovery, pages 283–304 [25] Zhexue Huang, “Clustering large data sets with mixed numeric and categorical values”, CSIRO Mathematical and Information Sciences, pages – 12 - 94 - PHỤ LỤC CÀI ĐẶT THỬ NGHIỆM THUẬT TỐN K-MEANS Giao diện chương trình: Cách thức thực chương trình mơ tả sau: Khi người sử dụng lựa chọn số cụm khung nhấn nút Draw Cluster, chương trình tạo nhóm/cụm liệu, điểm biểu thị cho đối tượng Nhấn nút Start để khởi tạo trọng tâm cụm Việc lựa chọn trọng tâm cụm ngẫu nhiên, muốn khởi tạo trọng tâm cụm khác, nhấn nút New Start vừa ý Sau khởi tạo xong trọng tâm cụm, nút Start trở thành nút Step để hiển thị bước chạy thuật tốn Người sử dụng nhấn nút Run để hiển thị kết cuối sau chạy thuật tốn mà khơng cần phải thơng qua việc nhấn bước nút Step Chương trình cho phép xem lịch sử tiến trình di chuyển trọng tâm cụm cách đánh dấu vào hộp checkbox Show History Để khởi động lại, nhấn nút Reset - 95 - Dưới số hình ảnh chạy chương trình: Giao diện Khởi tạo cụm ban đầu - 96 - Khởi tạo k trung tâm cụm K cụm ... trình phân cụm liệu 20 2.3 Ứng dụng phân cụm liệu 21 2.4 Các kiểu liệu độ đo tương tự 21 2.5 Các kỹ thuật tiếp cận phân cụm liệu 25 2.6 Yêu cầu thuật toán phân cụm liệu. .. khám phá tri thức sở liệu 11 1.2 Tính liên ngành khai phá liệu 13 1.3 Các tốn khai phá liệu điển hình 14 1.4 Các dạng liệu khai phá liệu 16 1.5 Hướng tiếp cận kỹ thuật khai. .. kết ứng dụng kỹ thuật vấn đề quan trọng thuật toán - 30 - CHƢƠNG CÁC THUẬT TOÁN PHÂN CỤM DỮ LIỆU ĐIỂN HÌNH 3.1 Các thuật tốn phân cụm phân hoạch 3.1.1 Thuật toán k-means Thuật toán phân hoạch