Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 26 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
26
Dung lượng
824,45 KB
Nội dung
HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG - Nguyễn Thị Ngọc Diễm SO SÁNH MỘT SỐ THUẬT TOÁN PHÂN CỤM DỮ LIỆU Chuyên ngành: Khoa học máy tính Mã số: 60.48.01 TÓM TẮT LUẬN VĂN THẠC SĨ HÀ NỘI - 2014 Luận văn hồn thành tại: HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG Người hướng dẫn khoa học: PGS.TS Trần Đình Quế Phản biện 1: ………………………………………………………………… Phản biện 2: ………………………………………………………………… Luận văn bảo vệ trước Hội đồng chấm luận văn thạc sĩ Học viện Công nghệ Bưu Viễn thơng Vào lúc: ngày tháng năm Có thể tìm hiểu luận văn tại: - Thư viện Học viện Cơng nghệ Bưu Viễn thơng MỞ ĐẦU Phân cụm liệu q trình nhóm đối tượng tương tự tập liệu vào cụm cho đối tượng cụm tương đồng Phân cụm nhiệm vụ khai phá liệu kỹ thuật phổ biến để phân tích số liệu thơng tin, hệ trợ giúp định, thuật toán nhận dạng mẫu phân lớp mẫu, v.v đặc biệt khai phá liệu Ngày có nhiều kỹ thuật phân cụm sử dụng, kỹ thuật phân cụm giải tốt tất vấn đề trình phân cụm Trong khuôn khổ luận văn khảo sát bốn thuật tốn phân cụm tiêu biểu gồm có: phân cụm phân hoạch K-Means, phân cụm phân cấp Hierarchical Clustering, phân cụm theo mật độ DBSCAN, phân cụm mơ hình EM Trước hết luận văn trình bày cách tổng quan phân cụm liệu, xem xét, so sánh, đánh giá thuật toán Các thuật toán tiến hành phần mềm khái thác liệu Weka với liệu chuẩn Bank.arff Glass.arff Tiêu chí so sánh thuật toán thời gian thực hiện, chất lượng cụm độ đồng cụm Cấu trúc luận văn gồm chương: Chương 1: Tổng quan phân cụm liệu: chương trình bày cách tổng quan kiến thức phân cụm liệu Chương 2: Một số thuật toán phân cụm liệu tiêu biểu: chương sâu vào tìm hiểu bốn thuật tốn phân cụm liệu K-Means, HC, EM DBSCAN Chương 3: So sánh số thuật toán phân cụm liệu: chương giới thiệu phần mềm Weka liệu gốc Bank.arff Glass.arff Từ tiến hành thử nghiệm với thuật toán phân cụm nhằm mục đích so sánh, đánh giá thuật tốn phân cụm CHƯƠNG 1: TỔNG QUAN VỀ PHÂN CỤM DỮ LIỆU 1.1 Khái niệm phân cụm liệu Phân cụm hành vi nguyên thủy người nhằm nắm giữ lượng thông tin khổng lồ họ nhận ngày xử lý thông tin thực thể đơn lẻ Phân cụm kỹ thuật sử dụng để kết hợp đối tượng quan sát thành cụm cho cụm có số đặc điểm tương đồng số đặc điểm xét Ngược lại đối tượng nhóm khác độ tương đồng khác (ít tương đồng hơn) số đặc điểm xét 1.2 Ứng dụng phân cụm liệu Phân cụm liệu sử dụng lượng lớn ứng dụng cho loạt chủ đề, lĩnh vực khác phân đoạn ảnh, nhận dạng đối tượng, ký tự chuyên ngành cổ điển tâm lý học, kinh doanh, v.v Một số ứng dụng phân cụm liệu bao gồm: - Thương mại - Sinh học - Phân tích liệu khơng gian - Lập quy hoạch đô thị - Địa lý - Khai phá Web - … 1.3 Các yêu cầu kỹ thuật phân cụm liệu Việc xây dựng, lựa chọn thuật toán phân cụm bước then chốt cho việc giải vấn đề phân cụm Sự lựa chọn phụ thuộc vào đặc tính liệu cần phân cụm, mục đích ứng dụng thực tế xác định độ ưu tiên chất lượng cụm hay tốc độ thực thuật toán Hầu hết nghiên cứu phát triển thuật toán phân cụm liệu nhằm thỏa mãn yêu cầu gồm có: - Có khả mở rộng - Thích nghi với kiểu liệu khác - Khám phá cụm với hình thức - Ít nhạy cảm với thứ tự liệu vào - Khả giải liệu nhiễu - Ít nhạy cảm với tham số đầu vào - Thích nghi với liệu đa chiều - Dễ hiểu, dễ cài đặt khả thi 1.4 Một số kỹ thuật phân cụm liệu Các kỹ thuật có nhiều cách tiếp cận ứng dụng thực tế, lại hướng đến hai mục tiêu chất lượng cụm tìm tốc độ thực thuật toán 1.4.1 Phương pháp phân cụm theo phân hoạch Ý tưởng kỹ thuật phân hoạch tập hợp liệu có n phần tử cho trước thành k nhóm liệu phần tử liệu thuộc nhóm liệu có tối thiểu phần tử liệu Số cụm thiết lập đặc trưng lựa chọn trước Phương pháp tốt cho việc tìm cụm hình cầu khơng gian Euclidean Ngồi ra, phương pháp phụ thuộc vào khoảng cách điểm để lựa chọn điểm liệu có quan hệ gần với điểm khác điểm liệu khơng có quan hệ có quan hệ xa so với điểm khác 1.4.2 Phương pháp phân cụm theo phân cấp Phương pháp xây dựng phân cấp sở đối tượng liệu xem xét Nghĩa xếp tập liệu cho thành cấu trúc có dạng hình cây, phân cấp xây dựng theo kỹ thuật đệ quy Cây phân cụm xây dựng theo hai phương pháp sau: hịa nhập nhóm, thường gọi tiếp cận từ lên phân chia nhóm, thường gọi tiếp cận từ xuống 1.4.3 Phương pháp phân cụm theo mật độ Phương pháp nhóm đối tượng theo hàm mật độ xác định Mật độ xác định định nghĩa số đối tượng lân cận đối tượng liệu theo ngưỡng 1.4.4 Phương pháp phân cụm lưới Kỹ thuật phân cụm dựa mật độ khơng thích hợp với liệu nhiều chiều, để giải cho đòi hỏi này, người ta sử dụng phương pháp phân cụm dựa lưới Đây phương pháp dựa cấu trúc liệu lưới để phân cụm liệu, phương pháp chủ yếu tập trung áp dụng cho lớp liệu không gian Thí dụ liệu biểu diễn dạng cấu trúc hình học đối tượng khơng gian với quan hệ, thuộc tính, hoạt động chúng 1.4.5 Phương pháp phân cụm dựa mơ hình Phương pháp cố gắng khám phá phép xấp xỉ tốt tham số mô hình cho khớp với liệu cách tốt Chúng sử dụng chiến lược phân cụm phân hoạch phân cụm phân cấp, dựa cấu trúc mơ hình mà chúng giả định tập liệu cách chúng hiệu chỉnh mơ hình để nhận dạng phân hoạch 1.4.6 Phương pháp phân cụm có liệu ràng buộc Hiện phương pháp phân cụm phát triển áp dụng nhiều lĩnh vực khác có số nhánh nghiên cứu phát triển sở phương pháp như: - Phân cụm thống kê - Phân cụm khái niệm - Phân cụm mờ 1.5 Kết luận Chương trình bày khái niệm phân cụm liệu Trong toán phân cụm liệu trình bày những ứng dụng, yêu cầu bản, kỹ thuật phân cụm liệu Chương sau sâu thuật toán phân cụm liệu từ cài đặt thuật toán phân cụm liệu vào chương CHƯƠNG 2: MỘT SỐ THUẬT TOÁN PHÂN CỤM DỮ LIỆU TIÊU BIỂU 2.1 Thuật toán phân cụm K-Means Phân cụm dựa phân nhóm liệu thường cố gắng tạo k phân chia liệu từ sở liệu gồm n đối tượng, cụm tối ưu tiêu chuẩn phân cụm, chẳng hạn cực tiểu hóa tổng bình phương khoảng cách từ tâm cụm Trong phần luận văn sâu tìm hiểu thuật tốn K-Means 2.1.1 Ý tưởng Thuật toán K-Means đề xuất MacQueen thuật tốn học khơng giám sát thơng dụng phân nhóm liệu Với mục tiêu chia tập gồm n đối tượng sở liệu thành k cụm ( k ≤ n , k số nguyên, dương) cho đối tượng vùng có khoảng cách bé cịn đối tượng khác vùng có khoảng cách lớn nhiều 2.1.2 Thuật tốn Đầu tiên, xác định K tâm cụm, K tham số mà người dùng đưa vào Với x = {x1 , x , , x N } tập liệu đầu vào C = {C1 , C , , C K } tập K tâm cụm Đầu vào: X = {x1 , x , , x N } (Tập liệu đầu vào) K (Số lượng tâm cụm) MaxIters (Số vòng lặp tối đa) Đầu ra: C = {c1 , c , , c K }(Tập cụm) 2.1.3 Độ phức tạp thuật tốn Thuật tốn K-Means có độ phức tạp theo thời gian O(n × k × l ) 2.1.4 Ưu nhược điểm Ưu điểm thuật toán phương pháp đơn giản, hiệu quả, tự tổ chức Nhược điểm thuật toán số cụm k phải xác định trước, áp dụng xác định giá trị trung bình, khơng thể xử lý nhiễu, khơng thích hợp nhằm khám phá dạng khơng lồi hay cụm có kích thước khác nhau, thuật tốn độc lập tuyến tính 2.2 Phân cụm phân cấp (Hierarchical Clustering) 2.2.1 Ý tưởng Phân cụm phân cấp xếp tập liệu cho thành cấu trúc có hình dạng Cây phân cụm xây dựng theo hai phương pháp tổng quát phương pháp phân cấp từ xuống phương pháp phân cấp vun đống từ lên 2.2.2 Thuật toán Đối với phương pháp phân cụm phân cấp từ lên giải thuật mô tả sau, với x = {x1 , x , , x N } tập đối tượng Gọi C = {c1 , c , , c K } tập cụm với μ i tâm cụm cụm ci ni số đối tượng cụm ci Ma trận D N × N gọi ma trận khoảng cách với Di× j = d (ci , c j ) Thuât toán ban đầu gán đối tượng cụm chẳn hạn có N đối tượng có N cụm Sau tiến hành hai cụm gần lại số cụm cịn lại dừng lại Chúng ta sử dụng mảng hai chiều μ N× N để lưu tâm cụm Đầu vào: X = {x1 , x , , x N } (Tập liệu đầu vào) Đầu ra: Các tâm cụm đối tượng thuộc cụm Mã giả thuật toán phân cụm phân cấp từ lên C ← initCluster () // Khởi tạo với cụm D ←initMatricDistance(C) // Khởi tạo ma trận khoảng cách repeat (C p , C p′ ) ←caculatorDistanceMin(D); //Tính tốn cặp cụm cần gom C ← merge (C p , C p′ ) // Nhóm hai cụm C p , C p′ với D ← updateMatricDistance(C); // Cập nhật ma trận khoảng cách until (length(C)>1) Ngược lại phân cụm phân cấp từ xuống thuật toán phân cụm từ xuống chọn cụm cần phân tách, sau với cụm chọn phân tách cụm thành hai cụm dựa vào độ đo tương đồng hai cụm Đến khơng cịn cụm cịn tách dừng lại 2.2.3 Độ phức tạp thuật tốn Để tính tốn ma trận khoảng cách độ phức tạp tính tốn O(n ) Sau bước số lượng tâm cụm giảm ( n − ) , vị trí gom cụm vị trí thứ i cần O ( (m − i − 1) ) để cập nhật hai cụm lại thành Để cập nhật ma trận khoảng cách cần O ( m − i − 1) Nói tóm lại độ phức tạp tính tốn thuật toán O ( m3 ) , liệu độ tương đồng cụm xếp độ phức tạp tính tốn O ( n log n ) 2.2.4 Ưu nhược điểm Ưu điểm thuật toán phương pháp phân cụm đơn giản, mềm dẻo, linh hoạt, dễ cài đặt, so với phương pháp k-means số cụm không cần biết trước Các cụm sinh thường thể tốt phân bố liệu đầu vào, nhiên lại gặp phải vấn đề độ phức tạp tính tốn cao O ( n3 ) (có thể tối ưu O ( n log n ) ) với n số đối tượng cần phân cụm Vì lý đó, việc áp dụng trực tiếp phương pháp với tập liệu đầu vào lớn không khả 2.3 Phân cụm theo mật độ DBSCAN 2.3.1 Ý tưởng Ý tưởng phân cụm dựa mật độ sau: Đối với đối tượng cụm, láng giềng bán kính cho trước ( Eps ) phải chứa số lượng tối thiểu đối tượng ( MinPts ) Thuật toán DBSCAN gom cụm đối tượng sở liệu không gian ứng với thông số Eps, MinPts cho trước, DBSCAN xác định cụm thông qua bước: 1) Chọn đối tượng thỏa mãn điều kiện đối tượng lõi làm đối tuợng hạt giống; 2) Tìm đối tượng tới đuợc theo mật độ từ đối tượng hạt giống 2.3.2 Thuật toán Thuật toán phân cụm liệu dựa DBSCAN kiểm sốt thơng số Eps điểm liệu Nếu số Eps điểm p chứa nhiều MinPts cụm với điểm p nòng cốt thiết lập Sau lặp lại việc tập hợp đối tượng trực tiếp từ đối tượng nịng cốt Thuật tốn dừng khơng cịn điểm thêm vào cụm 2.3.3 Độ phức tạp thuật toán Độ phức tạp thuật tốn DBSCAN O(n × thời gian tìm đối tượng Eps ) Trong n số đối tượng cần phân cụm Trong trường hợp xấu độ phức tạp O(n ) 2.3.4 Ưu nhược điểm Thuật toán DBSCAN khắc phục vấn đề độ phức tạp tính tốn cao liệu nhiễu Nhưng để tìm cụm đối tượng người ta phải chọn tham số Eps MinPts để tìm cụm xác Các thiết lập tham số thường khó xác định, đặc biệt giới thực, thiết lập có khác biệt nhỏ dẫn đến phân chia cụm khác 2.4 Phân cụm mơ hình EM 2.4.1 Ý tưởng Thuật toán phân cụm EM Dempster, Laird Rubin cơng bố năm 1977 Thuật tốn tìm ước lượng vể khả lớn tham số mơ hình xác suất Nó xem thuật tốn dựa mơ hình mở rộng thuật toán k-means Thuật toán EM gán đối tượng cho cụm liệu cho theo xác suất phân phối thành phần đối tượng Phân phối xác suất thường sử dụng phân phối Gaussian với mục 10 CHƯƠNG 3: SO SÁNH MỘT SỐ THUẬT TOÁN PHÂN CỤM DỮ LIỆU 3.1 Phần mềm sử dụng WEKA 3.1.1 Giới thiệu Weka lịch sử phát triển - Weka phần mềm khai phá liệu nhà khoa học thuộc trường Đại học Waikato, New Zealand khởi xướng xây dựng Weka phần mềm mã nguồn mở, với mục tiêu xây dựng công cụ đại nhằm phát triển kỹ thuật học máy áp dụng chúng vào toán khai thác liệu thực tế Weka cung cấp nhiều giải thuật khác với nhiều phương thức cho trình xử lý để ước lượng kết sơ đồ cho liệu 3.1.2 Các chức chính, thuật tốn, liệu WEKA - Chức + Khảo sát liệu + Thực nghiệm mơ hình + Biểu diễn trực quan liệu nhiều dạng đồ thị khác - Cung cấp nhiều thuật toán phân lớp, gom thành nhóm dựa sở lý thuyết chức - Cung cấp thuật tốn gom nhóm phổ biến: DBSCAN, EM, K-Means - Cung cấp thuật toán khai thác luật kết hợp: Apriori, PredictiveApriori - Dữ liệu nhập vào từ tập tin có khn dạng: ARFF, CSV đọc vào từ địa URL, từ sở liệu thơng qua JDBC 3.1.3 Mơi trường - Explorer: Môi trường cho phép sử dụng tất khả WEKA để khám phá liệu 11 - Experimenter: Môi trường cho phép tiến hành thí nghiệm thực kiểm tra thống kê mơ hình học máy - KnowledgeFlow: Mơi trường cho phép bạn tương tác đồ họa kiểu kéo/thả để thiết kế bước (các thành phần) thí nghiệm - Simple CLI Giao diện đơn giản kiểu dịng lệnh (như MS-DOS) Hình 3.1: Giao diện khởi đầu WEKA 3.2 Giới thiệu liệu gốc WEKA Bộ liệu sử dụng để phân cụm luận văn liệu chuẩn Bank.arff Glass.arff phần mềm Weka Bảng 3.1: Số thuộc tính đối tượng liệu Bộ liệu Số thuộc tính Số đối tượng Bank.arff 11 600 Glass.arff 10 214 Tệp liệu Bank.arff Như giới thiệu khuôn dạng tệp arff, luận văn phân tích liệu Bank.arff có 11 thuộc tính 600 khách hàng gồm có ba phần: - Phần định nghĩa quan hệ: @relation bank => Định nghĩa mối quan hệ ngân hàng (bank) - Phần định nghĩa thuộc tính: 12 Hình 3.2: Dữ liệu file Bank.arff 13 Hình 3.3: Phân bố liệu Bank.arff theo thuộc tính Tệp liệu Glass.arff Tương tự liệu Bank.arff, liệu Glass.arff thể liệu loại cốc thủy tinh Dữ liệu gồm 10 thuộc tính với 214 ghi Cụ thể: - Thuộc tính RI thể số khúc xạ từ 1.5112 đến 1.5339 - Thuộc tính Na: Phần trăm hàm lượng Natri cốc, từ 10.73 đến 17.38 - Thuộc tính Mg: Phần trăm hàm lượng Magie cốc, từ đến 4.49 - Thuộc tính Al: Phần trăm hàm lượng Nhôm cốc, từ 0.29 đến 3.5 - Thuộc tính Si: Phần trăm hàm lượng Silic cốc, từ 69.81 đến 75.41 - Thuộc tính K: Phần trăm hàm lượng Kali cốc, từ đến 6.21 - Thuộc tính Ca: Phần trăm hàm lượng Canxi cốc, từ 5.43 đến 16.19 - Thuộc tính Ba: Phần trăm hàm lượng Bari cốc, từ đến 3.15 - Thuộc tính Fe: Phần trăm hàm lượng Magie cốc, từ đến 4.49 14 - Thuộc tính Type: Thể kiểu loại cốc đó, gồm giá trị: 'build wind float', 'build wind non-float', 'vehic wind float', 'vehic wind non-float', containers, tableware, headlamps 3.3 So sánh đánh giá kết 3.3.1 Đánh giá kết thuật tốn riêng rẽ Để kiểm tra độ xác việc phân cụm, luận văn sử dụng thuộc tính cuối liệu để kiểm tra Thuộc tính cuối thuộc tính phân lớp mẫu có sẵn liệu Để sử dụng chức kiểm tra độ xác này, luận văn thực thao tác chọn chức classes to clusters evaluation vịng trịn đỏ hình 3.4 đây: Hình 3.4: Chọn thuộc tính kiểm tra phân cụm - Thuật tốn DBSCAN: đầu vào thuật toán DBSCAN bao gồm hai tham số Eps MinPts Luận văn tiến hành thực nghiệm với giá trị hai tham số Eps MinPts thay đổi để tìm tham số tốt cho toán 15 Bảng 3.2: Dữ liệu Bank.arff chạy thuật toán DBSCAN STT Tham số Eps MinPts Số cụm Số điểm Số điểm không Độ Thời phân phân cụm xác gian 0.1 -> 1 543 600 1.2% 2.08 0.1 -> 532 126 474 1,2% 2.17 0.1 -> 58 126 474 1,2% 2.31 0.1 -> 26 574 1,2% 2.19 0.1 -> 5 595 0,7% 2.3 1.1->1.4 1 595 0,7% 2.55 1.1->1.4 105 600 43,5% 2.28 1.1->1.4 26 521 79 43,5% 2.7 1.1->1.4 376 224 43,5% 2.32 10 1.1->1.4 448 152 42,0% 2.18 11 1.1->1.4 407 193 39,7% 2.22 12 1.1->1.4 359 241 36,3% 2.27 13 1.1->1.4 299 301 29,3% 2.29 14 1.1->1.4 230 370 25,2% 2.23 15 1.1->1.4 10 198 402 22,7% 2.26 16 1.5->1.7 174 426 20,8% 2.28 17 1.5->1.7 2,3 532 126 474 1,2% 2.19 18 1.5->1.7 58 126 474 1,2% 2.2 19 1.5->1.7 26 574 1,2% 2.21 20 1.5->1.7 595 0,7% 2.19 21 1.5->1.7 595 0,7% 2.34 22 1.5->1.7 105 600 43,5% 2.27 23 1.5->1.7 26 521 79 43,5% 2.31 24 1.5->1.7 10 376 224 43,5% 2.25 25 > 1.7 1-10 448 152 42,0% 2.21 Từ bảng liệu 3.2 nhận thấy, với tham số Eps từ 0.1 đến thuật tốn DBSCAN với liệu phân cụm khơng tốt Khi tăng giá trị Eps lên khoảng từ 1.1 đến 1.4 kết phân cụm tốt thuật toán với liệu Bank.arff 16 Tiếp tục thực nghiệm với việc tăng giá trị Eps từ 1.5 trở độ xác thuật toán với liệu giữ nguyên mức 43.5% thấp với việc xuất nhiều phần tử không phân cụm Tương tự vậy, luận văn tiến hành thực nghiệm với liệu Glass.arff Bảng 3.3 cho thấy kết đầu tốt 19 cụm với 214 điểm liệu phân cụm, đạt độ xác cao 36.4% Bảng 3.3: Dữ liệu Glass.arff chạy thuật toán DBSCAN STT Tham số Eps MinPts Số Số điểm Số điểm khơng Độ cụm phân phân cụm xác Thời gian 0.1 103 214 22% 0.27 0.1 17 128 86 21.9% 0.36 0.1 10 114 100 21% 0.34 0.1 72 142 7.5% 0.35 0.1 60 154 7% 0.23 0.1 55 159 7.5% 0.24 0.1 49 165 5.1% 0.35 0.1 >= 48 166 6.5% 0.24 0.5 19 214 36.4% 0.23 10 0.5 203 11 33.2% 0.36 11 0.5 >= 199 15 31.3% 0.23 12 1.1 214 36% 0.28 13 1.1 2 213 36% 0.28 14 1.1 3-10 214 36.4% 0.28 15 >1.2 1-10 214 35.5% 0.28 - Thuật toán K-Means: Trong Weka, thuật toán Simple K-means hỗ trợ hai hàm để đo khoảng cách điểm hàm Euclidean, Manhattan Trong thực nghiệm luận văn sử dụng hàm Euclidean Tham số seed sử dụng để sinh số ngẫu nhiên chọn tâm cụm ban đầu để khởi tạo thuật toán Trong thuật toán luận văn sử dụng số seed cố định thay đổi số cụm 17 Bảng 3.4: Kết thuật toán Kmeans với hai liệu Dữ liệu Bank.arff Glass.arff Bình Độ Thời Bình Độ Thời phương sai gian phương sai gian số xác (s) số xác (s) 2280 53.5% 0.06 49.95 37% 0.06 2161 44.3% 0.02 29.14 48% 0.03 2051 39% 0.22 26.95 43.6% 0.03 1971 35.1% 0.06 24.99 41.1% 0.03 1886 29.3% 0.06 19.77 45% 0.07 1791 24% 0.1 18.97 49.1% 0.05 1754 22.5% 0.06 17.99 42% 0.1 1714 20.7% 0.05 17.03 40.7% 0.12 10 1627 18.7% 0.08 15.91 41.2% 0.07 11 1598 18% 0.07 14.38 44% 0.15 12 1543 17% 0.07 13.57 43.5% 0.12 13 1519 17% 0.05 11.85 40% 0.06 Số cụm Đối với liệu Bank.arff kết tốt phân cụm liệu Glass.arff số cụm phân chia cho độ xác tốt cụm - Thuật toán EM: EM thuật toán quan trọng khai phá liệu Chúng ta sử dụng thuật toán khơng hài lịng với kết thuật toán K-Means Bản chất thuật toán EM thuật tốn lặp nhằm tìm độ đo likelihood lớn tối đa ước 18 tính thơng số mơ hình thống kê, nơi mơ hình phụ thuộc vào biến tiềm ẩn không quan sát Hình 3.5: Đầu vào thuật tốn EM weka Đối với thuật toán EM, luận văn sử dụng số seed 10, số cụm thay đổi, tham số minStdDev = 1.0E-6, maxIterations = 100 Tiến hành thực nghiệm thuật tốn EM Weka với tham số hình 3.5 thu bảng liệu sau: 19 Bảng 3.5: Kết chạy thuật toán EM với hai liệu Bank.arff Số cụm Glass.arff Likelihood Độ xác Thời gian Likelihood Độ xác Thời gian -8.1917 57.7% 0.53 -0.05201 43% 0.16 -8.091 47.3% 0.66 0.8598 46.7% 0.27 -8.0702 41.3% 0.68 0.7964 49.1% 0.23 -8.0553 28.5% 1.03 4.7094 44.9% 0.42 -8.0418 26.3% 1.67 2.7192 44.9% 0.38 -8.0296 24.9% 1.71 3.4097 44% 0.37 -8.0174 31.3% 1.75 6.6514 44.9% 0.4 -8.0219 22.5% 1.72 3.8852 41.6% 0.45 10 -8.0039 29.7% 2.03 4.3839 42.1% 0.5 11 -7.9863 22% 2.19 4.8702 37% 0.49 12 -7.9878 20.5% 1.76 5.0066 42% 0.54 13 -7.9866 19% 2.55 5.6651 40% 0.71 Từ bảng 3.5 nhận thấy, liệu Bank.arff, số cụm tăng lên giá trị likelihood tăng theo Tuy nhiên liệu Glass.arff điều lại khơng 10 5 ‐5 ‐10 Bank.arff Glass.arff 10 11 12 13 20 Hình 3.6: Biểu đồ giá trị likelihood với số cụm khác So sánh với độ xác phân lớp số cụm cho giá trị likelihood tốt chưa cho giá trị độ xác tốt Độ xác tốt liệu Bank.arff tốt cụm 57.7% liệu Glass.arff cụm với độ xác 49.1% - Thuật tốn Hierarchical Clustering (HC): Đây kỹ thuật phân cụm theo thứ bậc Đầu vào thuật toán bao gồm số cụm cần phân, hàm khoảng cách, kiểu liên kết Với hàm khoảng cách, luận văn sử dụng hàm khoảng cách Euclidean, kiểu liên kết luận văn sử dụng kiểu liên kết khác để đánh giá thuật tốn Các kiểu liên kết Weka gồm có: kiểu Single, complete, average, mean, centroid, ward, adjcomplete, neighbor_joining Tuy nhiên số kiểu liên kết trên, kiểu single, complete, average centroid dùng nhiều Các tham số đầu vào thuật toán lựa chọn thông qua hộp hội thoại phần mềm Weka hình 3.11 Hình 3.11: Đầu vào thuật toán Hierarchical Clusterer 21 Bảng 3.6: Kết thực nghiệm thuật toán HC với liệu Glass.arff: Liên kết Single (s) Complete (s) Average (s) Centroid (s) 36.5% (0.34) 34.2% (0.25) 35.1% (0.23) 34.6% (0.37) 36% (0.42) 45.4% (0.22) 36% (0.5) 35.6% (0.61) 36.5% (0.36) 45.8% (0.27) 36.5% (0.23) 35.6% (0.37) 36.5% (0.39) 49.1% (0.27) 35.6% (0.25) 36% (0.28) 37% (0.29) 50.5% (0.23) 45.8% (0.23) 36.5% (0.31) 36.5% (0.31) 50.5% (0.27) 45.4% (0.25) 36.5% (0.28) 36.5% (0.33) 50.5% (0.25) 45.4% (0.19) 44.9% (0.34) 36.5% (0.27) 49.6% (0.19) 44.9% (0.23) 44.9% (0.28) 10 36.5% (0.3) 49.1% (0.19) 44.9% (0.23) 44.4% (0.3) 11 36.5% (0.38) 45.8% (0.2) 47.7% (0.28) 44.4% (0.33) 12 36% (0.32) 44.9% (0.16) 48.2% (0 2) 44.9% (0.36) 13 36% (0.27) 44.9% (0.23) 48.7% (0.2) 44.9% (0.58) Số cụm Bảng 3.6 thể kết chạy thuật toán HC với liệu Glass.arff Nhìn chung chất lượng cụm bốn kiểu liên kết với số cụm khác biến động không lớn 60 50 40 30 20 10 single complete 10 average 11 12 13 centroid Hình 3.12: So sánh chất lượng cụm với kiểu liên kết liệu Glass.arff 22 Hình 3.12 liệu này, kiểu liên kết single tỏ khơng hiệu ba kiểu liên kết cịn lại Bảng 3.7: Kết thực nghiệm thuật toán HC với liệu Bank.arff: Liên kết Single (s) Complete (s) Average (s) Centroid (s) 54.2% (2.12) 54.5% (0.7) 51.9% (0.64) 54.5% (1.78) 54.4% (2.04) 47.6% (0.73) 44.5% (0.62) 54.5% (1.56) 54.4% (1.79) 39.4% (0.89) 40.7% (0.61) 55.5% (1.93) 54% (2.12) 23% (0.75) 40.7% (0.75) 55.2% (1.61) 54% (2.27) 28% (0.7) 37.5% (0.64) 54.9% (1.45) 54% (2) 25.5% (0.89) 33.2% (0.58) 54.9% (1.31) 53.9% (2.05) 25.5% (0.72) 33.2% (0.58) 54.9% (1.31) 53.9% (2.22) 19.5% (0.72) 24.7% (0.59) 54.9% (1.26) 10 53.7% (2) 16.4% (0.73) 24.7% (0.58) 52.7% (1.2) 11 53.5% (1.95) 16.4% (0.72) 22.2% (0.57) 52.7% (1.26) 12 53.5% (2.02) 16.4% (0.72) 22.2% (0.68) 47.4% (1.19) 13 53.2% (2.2) 11.9% (0.67) 22.2% (0.59) 44% (1.19) Số cụm 60 50 40 30 20 10 single complete 10 11 12 13 average centroid 23 Hình 3.13: So sánh chất lượng cụm với kiểu liên kết liệu Bank.arff 3.3.1 So sánh đánh giá kết bốn thuật toán Sau đánh giá riêng rẽ thuật toán, luận văn tiến hành đánh giá bốn thuật toán với Tiêu chí đánh giá bốn thuật tốn độ xác thuật tốn so với thuộc tính phân loại thời gian thực thuật toán Về độ xác, luận văn chọn kết phân cụm cho độ xác tốt thuật toán làm giá trị để so sánh Các kết chạy bốn thuật toán thể bảng 3.8 Bảng 3.8: Kết thực nghiệm bốn thuật toán hai liệu: Thuật toán DBSCAN EM KMEANS HC Độ xác 43.5% 57.7% 53.5% 55.5% Số cụm 105 2 Thời gian (s) 2.28 0.53 0.06 1.93 Độ xác 36.4% 49.1% 49.1% 50.5% Số cụm 19 6,7,8 Thời gian (s) 0.23 0.23 0.05 0.25 Bank.arff Glass.arff Rõ ràng với hai liệu này, thuật toán DBSCAN tỏ yếu so với ba thuật tốn cịn lại Thuật tốn KMEANS cho thời gian chạy nhanh nhiên thuật toán EM lại cho độ xác tốt liệu Bank.arff thuật toán HC cho kết phân cụm với chất lượng cụm tốt liệu Glass.arff 3.4 Kết luận Chương trình bày phần mềm Weka, liệu sử dụng số thực nghiệm bốn thuật toán đề xuất K-Means, EM, Hierarchical Clusterer, DBSCAN Đồng thời chương giới thiệu liệu Bank.arff Glass.arff liệu mẫu chuẩn phần mềm Weka Tiếp đó, luận văn tiến hành chạy thực nghiệm đánh giá độ hiệu bốn thuật toán Kết thực nghiệm cho thấy thuật toán DBSCAN cho kết phân cụm chậm nhất, thuật toán K-Means cho kết phân cụm nhanh Tuy nhiên thuật tốn cho độ xác phân cụm hay chất lượng cụm tốt lại thuộc thuật toán EM với liệu Bank.arff thuật toán HC với liệu Glass.arff 24 KẾT LUẬN Khai phá liệu đặc biệt phân cụm liệu ngày đóng vai trị quan trọng ứng dụng ngày thương mại điện tử, ngân hàng, bảo hiểm, chứng khoán, v.v Phân cụm liệu nhằm mục tiêu gom đối tượng tương đồng vào nhóm để từ phục vụ rút trích tri thức cho hệ hỗ trợ định sau Nội dung luận văn tập trung vào tìm hiểu kiến thức phân cụm liệu sâu vào tìm hiểu, thực nghiệm phân cụm dựa công cụ khai phá liệu mã nguồn mở sử dụng phổ biến Weka để tiến hành so sánh đánh giá thuật toán với Luận văn đạt số kết sau đây: • Luận văn trình bày tổng quan phân cụm liệu với khái niệm, ứng dụng số phương pháp phân cụm liệu • Khảo sát bốn thuật toán toán phân cụm liệu sử dụng thuật tốn K-Means, DBSCAN, EM, Hierarchical Clusterer Các thuật toán trình bày chi tiết từ ý tưởng, thuật tốn đến độ phức tạp ưu nhược điểm • Luận văn tiến hành thực nghiệm chạy thuật toán phần mềm Weka cho hai liệu mẫu Bank.arff Glass.arff Các kết thu cho thấy thuật tốn K-Means cho tốc độ tính tốn nhanh song thuật toán cho chất lượng cụm tốt lại thuộc EM với liệu Bank.arff HC với liệu Glass.arff Thuật toán DBSCAN tỏ hiệu hai liệu Hướng phát triển • Luận văn tiếp tục nghiên cứu số ứng dụng thuật tốn phân cụm Weka • Thực nghiệm tập liệu mới, lớn hơn, thực tế phân cụm liệu y tế, chứng khốn, tài v.v ... thuật toán phân cụm liệu từ cài đặt thuật tốn phân cụm liệu vào chương 5 CHƯƠNG 2: MỘT SỐ THUẬT TOÁN PHÂN CỤM DỮ LIỆU TIÊU BIỂU 2.1 Thuật toán phân cụm K-Means Phân cụm dựa phân nhóm liệu thường... bốn thuật toán phân cụm thuật toán K-Means, thuật toán Phân cụm phân cấp Hierarchical Clustering, thuật toán phân cụm theo mật độ DBSCAN, thuật toán phân cấp theo mơ hình EM 10 CHƯƠNG 3: SO SÁNH... hành thử nghiệm với thuật tốn phân cụm nhằm mục đích so sánh, đánh giá thuật toán phân cụm 2 CHƯƠNG 1: TỔNG QUAN VỀ PHÂN CỤM DỮ LIỆU 1.1 Khái niệm phân cụm liệu Phân cụm hành vi nguyên thủy người