Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 62 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
62
Dung lượng
1,88 MB
Nội dung
BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC NHA TRANG BÙI THỊ KIM KHÁNH SO SÁNH BA THUẬT TOÁN ELBOW, AVERAGE SILHOUETTE, GAP STATISTIC XÁC ĐỊNH SỐ PHÂN CỤM TỐI ƯU LUẬN VĂN THẠC SĨ KHÁNH HÒA – 2020 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC NHA TRANG BÙI THỊ KIM KHÁNH SO SÁNH BA THUẬT TOÁN ELBOW, AVERAGE SILHOUETTE, GAP STATISTIC XÁC ĐỊNH SỐ PHÂN CỤM TỐI ƯU LUẬN VĂN THẠC SĨ Ngành: Mã số: Quyết định giao đề tài: Quyết định thành lập HĐ: Ngày bảo vệ: Người hướng dẫn khoa học: TS NGUYỄN ĐỨC THUẦN Chủ tịch hội đồng: TS ĐỖ NHƯ AN Khoa sau đại học: Công nghệ thông tin 8480201 565/QĐ – ĐHNT ngày 29/5/2019 499/QĐ – ĐHNT ngày 22/5/2020 07/06/2020 LỜI CAM ĐOAN Tôi xin cam đoan kết đề tài: “So sánh ba thuật toán Elbow, Average Silhouette, Gap Statistic xác định số phân cụm tối ưu” cơng trình nghiên cứu cá nhân tơi chưa cơng bố cơng trình khoa học khác thời điểm Khánh Hòa, ngày tháng 06 năm 2020 Tác giả luận văn (Ký ghi rõ họ tên) Bùi Thị Kim Khánh i LỜI CẢM ƠN Để hồn thành luận văn này, tơi nhận nhiều quan tâm tổ chức cá nhân Tơi xin tỏ lịng tri ân tạo điều kiện giúp đỡ tơi trình học tập nghiên cứu đề tài Trước hết xin gửi lời cảm ơn sâu sắc tới thầy cô Khoa Công nghệ thông tin, Trường Đại học Nha Trang Các thầy tận tình truyền đạt cho kiến thức kinh nghiệm quý báu Đặc biệt xin gửi lời cảm ơn chân thành tới thầy giáo – TS Nguyễn Đức Thuần tận tình hướng dẫn, cung cấp cho tơi nhiều kiến thức chun mơn để hồn thành luận văn: “So sánh ba thuật toán Elbow, Average Silhouette, Gap Statistic xác định số phân cụm tối ưu” Với thời gian khả có hạn, luận văn khơng thể tránh khỏi thiếu sót Tơi mong nhận bảo, đóng góp ý kiến thầy để tơi có điều kiện bổ sung, hồn thiện luận văn tốt Tôi xin chân thành cảm ơn! Khánh Hòa, ngày tháng 06 năm 2020 Tác giả luận văn (Ký ghi rõ họ tên) Bùi Thị Kim Khánh ii MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN ii MỤC LỤC iii DANH MỤC BẢNG vi DANH MỤC HÌNH VẼ, ĐỒ THỊ vii TRÍCH YẾU LUẬN VĂN ix CHƯƠNG GIỚI THIỆU 1.1 Lý chọn đề tài .1 1.2 Mục tiêu đối tượng nghiên cứu 1.3 Phạm vi nghiên cứu 1.4 Cấu trúc luận văn .1 CHƯƠNG TỔNG QUAN VỀ PHÂN CỤM VÀ MỘT SỐ PHƯƠNG PHÁP PHÂN CỤM DỮ LIỆU 2.1 Khái niệm mục tiêu phân cụm liệu 2.1.1 Phân cụm liệu gì? 2.1.2 Mục tiêu phân cụm liệu 2.2 Các ứng dụng phân cụm liệu 2.3 Các yêu cầu vấn đề tồn phân cụm liệu 2.3.1 Các yêu cầu phân cụm liệu .7 2.3.2 Những vấn đề tồn phân cụm liệu 2.4 Những kỹ thuật tiếp cận phân cụm liệu 2.4.1 Phương pháp phân cụm phân hoạch (Partitioning Methods) .9 2.4.2 Phương pháp phân cụm phân cấp (Hierarchical Methods) iii 2.4.3 Phương pháp phân cụm dựa mật độ (Density-Based Methods)11 2.4.4 Phương pháp phân cụm dựa lưới (Grid-Based Methods) 11 2.4.5 Phương pháp phân cụm dựa mơ hình (Model-Based Clustering Methods) 2.4.6 Methods) 12 Phương pháp phân cụm có liệu ràng buộc (Binding data Clustering 13 2.5 Một số khái niệm cần thiết tiếp cận phân cụm liệu 14 2.5.1 Độ đo khoảng cách kiểu liệu 14 2.5.2 Cấu trúc liệu 18 2.6 Giới thiệu ngôn ngữ R 18 CHƯƠNG KIẾN THỨC CƠ SỞ THUẬT TOÁN ELBOW, AVERAGE SILHOUETTE, GAP STATISTIC 20 3.1 Giới thiệu .20 3.2 Thuật toán Elbow 20 3.2.1 Ý tưởng thuật toán 20 3.2.2 Mô tả thuật toán 21 3.3 Thuật toán Average silhouette .22 3.3.1 Ý tưởng thuật toán 22 3.3.2 Mơ tả thuật tốn 23 3.4 Thuật toán Gap statistic 23 3.4.1 Ý tưởng thuật toán 23 3.4.2 Mô tả thuật toán 24 3.5 Những yếu tố ảnh hưởng đến chất lượng phân cụm liệu 25 3.5.1 Hệ số Silhouette 26 3.5.2 Chỉ số Dunn 28 iv CHƯƠNG THỰC NGHIỆM VÀ ĐÁNH GIÁ 29 4.1 Các liệu thử nghiệm .29 4.2 Ứng dụng ngôn ngữ R để phân cụm liệu 30 4.2.1 Các gói ngơn ngữ R hỗ trợ tính tốn số lượng phân cụm 30 4.2.2 Thử nghiệm kiểm tra, đánh giá trực quan tập liệu .32 4.3 Kết thực nghiệm đánh giá 34 4.3.1 Kết thực nghiệm 34 4.3.2 Đánh giá 41 4.4 So sánh thuật toán dựa vào thử nghiệm liệu 41 4.5 Kết luận 48 4.6 Hướng nghiên cứu 48 TÀI LIỆU THAM KHẢO 49 Tiếng việt 49 Tiếng Anh 49 v DANH MỤC BẢNG Bảng 2.1 Sự kiện cho biến nhị phân .16 Bảng 4.1 Các chức phân tích phân cụm trực quan hóa gói factoextra 31 Bảng 4.2 Dữ liệu ban đầu .33 Bảng 4.3 Dữ liệu sau chuẩn hóa .33 Bảng 4.4 Thời gian (giây) tìm số cụm tối ưu liệu thuật toán 46 Bảng 4.5 Đánh giá ưu nhược điểm ba thuật toán 47 vi DANH MỤC HÌNH VẼ, ĐỒ THỊ Hình 2.1 Dữ liệu rời rạc ban đầu Hình 2.2 Dữ liệu sau phân cụm Hình 2.3 Phân cụm ngơi nhà dựa khoảng cách .5 Hình 2.4 Phân cụm ngơi nhà dựa kích cỡ .6 Hình 2.5 Sơ đồ biểu diễn phân cụm phân cấp phương pháp bottom up 10 Hình 2.6 Sơ đồ biểu diễn phân cụm phân cấp phương pháp top down .10 Hình 3.1 Ví dụ thuật tốn Elbow thể rõ số cụm K 21 Hình 3.2 Ví dụ thuật tốn Elbow khơng thể rõ số cụm K 22 Hình 3.3 Ví dụ thuật toán Average Silhouette .23 Hình 3.4 Ví dụ thuật tốn Gap statistic 24 Hình 4.1 Số cụm k theo thuật toán Elbow 35 Hình 4.2 Số cụm k theo thuật tốn Silhouette 35 Hình 4.3 Số cụm k theo thuật toán Gap Statistic 35 Hình 4.4 Số cụm k tối ưu tập liệu WWWusage .36 Hình 4.5 Số cụm k theo thuật toán Elbow 37 Hình 4.6 Số cụm k theo thuật tốn Silhouette 37 Hình 4.7 Số cụm k theo thuật toán Gap Statistic 37 Hình 4.8 Số cụm k tối ưu tập liệu rock 38 Hình 4.9 Số cụm k theo thuật tốn Elbow 39 Hình 4.10 Số cụm k theo thuật toán Silhouette 39 Hình 4.11 Số cụm k theo thuật toán Gap Statistic 39 Hình 4.12 Số cụm k tối ưu tập liệu Quakes 40 Hình 4.13 Kết số cụm tối ưu liệu thuật tốn .41 vii Hình 4.14 So sánh ba phương pháp Elbow, Average Silhoutte Gap Statistic thông qua tập liệu sử dụng Internet phút (WWWusage) .44 Hình 4.15 So sánh ba phương pháp Elbow, Average Silhoutte Gap Statistic thông qua tập liệu phép đo mẫu đá dầu mỏ (rock) 45 Hình 4.15 So sánh ba phương pháp Elbow, Average Silhoutte Gap Statistic thông qua tập liệu vị trí trận động đất ngồi khơi Fiji (quakes) 45 viii Hình 4.4 Số cụm k tối ưu tập liệu WWWusage - đề xuất số cụm tốt - số đề xuất số cụm tốt - đề xuất số cụm tốt - 10 đề xuất số cụm tốt -… Theo quy tắc đa số, số cụm tốt 36 Tập liệu rock Hình 4.5 Số cụm k theo thuật tốn Elbow Hình 4.6 Số cụm k theo thuật tốn Silhouette Hình 4.7 Số cụm k theo thuật toán Gap Statistic - Phương pháp Elbow: đề xuất giải pháp cụm - Phương pháp Silhouette: đề xuất giải pháp cụm - Phương pháp Gap Statistic: đề xuất giải pháp cụm Theo quan sát này, định nghĩa k = số cụm tối ưu liệu Kết NbClust sử dụng hàm fviz_nbclust () [in factoextra], sau: 37 Hình 4.8 Số cụm k tối ưu tập liệu rock - đề xuất số cụm tốt - số đề xuất số cụm tốt - đề xuất số cụm tốt - đề xuất số cụm tốt -… Theo quy tắc đa số, số cụm tốt 38 Tập liệu quakes Hình 4.9 Số cụm k theo thuật tốn Elbow Hình 4.10 Số cụm k theo thuật tốn Silhouette Hình 4.11 Số cụm k theo thuật tốn Gap Statistic - Phương pháp Elbow: đề xuất giải pháp cụm - Phương pháp Silhouette: đề xuất giải pháp cụm - Phương pháp Gap Statistic: đề xuất giải pháp cụm Theo quan sát này, khó định nghĩa số cụm tối ưu liệu Kết NbClust sử dụng hàm fviz_nbclust () [in factoextra], sau: 39 Hình 4.12 Số cụm k tối ưu tập liệu Quakes - đề xuất số cụm tốt - số đề xuất số cụm tốt - đề xuất số cụm tốt - 10 đề xuất số cụm tốt -… Theo quy tắc đa số, số cụm tốt - Kết số cụm tối ưu liệu thuật tốn: 40 Hình 4.13 Kết số cụm tối ưu liệu thuật toán 4.3.2 Đánh giá Phương pháp Elbow: phương pháp trực quan để chọn k Bằng cách quan sát đồ thị chọn số cụm tối ưu k, khơng dễ tìm thấy k với liệu có WSS khơng thay đổi rõ ràng Phương pháp Average Silhoutte: Nhiều phương pháp đề xuất để tìm K thích hợp, phương pháp Average Silhoutte cung cấp giải pháp rõ ràng tự nhiên dựa khoảng cách đối tượng khoảng cách cụm Phương pháp Gap Statistic: Phương pháp Gap statistic, đề xuất Tobshirani et al cung cấp thuật toán dễ tìm thấy giá trị K xác trường hợp tổng quát 4.4 So sánh thuật toán dựa vào thử nghiệm liệu Sau trình bày cách tính phân cụm phân cấp, chúng tơi mơ tả, làm để so sánh hai dendrogram cách sử dụng gói dendextend R Gói dendextend cung cấp số chức để so sánh dendrograms Ở đây, tập trung vào hai chức năng: tanglegram() để so sánh trực quan hai dendrogram cor.dendlist() để tính tốn ma trận tương quan dendrograms sosanh