Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 133 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
133
Dung lượng
0,95 MB
Nội dung
Phân tích số liệu Clustering, Distance Methods, And Ordination Nhóm Giảng viên hướng dẫn: Th.s Lê Xuân Lý Viện Toán ứng dụng Tin học Đại học Bách Khoa Hà Nội Ngày 15 tháng năm 2022 Thành viên nhóm Ngơ Quốc Cường - 20185436 Phạm Bá Tồn - 20185413 Phạm Thành Cơng - 20185331 Nhóm (Phân tích số liệu) Clustering Ngày 15 tháng năm 2022 / 122 Nội dung Giới thiệu Khoảng cách hệ số tương ứng cho biến Các phương pháp tương tự Phương pháp phân cụm theo thứ bậc Phương pháp phân cụm không theo thứ bậc Phân cụm dựa mơ hình thống kê Thuật tốn chia tỷ lệ đa chiều Phân tích tương ứng Nhóm (Phân tích số liệu) Clustering Ngày 15 tháng năm 2022 / 122 Giới thiệu Nhóm (Phân tích số liệu) Clustering Ngày 15 tháng năm 2022 / 122 Giới thiệu Nội dung Giới thiệu Khoảng cách hệ số tương ứng cho biến Các phương pháp tương tự Phương pháp phân cụm theo thứ bậc Phương pháp phân cụm không theo thứ bậc Phân cụm dựa mơ hình thống kê Thuật toán chia tỷ lệ đa chiều Phân tích tương ứng Nhóm (Phân tích số liệu) Clustering Ngày 15 tháng năm 2022 / 122 Giới thiệu Khái niệm mục tiêu phân cụm liệu Phân cụm liệu Phân cụm liệu phân chia sở liệu lớn thành nhóm liệu với đối tượng tương tự Trong nhóm, số chi tiết khơng quan tâm đến để đổi lấy liệu đơn giản hóa Nhóm (Phân tích số liệu) Clustering Ngày 15 tháng năm 2022 / 122 Giới thiệu Khái niệm mục tiêu phân cụm liệu Phân cụm liệu Phân cụm liệu phân chia sở liệu lớn thành nhóm liệu với đối tượng tương tự Trong nhóm, số chi tiết khơng quan tâm đến để đổi lấy liệu đơn giản hóa Hiểu đơn giản: Phân cụm gom đối tượng liệu: Tương tự với đối tượng khác cụm Không tương tự với đối tượng cụm Nhóm (Phân tích số liệu) Clustering Ngày 15 tháng năm 2022 / 122 Giới thiệu Khái niệm mục tiêu phân cụm liệu Phân cụm liệu Ngồi phân cụm liệu cịn sử dụng bước tiền xử lí cho thuật tốn khai phá liệu khác phân loại mơ tả đặc điểm, có tác dụng việc phát cụm Ví dụ Nhóm (Phân tích số liệu) Clustering Ngày 15 tháng năm 2022 / 122 Giới thiệu Khái niệm mục tiêu phân cụm Mục tiêu phân cụm Mục tiêu phân cụm liệu để xác định nhóm nội bên liệu khơng có nhãn Chia đối tượng thành cụm “thuần nhất” phân biệt với nhau, tức nhóm đối tượng thỏa mãn điều sau: Độ tương tự đối tượng nhóm cao (tiêu chuẩn liên kết chặt) Các đối tượng nhóm khác phân biệt (tiêu chuẩn tách rời) -> Cần độ đo đánh giá độ tương tự hay độ khác biệt.(gọi hệ số tương tự nói chi tiết sau) Nhóm (Phân tích số liệu) Clustering Ngày 15 tháng năm 2022 / 122 Giới thiệu Khái niệm mục tiêu phân cụm Mục tiêu phân cụm Một vấn đề thường gặp phân cụm hầu hết liệu cần cho phân cụm có chứa liệu nhiễu q trình thu thập thiếu xác thiếu đầy đủ =⇒ Vì cần phải xây dựng chiến lược cho bước tiền xử lí liệu nhằm khắc phục loại bỏ nhiễu trước chuyển sang giai đoạn phân tích cụm liệu Nhóm (Phân tích số liệu) Clustering Ngày 15 tháng năm 2022 / 122 Phân tích tương ứng Khai triển tốn học phân tích tương ứng Các bước thực Bước Xây dựng ma trận tỉ lệ P = pij cách chia phần tử X cho n: x pij = nij ; i = 1, 2, I; j = 1, 2, J Với n tổng tần số P gọi ma trận tương ứng Nhóm (Phân tích số liệu) Clustering Ngày 15 tháng năm 2022 108 / 122 Phân tích tương ứng Khai triển tốn học phân tích tương ứng Bước Tính vector tổng hàng, tổng cột r, c ma trận đường chéo Dr Dc tương ứng ri = Jj=1 pij , i = 1, 2, I cj = Ii=1 pij , j = 1, 2, J Dr = diag(r1 ; r2 ; rI ) Dc = diag(c1 ; c2 ; cJ) r1 0 c1 0 r 0 c 0 2 Dr = ; Dc = 0 0 0 0 rI 0 Nhóm (Phân tích số liệu) Clustering 0 0 cJ Ngày 15 tháng năm 2022 109 / 122 Phân tích tương ứng Khai triển tốn học phân tích tương ứng Bước Xây dựng ma trận bậc nghịch đảo ma trận đường chéo √ √ √ 1/2 Dr = diag( r1 , r2 , rI ) √ √ √ 1/2 Dc = diag( c1 , c2 , cJ ) −1/2 Dr = diag( √1r1 , √1r2 , √1rI ) −1/2 Dc = diag( √1c1 , √1c2 , √1cJ ) Nhóm (Phân tích số liệu) Clustering Ngày 15 tháng năm 2022 110 / 122 Phân tích tương ứng Khai triển tốn học phân tích tương ứng Bước Khai triển kì dị (SVD) ma trận Z −1/2 Z = Dr −1/2 (P − rc T )Dc Thu tích ma trận Z =U VT Trong đó: U = {u1 , u2 , uI } với u1 , u2 , uI vector kì dị trái đại diện cho tọa độ dòng V = {v1 , v2 , vJ } với v1 , v2 , vJ vector kì dị phải đại diện cho tọa độ cột = diag(σ1 ; σ2 ; ; σk ) với σ1 ; σ2 ; ; σk giá trị kì dị Trong k hạng ma trận Nhóm (Phân tích số liệu) Clustering Ngày 15 tháng năm 2022 111 / 122 Phân tích tương ứng Khai triển tốn học phân tích tương ứng Bước Vẽ biểu đồ Nhóm (Phân tích số liệu) Clustering Ngày 15 tháng năm 2022 112 / 122 Phân tích tương ứng Khai triển tốn học phân tích tương ứng Ví dụ Ví dụ Ta có bảng dự phịng X: Hình: Bảng tần số loại gồm khảo cổ phân chia theo khu vực) Nhóm (Phân tích số liệu) Clustering Ngày 15 tháng năm 2022 113 / 122 Phân tích tương ứng Bước Xây dựng ma trận tỉ lệ P = pij Ta có n = 781 0.038 0.068 0.093 P = 0.026 0.059 0.058 0.020 Nhóm (Phân tích số liệu) Khai triển tốn học phân tích tương ứng 0.013 0.005 0.001 0.008 0.046 0.008 0.036 Clustering 0.013 0.020 0.052 0.001 0.047 0.076 0.216 0.050 0.003 0.001 0.005 0.017 0.013 0.006 Ngày 15 tháng năm 2022 114 / 122 Phân tích tương ứng Khai triển tốn học phân tích tương ứng Bước Tính vector tổng hàng, tổng cột r, c ma trận đường chéo Dr Dc tương ứng ri = (0.113; 0.096; 0.149; 0.039; 0.1690.154; 0.279) cj = (0.362; 0.117; 0.426; 0.095) 0.113 0 0.362 0 0.096 0 0.117 0 Dr = ; Dc = 0 0.426 0 0.279 0 0.095 Nhóm (Phân tích số liệu) Clustering Ngày 15 tháng năm 2022 115 / 122 Phân tích tương ứng Khai triển tốn học phân tích tương ứng Bước Xây dựng ma trận bậc nghịch đảo ma trận đường chéo √ √ √ 1/2 Dr = diag( 0.113, 0.096, 0.279) √ √ √ √ 1/2 Dc = diag( 0.362, 0.117, 0.426, 0.095) −1/2 1 Dr = diag( √0.113 , √0.096 , √0.279 ) −1/2 Dc 1 1 = diag( √0.362 , √0.117 , √0.426 , √0.095 ) Nhóm (Phân tích số liệu) Clustering Ngày 15 tháng năm 2022 116 / 122 Phân tích tương ứng Khai triển tốn học phân tích tương ứng Bước Khai triển kì dị (SVD) ma trận Z −1/2 −1/2 Z= (P − rc T )Dc Dr −0.014 −0.004 −0.162 0.177 −0.057 −0.101 0.170 −0.121 −0.043 0.045 −0.120 = 0.094 −0.009 0.188 −0.091 0.008 −0.076 0.039 −0.253 0.018 0.282 Thu tích ma trận 0.377 −0.069 −0.107 0.022 0.005 −0.015 −0.123 Z =U Nhóm (Phân tích số liệu) Clustering VT Ngày 15 tháng năm 2022 117 / 122 Phân tích tương ứng Khai triển tốn học phân tích tương ứng 0.583 −0.616 0.36 −0.354 0.459 0.003 −0.455 0.220 0.099 0.547 0.252 −0.412 0.107 −0.272 0.153 UT = 0.261 0.115 −0.135 −0.796 −0.232 0.307 0.417 −0.057 0.082 −0.719 −0.272 0.077 −0.497 Nhóm (Phân tích số liệu) Clustering Ngày 15 tháng năm 2022 118 / 122 Phân tích tương ứng Khai triển tốn học phân tích tương ứng 0.475 0.642 0.0143 −0.602 −0.005 −0.297 −0.891 −0.341 VT= −0.692 −0.107 0.289 −0.653 0.543 −0.699 0.347 −0.308 = diag(5.325294e −01; 4.124400e −01; 2.424588e −01; 3.676290e −17) Nhóm (Phân tích số liệu) Clustering Ngày 15 tháng năm 2022 119 / 122 Phân tích tương ứng Khai triển tốn học phân tích tương ứng Bước Vẽ biểu đồ Nhóm (Phân tích số liệu) Clustering Ngày 15 tháng năm 2022 120 / 122 Phân tích tương ứng Khai triển tốn học phân tích tương ứng Sự quán tính Định nghĩa Sự quán tính phép đo thay đổi liệu, thể chất lượng biểu diễn biểu đồ I= i j (pij −ri cj )2 ri cj = J−1 k=1 σk J-1 coi số chiều biểu diễn tốt liệu σk2 giá trị riêng biểu diễn quán tính trục Ví dụ: Với ví dụ quán tính tính bằng: (pij −ri cj )2 2 = J−1 k=1 σk = 0.512 i j k=1 σk = ri cj Nhóm (Phân tích số liệu) Clustering Ngày 15 tháng năm 2022 121 / 122 Phân tích tương ứng Khai triển tốn học phân tích tương ứng Đánh giá chất lượng biểu đồ Tổng phần trăm quán tính trục biểu diễn thể chất lượng biểu đồ Nhóm (Phân tích số liệu) Clustering Ngày 15 tháng năm 2022 122 / 122 ... tương ứng Nhóm (Phân tích số liệu) Clustering Ngày 15 tháng năm 2022 / 122 Giới thiệu Khái niệm mục tiêu phân cụm liệu Phân cụm liệu Phân cụm liệu phân chia sở liệu lớn thành nhóm liệu với đối tượng... thứ bậc Phân cụm dựa mơ hình thống kê Thuật tốn chia tỷ lệ đa chiều Phân tích tương ứng Nhóm (Phân tích số liệu) Clustering Ngày 15 tháng năm 2022 / 122 Giới thiệu Nhóm (Phân tích số liệu) Clustering... nhóm, số chi tiết khơng quan tâm đến để đổi lấy liệu đơn giản hóa Nhóm (Phân tích số liệu) Clustering Ngày 15 tháng năm 2022 / 122 Giới thiệu Khái niệm mục tiêu phân cụm liệu Phân cụm liệu Phân