Phân tích phân biệt, phân loại và phân tích cụm

80 61 1
Phân tích phân biệt, phân loại và phân tích cụm

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG LÊ THỊ TUYẾT NHUNG PHÂN TÍCH PHÂN BIỆT, PHÂN LOẠI VÀ PHÂN TÍCH CỤM Chun ngành: Phƣơng pháp Tốn sơ cấp Mã số: 60.46.01.13 LUẬN VĂN THẠC SĨ KHOA HỌC Ngƣời hƣớng dẫn khoa học: TS LÊ VĂN DŨNG Đà Nẵng - Năm 2016 LỜI CAM ĐOAN Tôi xin cam đoan cơng trình nghiên cứu riêng tơi Các số liệu, kết nêu luận văn trung thực chưa công bố cơng trình khác Tác giả Lê Thị Tuyết Nhung MỤC LỤC MỞ ĐẦU 1 Tính cấp thiết đề tài Mục đích nghiên cứu Đối tƣợng nghiên cứu Phạm vi nghiên cứu Phƣơng pháp nghiên cứu Bố cục đề tài CHƢƠNG KIẾN THỨC CHUẨN BỊ 1.1 VECTƠ VÀ MA TRẬN 1.1.1 Vectơ 1.1.2 Ma trận 1.1.3 Căn bậc hai ma trận 1.1.4 Các bất đẳng thức ma trận maximum 1.2 VECTƠ NGẪU NHIÊN 1.2.1 Hàm xác suất đồng thời 10 1.2.2 Vectơ trung bình ma trận hiệp phƣơng sai 11 1.2.3 Chia khối ma trận hiệp phƣơng sai 14 1.2.4 Vectơ trung bình ma trận hiệp phƣơng sai tổ hợp tuyến tính vectơ ngẫu nhiên 15 1.3 PHÂN BỐ CHUẨN NHIỀU CHIỀU 16 1.4 VECTƠ TRUNG BÌNH MẪU, MA TRẬN HIỆP PHƢƠNG SAI MẪU 19 1.5 ƢỚC LƢỢNG KHÔNG CHỆCH 20 1.6 PHÂN BỐ MẪU TRUNG BÌNH MẪU 23 1.7 NHẬN DẠNG PHÂN BỐ CHUẨN NHIỀU CHIỀU 23 1.7.1 Sử dụng biểu đồ xác suất chuẩn 23 1.7.2 Kiểm định – bình phƣơng 24 1.8 KIỂM ĐỊNH GIẢ THIẾT VỀ VECTƠ TRUNG BÌNH 25 CHƢƠNG PHÂN TÍCH PHÂN BIỆT, PHÂN LOẠI VÀ PHÂN TÍCH CỤM 26 2.1 KHÁI NIỆM PHÂN TÍCH PHÂN BIỆT VÀ PHÂN LOẠI 26 2.2 PHÂN LOẠI HAI LỚP 26 2.3 PHÂN LOẠI HAI LỚP CÓ PHÂN BỐ CHUẨN 31 2.3.1 31 2.3.2 37 2.4 ĐÁNH GIÁ HÀM PHÂN LOẠI 48 2.5 PHÂN LOẠI NHIỀU LỚP 44 2.6 ỨNG DỤNG CỦA PHÂN TÍCH PHÂN BIỆT VÀ PHÂN LOẠI 51 2.7 KHÁI NIỆM PHÂN TÍCH CỤM 55 2.8 CÁC KHOẢNG CÁCH THƢỜNG DÙNG 56 2.9 PHƢƠNG PHÁP PHÂN CỤM THEO THỨ BẬC 60 2.9.1 Phƣơng pháp phân cụm theo thứ bậc kết nối đơn 60 2.9.2 Phƣơng pháp phân cụm theo thứ bậc kết nối đầy đủ 62 2.9.3 Phƣơng pháp phân cụm theo thứ bậc kết nối trung bình 64 2.10 PHƢƠNG PHÁP PHÂN CỤM K- TRUNG BÌNH 66 2.11 ỨNG DỤNG CỦA PHÂN TÍCH CỤM 69 KẾT LUẬN 73 TÀI LIỆU THAM KHẢO 74 QUYẾT ĐỊNH GIAO ĐỀ TÀI LUẬN VĂN (bản sao) DANH MỤC CÁC BẢNG Số hiệu Tên bảng Trang 2.1 Phân lớp theo điểm GPA GMAT 53 2.2 Ý nghĩa hệ số tƣơng tự 58 DANH MỤC CÁC HÌNH Số Tên hình hiệu Trang 2.1 Miền giá trị X 26 2.2 Xác suất phân loại sai 27 2.3 Biểu đồ phân tán giá trị (AHF hoạt động) (AHF kháng nguyên) hai nhóm 34 2.4 Xác suất phân loại sai dựa Y 40 2.5 Biểu đồ phân tán GPA, GMAT 53 2.6 2.7 2.8 2.9 2.10 2.11 2.12 Biểu đồ xác suất chuẩn giá trị GPA, GMAT lớp Biểu đồ xác suất chuẩn giá trị GPA, GMAT lớp Biểu đồ xác suất chuẩn giá trị GPA, GMAT lớp Sơ đồ phân cụm năm đối tƣợng theo phƣơng pháp kết nối đơn Sơ đồ phân cụm năm đối tƣợng theo phƣơng pháp kết nối đầy đủ Sơ đồ phân cụm năm đối tƣợng theo phƣơng pháp kết nối trung bình Phân cụm đối tƣợng A, B, C, D 53 54 54 62 64 66 69 MỞ ĐẦU Tính cấp thiết đề tài Ngày thời đại bùng nổ thông tin, phát triển ngành khoa học đặc biệt phát triển ngành khoa học máy tính giúp thu thập lượng liệu khổng lồ Với số lượng liệu lớn việc tìm hiểu thơng tin từ khó khăn phức tạp Vì vấn đề xử lý số liệu ngành khoa học nghiên cứu mà xã hội quan tâm Đó lý cho đời phát triển ngành phân tích thống kê Nhờ ứng dụng mơn phân tích thống kê mà ngành sinh học, y học, kinh tế, bảo hiểm, phân loại ảnh có nhiều bước phát triển vượt bậc Phương pháp phân tích phân biệt phân loại với phương pháp phân tích cụm phương pháp xử lý liệu phân tích thống kê sử dụng phổ biến Vì lý đó, hướng dẫn thầy Lê Văn Dũng, chọn nghiên cứu đề tài “Phân tích phân biệt, phân loại phân tích cụm” làm luận văn thạc sĩ khoa học Mục đích nghiên cứu Chúng tơi mong muốn tìm kiếm nhiều tài liệu từ nguồn khác nhau, nghiên cứu kĩ tài liệu đó, cố gắng lĩnh hội số kỹ thuật phân tích thống kê Hy vọng luận văn sử dụng tài liệu tham khảo bổ ích cho sinh viên trường Đại học, Cao đẳng Đối tượng nghiên cứu - Kỹ thuật phân tích phân biệt phân loại - Kỹ thuật phân tích cụm Phạm vi nghiên cứu Luận văn nghiên cứu khái niệm, định nghĩa, định lý liên quan Phương pháp nghiên cứu Cơ sử dụng phương pháp nghiên cứu tài liệu (sách, báo tài liệu internet có liên quan đến đề tài luận văn) để thu thập thông tin nhằm hệ thống lại vấn đề lý thuyết Bố cục đề tài Nội dung luận văn gồm hai chương: Chương 1: Kiến thức chuẩn bị Trình bày lại kiến thức cần thiết cho chương 2, kiến thức vectơ, ma trận, biến ngẫu nhiên phân bố chuẩn nhiều chiều Chương 2: Phân tích phân biệt, phân loại phân tích cụm Trong chương có hai nhiệm vụ chính: thứ giải toán phân biệt, phân loại; thứ hai giải toán phân cụm Ở hai toán, luận văn đưa lý thuyết, phương pháp giải ví dụ minh họa kèm Tuy nhiên hai tốn có nhiều phương pháp giải nên khuôn khổ luận văn đề cập đến vài phương pháp phổ biến CHƯƠNG KIẾN THỨC CHUẨN BỊ 1.1 VECTƠ VÀ MA TRẬN 1.1.1 Vectơ Cho x = (x1 , x2 , , xn ) ∈ Rn Ta viết dạng ma trận x sau:   x1  x2  x =   xT = [x1 , x2 , , xn ] xn Các phép toán Cho  x1 x  x =   , xn    y1  y2  y =   yn - Phép cộng      x1 + y1 y1 x1 x  y   x + y  x + y =   +   =   xn yn xn + y n - Phép nhân với số   cx1  cx2  cx =   cxn - Phép nhân vô hướng  xy = x1 y1 + x2 y2 + + xn yn Hệ trực chuẩn n vectơ e1 , e2 , , en không gian vectơ Rn gọi hệ trực chuẩn e2i = với i ei ej = với i = j 1.1.2 Ma trận Ma trận A = [aij ]n×p bảng số hình chữ nhật gồm n hàng p cột có dạng sau  a11  a21 A =  an1 a12 a22 an2  a1p a2p   anp Các phép toán - Phép cộng hai ma trận Cho hai ma trận A = [aij ]n×p B = [bij ]n×p  a11  a21 A + B =  an1 a12 a22 an2   b11 a1p a2p   b21  +  anp bn1 b12 b22 bn2  b1p b2p   bnp   a11 + b11 a12 + b12 a1p + b1p a + b a + b a + b  =  21 21 22 22 2p 2p  an1 + bn1 an2 + bn2 anp + bnp - Phép nhânmột số với ma   trận  ca11 ca12 ca1p a11 a12 a1p  a21 a22 a2p   ca21 ca22 ca2p  cA = c    =  can1 can2 canp an1 an2 anp - Phép nhân hai ma trận Cho hai ma trận A = [aik ]n×p B = [bkj ]p×m Tích hai ma trận A B , kí hiệu AB , ma trận C = [cij ]n×m với cij = pk=1 aik bkj Các loại ma trận - Ma trận hàng ma trận có hàng, kí hiệu A = [aij ]1×n - Ma trận cột ma trận có cột, kí hiệu A = [aij ]n×1 - Ma trận vng ma trận có số hàng số cột, kí hiệu A = [aij ]n×n = [aij ]n Khi tập hợp phần tử aii , i = 1, n gọi đường chéo A - Ma trận chuyển vị ma trận A = [aij ]n×p , kí hiệu AT , ma 60 Ta thấy e25 = 5/6 lớn nên hai phần tử 2, gần nhất, e15 = nhỏ nên hai phần tử 1, gần So sánh tương tự ta có hai lớp phần tử tương tự {2, 5} {1, 4, 3} 2.9 PHƯƠNG PHÁP PHÂN CỤM THEO THỨ BẬC Luận văn tập trung nghiên cứu phương pháp gộp theo thứ bậc cụ thể phương pháp kết nối Phương pháp có kỹ thuật tiến hành sau: Các đối tượng gần ghép với thành cụm Các cụm vừa tìm lại ghép với thành cụm lớn dựa độ gần cụm Tiếp tục trình cụm Cách thực hiện: Chia thành n cụm đơn C1 , C2 , , Cn ; cụm chứa phần tử Lập ma trận khoảng cách cụm Tìm cặp cụm có khoảng cách ngắn nhất, chẳng hạn cụm Ci cụm Cj , nhập hai cụm thành cụm (Ci , Cj ) đồng thời xóa bỏ cụm Ci Cj Lặp lại hai bước lại cụm dừng lại 2.9.1 Phương pháp phân cụm theo thứ bậc kết nối đơn Cơng thức tính khoảng cách hai cụm theo phương pháp phân cụm theo thứ bậc kết nối đơn: dA,B = min{dij }, dij khoảng cách hai đối tượng i ∈ A j ∈ B (2.25) 61 Ví dụ 2.9.1 Cho ma trận khoảng cách phần tử D = [dik ] = 1  9   3    6  5           11 10 Bước Từ ma trận khoảng cách ta có khoảng cách hai phần tử nhỏ nên ghép thành cụm (3, 5) Tính khoảng cách từ phần tử lại đến cụm (3, 5) d1,(3,5) = min{d1,3 , d1,5 } = min{3, 11} = d2,(3,5) = min{d2,3 , d2,5 } = min{7, 10} = d4,(3,5) = min{d4,3 , d4,5 } = min{9, 8} = Như ma trận khoảng cách cụm (3, 5), (1), (2), (4) (3, 5) (3, 5)  3   D = [dik ] =  7  4        Bước Khoảng cách cụm (3, 5) (1) ngắn nên ghép hai cụm thành cụm (1, 3, 5) Tính khoảng cách phần tử cịn lại đến cụm (1, 3, 5) d2,(1,3,5) = min{d2,(3,5) , d2,1 } = min{7, 9} = d4,(1,3,5) = min{d4,(3,5) , d4,1 } = min{8, 6} = Ma trận khoảng cách cụm (1, 3, 5), (2), (4) 62 (1, 3, 5) 0 (1, 3, 5)  7 D = [dik ] =      Hình 2.9: Sơ đồ phân cụm năm đối tượng theo phương pháp kết nối đơn Bước Khoảng cách cụm (2) (4) ngắn nên ghép hai cụm thành cụm (2, 4) Tính khoảng cách cụm (2, 4) (1, 3, 5) d(2,4),(1,3,5) = min{d2,(1,3,5) , d4,(1,3,5) } = min{7, 6} = Ma trận khoảng cách cụm (1, 3, 5), (2, 4) (1, 3, 5) (2, 4) (1, 3, 5) D = [dik ] = (2, 4) Bước Ghép hai cụm (1, 3, 5) (2, 4) thành cụm (1, 2, 3, 4, 5) 2.9.2 Phương pháp phân cụm theo thứ bậc kết nối đầy đủ Nếu phương pháp phân cụm theo thứ bậc kết nối đơn dựa khoảng cách ngắn tương tự phương pháp phân 63 cụm theo thứ bậc kết nối đầy đủ dựa khoảng cách lớn tương tự Cơng thức tính khoảng cách hai cụm theo phương pháp phân cụm theo thứ bậc kết nối đầy đủ: dA,B = max{dij }, (2.26) dij khoảng cách hai đối tượng i ∈ A j ∈ B Ví dụ 2.9.2 Trở lại Ví dụ 2.9.1 với ma trận khoảng cách D sau: D = [dik ] = 1  9   3    6  5           11 10 Bước gộp thành cụm chúng gần Ta có d(3,5),1 = max{d3,1 , d5,1 } = max{3, 11} = 11 d(3,5),2 = max{d3,2 , d5,2 } = max{7, 10} = 10 d(3,5),4 = max{d3,4 , d5,4 } = max{9, 8} = Ta ma trận (3, 5) (3, 5)   11   D = [dik ] =   10  4        0 Bước Vậy ta ghép 2, thành cụm (2, 4) d24 khoảng cách nhỏ Ngoài d(3,5),(2,4) = max{d(3,5),2 , d(3,5),4 } = max{10, 9} = 10; d(2,4),1 = max{d2,1 , d4,1 } = max{9, 6} = 64 Hình 2.10: Sơ đồ phân cụm năm đối tượng theo phương pháp kết nối đầy đủ Từ ta ma trận khoảng cách (3, 5) (2, 4) 0 (3, 5)  10 D = [dik ] = (2, 4)   11     Bước Vậy 1, (2, 4) nhập thành cụm (1, 2, 4) với khoảng cách nhỏ Từ ta có ma trận (3, 5) D = [dik ] = (1, 2, 4) (3, 5) (1, 2, 4) 11 Bước Kết hợp (3, 5), (1, 2, 4) thành cụm (1, 2, 3, 4, 5) 2.9.3 Phương pháp phân cụm theo thứ bậc kết nối trung bình Phương pháp phân cụm theo thứ bậc kết nối trung bình dựa khoảng cách trung bình Cơng thức tính khoảng cách hai cụm theo phương pháp phân cụm theo thứ bậc kết nối trung bình: dA,B = dij , (2.27) nA nB i∈A j∈B 65 dij khoảng cách hai đối tượng i ∈ A j ∈ B , nA nB số đối tượng có cụm A B Ví dụ 2.9.3 Tiếp tục xét ma trận khoảng cách D Ví dụ 2.9.1: D = [dik ] = 1  9   3    6             11 10 Bước Xếp 3, vào cụm (3, 5) Tính khoảng cách d3,1 + d5,1 =7 d(3,5),1 = d3,2 + d5,2 = 8, d(3,5),2 = d3,4 + d5,4 d(3,5),4 = = 8, Ta ma trận (3, 5) (3, 5)     D = [dik ] =  8,  8, 4        0 Bước Ghép 2, vào cụm (2, 4), ta có d3,2 + d3,4 + d5,2 + d5,4 = 8, 2×2 d2,1 + d4,1 d(2,4),1 = = 7, Từ ta ma trận khoảng cách d(3,5),(2,4) = 66 Hình 2.11: Sơ đồ phân cụm năm đối tượng theo phương pháp kết nối trung bình (3, 5) (2, 4)  (3, 5)   D = [dik ] = (2, 4) 8,  11 7,5 1      Bước Vậy 1, (2, 4) nhập thành cụm (1, 2, 4) với khoảng cách nhỏ 7,5 d3,1 + d3,2 + d3,4 + d5,1 + d5,2 + d5,4 =8 2×3 Từ ta có ma trận d(3,5),(1,2,4) = (3, 5) (3, 5) (1, 2, 4) (1, 2, 4) D = [dik ] = Bước Kết hợp (3, 5), (1, 2, 4) thành cụm (1, 2, 3, 4, 5) 2.10 PHƯƠNG PHÁP PHÂN CỤM K - TRUNG BÌNH Thuật tốn K - trung bình dựa khoảng cách đối tượng đến trung tâm cụm chứa Thuật tốn lấy số cụm ban đầu K phân chia đối tượng vào K cụm kết độ tương đồng 67 cụm cao độ tương đồng cụm thấp Độ tương đồng cụm đo đánh giá giá trị trung bình đối tượng cụm, xem trung tâm cụm Cách thực Phân chia đối tượng thành K cụm ban đầu Tính tốn khoảng cách đối tượng đến tâm cụm (khoảng cách Euclide) Từ toàn đối tượng, phân phối lại đối tượng vào cụm có khoảng cách từ tâm cụm đến đối tượng nhỏ Tính tốn lại trung tâm cụm Lặp lại bước không cịn phân phối lại Ví dụ 2.10.1 Cho bảng số liệu hai chiều sau: Đối tượng Giá trị quan sát x1 x2 A B -1 C -2 D -3 -2 Phân chia đối tượng thành K = cụm cho khoảng cách từ đối tượng đến tâm cụm chứa nhỏ Bước Khởi tạo tâm hai cụm Giả sử ta chọn A tâm nhóm thứ (tọa độ tâm nhóm thứ c1 (5, 3)) B tâm nhóm thứ hai (tọa độ tâm nhóm thứ hai c2 (−1, 1)) Bước Tính khoảng cách đối tượng đến tâm cụm dA,c1 = 0; dB,c1 = 6, 32; dC,c1 = 6, 4; dD,c1 = 9, 43 dA,c2 = 6, 32; dB,c2 = 0; dC,c2 = 3, 61; dD,c2 = 3, 61 68 Ta ma trận khoảng cách 6, 32 6, 9, 43 D = 6, 32 3, 61 3, 61 Bước Nhóm đối tượng vào cụm gần 0 0 G = 1 Ta thấy sau vòng lặp thứ nhất, cụm gồm đối tượng A cụm gồm đối tương B, C, D Bước Tính lại tọa độ tâm cụm dựa vào tọa độ đối tượng cụm Cụm có đối tượng A nên tâm cụm khơng đổi Tâm cụm tính sau: −1 + − − − ; = (−1, 5; −1, 5) c2 = 3 Bước Tính lại khoảng cách từ đối tượng đến tâm dA,c1 = 0; dB,c1 = 6, 32; dC,c1 = 6, 4; dD,c1 = 9, 43 dA,c2 = 6, 67; dB,c2 = 2, 55; dC,c2 = 2, 55; dD,c2 = 1, 58 Ta ma trận khoảng cách sau 6, 32 6, 9, 43 D = 6, 67 2, 55 2, 55 1, 58 Bước Phân phối đối tượng vào cụm 0 G1 = 1 1 Ta thấy G = G nên thuật toán dừng kết phân cụm sau Đối tượng Giá trị quan sát Cụm x1 x2 A B -1 C -2 D -3 -2 Cuối hai cụm cần tìm (A) (B,C,D) 69 Hình 2.12: Phân cụm đối tượng A, B, C, D theo phương pháp K - trung bình Phần nội dung 2.7 đến 2.10 tham khảo [1], [6] [8] 2.11 ỨNG DỤNG CỦA PHÂN TÍCH CỤM Ví dụ 2.11.1 Trong xếp loại học lực, học sinh xếp thành loại Giỏi, Khá, Trung bình, Yếu, Kém Trong ví dụ chúng tơi sử dụng thêm phương pháp phân tích cụm để có thêm góc nhìn khác đánh giá, xếp loại học sinh Sử dụng phần mềm thống kê Minitab phân tính cụm theo phương pháp K - trung bình liệu điểm học sinh lớp 11A1 thu kết sau: ————— 5/19/2016 2:00:13 PM ———————————————————— MTB > KMean 'DL' 'HH' 'LS' 'NN' 'NV' 'SH' 'TH' 'T' 'VL'; SUBC> Number 5; SUBC> Member c13 K-means Cluster Analysis: DL, HH, LS, NN, NV, SH, TH, T, VL Final Partition Number of clusters: Cluster1 Cluster2 Cluster3 Cluster4 Cluster5 Number of observations 12 14 Within cluster sum of squares 51.798 103.679 16.007 62.451 17.618 Average distance from centroid 2.017 2.664 2.309 2.950 2.071 Maximum distance from centroid 2.958 3.599 2.393 3.406 2.579 Cluster Centroids Variable DL HH LS NN NV SH TH T VL Cluster1 4.8667 4.4167 4.6750 3.3917 4.3000 6.5083 5.4250 3.3917 3.6750 Cluster2 5.8000 6.0000 5.1643 4.3071 5.3214 6.7357 5.9786 4.4929 4.9071 Cluster3 3.6667 2.8333 4.1333 3.0333 4.1667 6.2000 4.9667 1.9333 3.3000 Cluster4 7.5714 7.2857 6.9000 4.7286 6.6857 8.2143 7.1000 7.4429 7.8000 Cluster5 4.7500 3.9500 3.2250 2.8750 3.9000 4.0750 5.2250 2.7000 2.9250 Cluster4 8.1927 5.5098 10.5432 0.0000 10.5213 Cluster5 3.1246 5.2847 2.9415 10.5213 0.0000 Distances Between Cluster Centroids Cluster1 Cluster2 Cluster3 Cluster4 Cluster5 MTB > Cluster1 0.0000 2.9305 2.6380 8.1927 3.1246 Cluster2 2.9305 0.0000 5.3891 5.5098 5.2847 Cluster3 2.6380 5.3891 0.0000 10.5432 2.9415 Grand centroid 5.5650 5.3075 5.0500 3.8675 5.0250 6.6200 5.8575 4.3075 4.7250 MHS 154937390 154937402 154937412 154937416 154937420 154937428 154937440 154937446 154937448 154937452 154937456 154937468 154937392 154937396 154937400 154937406 154937422 154937424 154937430 154937436 154937438 154937454 154937458 154937460 154937462 154937466 154937394 154937410 154937414 154937408 154937418 154937432 154937434 154937442 154937450 154937464 154937398 154937404 154937426 154937444 DL 4.8 5.3 3.6 6.2 3.1 5.3 7.1 5.1 4.7 5.6 4.6 5.1 6.2 5.7 6.8 5.9 4.9 4.9 5.1 7.1 5.9 7.1 6.3 6.2 3.3 3.6 4.1 8.3 8.8 7.1 7.4 7.2 7.2 4.8 6.7 4.1 3.4 HH 4.5 4.9 4.1 4.3 5.1 4.8 4.4 4.4 4.9 3.6 6.5 5.8 6.9 5.8 5.4 7.6 5.5 5.4 4.9 4.8 7.1 5.4 5.7 7.2 3.3 3.2 7.5 8.7 9.2 9.3 5.3 5.4 5.6 3.7 4.9 2.4 4.8 LS 5.6 5.1 3.7 5.1 5.9 5.4 5.1 3.4 5.3 3.6 4.1 3.8 4.6 5.4 2.9 5.3 5.7 4.1 3.6 6.6 6.6 5.3 5.7 5.5 4.8 3.6 6.6 7.4 8.3 6.3 7.9 6.8 3.1 3.5 3.4 2.9 NN 2.7 3.9 3.1 3.2 3.6 3.2 3.4 4.5 3.5 3.6 4.7 6.4 5.4 4.6 4.3 3.4 4.9 3.8 4.7 2.7 4.1 3.3 2.8 2.6 3.7 5.6 4.9 6.4 4.8 4.2 3.8 3.4 2.4 3.4 3.3 2.4 NV 3.9 4.9 4.8 4.4 3.6 3.4 4.2 4.4 3.8 4.2 4.8 5.3 3.3 5.9 6.4 5.1 5.5 5.6 5.9 5.3 4.8 4.6 2.6 4.5 5.4 7.1 7.7 7.2 6.9 4.9 4.1 4.7 3.4 3.4 SH 7.2 6.5 6.2 6.8 7.4 6.5 5.5 7.3 5.8 6.6 6.8 5.5 5.9 6.8 6.2 5.7 8.9 6.9 6.7 6.4 7.5 8.9 6.8 7.1 5.5 6.5 6.3 5.8 7.9 8.9 8.2 7.9 8.8 6.8 2.9 4.9 3.9 4.6 TH 5.6 5.7 5.4 5.1 5.4 5.1 5.2 4.9 5.6 5.4 5.7 6.1 6.6 6.9 7.6 6.1 5.9 5.4 6.1 6.6 5.9 4.4 5.6 5.1 5.4 4.1 5.9 4.9 8.6 7.9 7.6 6.9 6.6 5.6 6.5 4.8 4.8 5.5 5.8 T 3.7 3.8 3.5 3.4 2.5 4.5 3.1 4.1 2.6 2.3 3.2 5.3 5.2 4.5 5.7 3.9 3.8 4.5 4.7 3.9 4.3 3.5 4.3 3.3 2.6 1.4 1.8 9.4 7.3 6.2 7.2 1.9 2.4 3.5 VL DTB XL 3.4 4.5 YEU 4.3 4.8 YEU 3.4 4.2 YEU 4.1 4.9 YEU 3.6 4.2 YEU 4.6 YEU 2.1 3.9 YEU 3.7 4.4 YEU 4.1 4.5 YEU 4.5 4.2 YEU 4.8 4.4 YEU 3.1 YEU 3.9 5.2 TB 6.5 TB 5.2 5.1 TB 4.8 5.6 TB 5.6 TB 4.7 5.2 TB 3.8 4.9 YEU 5.2 TB 4.8 5.1 TB 5.2 5.7 TB 7.1 5.7 TB 5.6 5.1 TB 3.3 4.9 YEU 4.2 4.8 YEU 3.3 3.4 KEM 1.5 3.5 YEU 5.1 4.1 YEU 7.9 7.3 KHA 8.9 8.2 GIOI 7.3 7.7 KHA 9.1 7.4 KHA 6.9 6.6 KHA 7.3 6.2 TB 7.2 6.2 TB 3.3 3.4 KEM 4.2 YEU 2.3 3.3 KEM 3.1 3.7 YEU K-mean 1 1 1 1 1 1 2 2 2 2 2 2 2 3 4 4 4 5 5 72 Kết phân tích: Nhóm gồm học sinh gồm Giỏi, Khá Trung bình Như có học sinh có học lực Trung bình xếp vào nhóm Nhìn vào điểm số hai em điểm em có mã học sinh 154937442 rõ ràng khơng có nhiều khác biệt Nhóm xem học sinh học yếu đến nhóm Nhóm phù hợp với xếp loại học lực điểm số gần xếp loại học lực Yếu Nhóm có học sinh có học lực Yếu, có lẽ xếp loại học lực yếu học sinh chưa tương xứng Ví dụ 2.11.2 Trường THPT A muốn dựa vào kết học tập lớp thí sinh trúng tuyển vào lớp 10 để phân vào lớp học cho học sinh lớp có kết học tập tương đối đồng Khi sử dụng phương pháp K - trung bình phân tích thành cụm 73 KẾT LUẬN Sau khoảng thời gian thu thập tài liệu, nghiên cứu tổng hợp, luận văn “Phân tích phân biệt, phân loại phân tích cụm” hồn thành, luận văn giải hai toán sau: Bài toán phân biệt phân loại : Phương pháp đưa để giải toán dựa vào xác suất tiền nghiệm hàm mật độ xác suất để đưa hàm phân biệt, từ tính xác suất sai lầm phân loại Bài toán phân cụm: Để giải toán phân cụm, luận văn đưa hai phương pháp - Phương pháp phân cụm theo thứ bậc kết nối - Phương pháp phân cụm K - trung bình Ở hai phương pháp luận văn đưa thuật toán giải toán phân cụm với liệu đơn giản, nhược điểm phương pháp Tuy nhiên thực tế với phát triển ngành công nghệ thông tin, nhiều phần mềm thống kê đời dựa thuật toán phương pháp giải triệt để toán phân cụm với lượng liệu cực lớn Mặc dù cố gắng trình độ có hạn nên luận văn khơng tránh khỏi sai sót, kính mong đóng góp ý kiến q thầy bạn để luận văn hồn thiện 74 TÀI LIỆU THAM KHẢO Tiếng Việt [1] Nguyễn Văn Hữu, Nguyễn Hữu Dư (2003), Phân tích thống kê dự báo, NXB Đại học Quốc gia Hà Nội [2] Nguyễn Viết Phú, Nguyễn Duy Tiến (2004), Cơ sở lý thuyết xác suất, NXB Đại học Quốc gia Hà Nội [3] Đặng Hùng Thắng (1997), Mở đầu lý thuyết xác suất ứng dụng, NXB Giáo dục [4] Nguyễn Duy Tiến, Vũ Viết Yên (2001), Lý thuyết xác suất, NXB Giáo dục [5] Nguyễn Cao Văn, Trần Thái Ninh (2005), Giáo trình: Lý thuyết xác suất thống kê toán, NXB Thống kê Tiếng Anh [6] Richard A.Johnson, Dean W.Wichern (2007), Applied Multivariate Statistical Analysis, Pearson Education Inc [7] Vincenzo Capasso, David Bakstein (2012), An Introduction to Continuous - Time Stochastic Processes, Birkha ăuser Trang web [8] http://bis.net.vn/forums/t/374.aspx ... 26 CHƯƠNG PHÂN TÍCH PHÂN BIỆT, PHÂN LOẠI VÀ PHÂN TÍCH CỤM 2.1 KHÁI NIỆM PHÂN TÍCH PHÂN BIỆT VÀ PHÂN LOẠI Tiến hành phân loại nhiệm vụ khoa học để đưa giới trật tự Và mục đích phân loại xác định... PHÂN TÍCH PHÂN BIỆT, PHÂN LOẠI VÀ PHÂN TÍCH CỤM 26 2.1 KHÁI NIỆM PHÂN TÍCH PHÂN BIỆT VÀ PHÂN LOẠI 26 2.2 PHÂN LOẠI HAI LỚP 26 2.3 PHÂN LOẠI HAI LỚP CÓ PHÂN BỐ CHUẨN ... ngẫu nhiên phân bố chuẩn nhiều chiều Chương 2: Phân tích phân biệt, phân loại phân tích cụm Trong chương có hai nhiệm vụ chính: thứ giải tốn phân biệt, phân loại; thứ hai giải toán phân cụm Ở hai

Ngày đăng: 12/05/2021, 21:51

Từ khóa liên quan

Mục lục

  • MỞ ĐẦU

  • KIẾN THỨC CHUẨN BỊ

    • VECTƠ VÀ MA TRẬN

      • Vectơ

      • Ma trận

      • Căn bậc hai của ma trận

      • Các bất đẳng thức ma trận và maximum

      • VECTƠ NGẪU NHIÊN

        • Hàm xác suất đồng thời

        • Vectơ trung bình và ma trận hiệp phương sai

        • Chia khối ma trận hiệp phương sai

        • Tổ hợp tuyến tính các vectơ ngẫu nhiên

        • PHÂN BỐ CHUẨN NHIỀU CHIỀU

        • VECTƠ TRUNG BÌNH MẪU, MA TRẬN HIỆP PHƯƠNG SAI MẪU

        • ƯỚC LƯỢNG KHÔNG CHỆCH

        • PHÂN BỐ MẪU TRUNG BÌNH MẪU

        • NHẬN DẠNG PHÂN BỐ CHUẨN NHIỀU CHIỀU

          • Sử dụng biểu đồ xác suất chuẩn

          • Kiểm định - bình phương

          • KIỂM ĐỊNH GIẢ THIẾT VỀ VECTƠ TRUNG BÌNH

          • PHÂN TÍCH PHÂN BIỆT, PHÂN LOẠI VÀ PHÂN TÍCH CỤM

            • KHÁI NIỆM PHÂN TÍCH PHÂN BIỆT VÀ PHÂN LOẠI

            • PHÂN LOẠI HAI LỚP

            • PHÂN LOẠI HAI LỚP CÓ PHÂN BỐ CHUẨN

              • 1=2=

              • 1=2

Tài liệu cùng người dùng

Tài liệu liên quan