Phân tích phân biệt, phân loại và phân tích cụm

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	26
Dung lượng	410,32 KB

Nội dung

BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG LÊ THỊ TUYẾT NHUNG PHÂN TÍCH PHÂN BIỆT, PHÂN LOẠI VÀ PHÂN TÍCH CỤM Chuyên ngành: Phương pháp Toán sơ cấp Mã số: 60.46.01.13 TÓM TẮT LUẬN VĂN THẠC SĨ KHOA HỌC Đà Nẵng - Năm 2016 Công trình hoàn thành ĐẠI HỌC ĐÀ NẴNG Người hướng dẫn khoa học: TS LÊ VĂN DŨNG Phản biện 1: TS LÊ QUỐC TUYỂN Phản biện 2: PGS.TS HUỲNH THẾ PHÙNG Luận văn bảo vệ Hội đồng chấm Luận văn tốt nghiệp thạc sĩ khoa học họp Đại học Đà Nẵng vào ngày 13 tháng năm 2016 Có thể tìm Luận văn tại: - Trung tâm Thông tin - Học liệu, Đại học Đà Nẵng - Thư viện trường Đại học sư phạm, Đại học Đà Nẵng MỞ ĐẦU Tính cấp thiết đề tài Ngày thời đại bùng nổ thông tin, phát triển ngành khoa học đặc biệt phát triển ngành khoa học máy tính giúp thu thập lượng liệu khổng lồ Với số lượng liệu lớn việc tìm hiểu thông tin từ khó khăn phức tạp Vì vấn đề xử lý số liệu ngành khoa học nghiên cứu mà xã hội quan tâm Đó lý cho đời phát triển ngành phân tích thống kê Nhờ ứng dụng môn phân tích thống kê mà ngành sinh học, y học, kinh tế, bảo hiểm, phân loại ảnh có nhiều bước phát triển vượt bậc Phương pháp phân tích phân biệt phân loại với phương pháp phân tích cụm phương pháp xử lý liệu phân tích thống kê sử dụng phổ biến Vì lý đó, hướng dẫn thầy Lê Văn Dũng, chọn nghiên cứu đề tài “Phân tích phân biệt, phân loại phân tích cụm” làm luận văn thạc sĩ khoa học 2 Mục đích nghiên cứu: Chúng mong muốn tìm kiếm nhiều tài liệu từ nguồn khác nhau, nghiên cứu kĩ tài liệu đó, cố gắng lĩnh hội số kỹ thuật phân tích thống kê Hy vọng luận văn sử dụng tài liệu tham khảo bổ ích cho sinh viên trường Đại học, Cao đẳng Đối tượng nghiên cứu - Kỹ thuật phân tích phân biệt phân loại - Kỹ thuật phân tích cụm Phạm vi nghiên cứu: Luận văn nghiên cứu khái niệm, định nghĩa, định lý liên quan Phương pháp nghiên cứu: Cơ sử dụng phương pháp nghiên cứu tài liệu (sách, báo tài liệu internet có liên quan đến đề tài luận văn) để thu thập thông tin nhằm hệ thống lại vấn đề lý thuyết Bố cục đề tài: Nội dung luận văn gồm hai chương: Chương 1: Kiến thức chuẩn bị Trình bày lại kiến thức cần thiết cho chương 2, kiến thức vectơ, ma trận, biến ngẫu nhiên phân bố chuẩn nhiều chiều Chương 2: Phân tích phân biệt, phân loại phân tích cụm Trong chương có hai nhiệm vụ chính: thứ giải toán phân biệt, phân loại; thứ hai giải toán phân cụm CHƯƠNG KIẾN THỨC CHUẨN BỊ 1.1 VECTƠ VÀ MA TRẬN 1.1.1 Vectơ 1.1.2 Ma trận 1.1.3 Căn bậc hai ma trận 1.1.4 Các bất đẳng thức ma trận maximum 1.2 VECTƠ NGẪU NHIÊN Định nghĩa 1.2.1 Cho X1 , X2 , , Xn biến ngẫu nhiên xác định không gian xác suất (Ω, F, P ) Kí hiệu X = (X1 , X2 , , Xn ) gọi vectơ ngẫu nhiên n chiều Dạng ma trận X  sau X1  X2  X =   X T = [X1 , X2 , , Xn ] Xn Định nghĩa 1.2.2 Cho Xij với i = 1, 2, , m; j = 1, 2, , n mn biến ngẫu nhiên xác định không gian xác suất (Ω, F, P ) X = [Xij ]m×n gọi ma trận ngẫu nhiên 1.2.1 Hàm xác suất đồng thời Nếu X = (X1 , X2 , , Xn ) vectơ ngẫu nhiên rời rạc có miền giá trị X(Ω) = {xi = (x1i , x2i , , xni ) : i ≥ 1} hàm xác suất đồng thời X hàm p : X(Ω) → R xác định p(xi ) = P (X = xi ) Nếu X = (X1 , X2 , , Xn ) gồm n biến ngẫu nhiên liên tục tồn hàm số không âm f (x) xác định Rn cho với A = [a1 ; b1 ] × [an ; bn ] ⊂ Rn , P (X ∈ A) = A f (x)dx f (x) gọi hàm mật độ xác suất đồng thời X 1.2.2 Vectơ trung bình ma trận hiệp phương sai Cho vectơ ngẫu nhiên X = (X1 , X2 , , Xn ) Giả sử E(Xi ) = µi kỳ vọng Xi , V ar(Xi ) = σii = E(Xi − µi )2 phương sai Xi Cov(Xi ; Xj ) = σij = E(Xi − µi )(Xj − µj ) hiệp phương sai biến Xi Xj Khi µ = [µ1 , µ2 , , µn ]T gọi vectơ trung bình Σ = [σij ]n gọi ma trận hiệp phương sai σij hệ số tương quan Xi Xj Khi σii σjj ρ = [ρij ]n gọi ma trận tương quan vectơ X Gọi ρij = √ 1.2.3 Chia khối ma trận hiệp phương sai 1.2.4 Vectơ trung bình ma trận hiệp phương sai tổ hợp tuyến tính vectơ ngẫu nhiên Nếu X1 X2 hai biến ngẫu nhiên, a b số thực (i) E(aX1 + bX2 ) = aE(X1 ) + bE(X2 ) (ii) V ar(aX1 + bX2 ) = a2 σ11 + b2 σ22 + 2abσ12 (iii) Cov(aX1 , bX2 ) = abσ12 Nếu C T = [c1 , c2 , , cn ] vectơ số X T = [X1 , X2 , , Xn ] vectơ ngẫu nhiên E(C T X) = C T E(X) = C T µ, V ar(C T X) = C T cov(X)C = C T ΣC Nếu C = [cij ]m×n ma trận số E(CX) = CE(X), cov(CX) = Ccov(X)C T 1.3 PHÂN BỐ CHUẨN NHIỀU CHIỀU Định nghĩa 1.3.1 Vectơ ngẫu nhiên X = [X1 , X2 , , Xp ]T gọi có phân bố chuẩn p chiều với tham số µT = [µ1 , µ2 , , µp ] Σ = [σij ]p×p (Σ > 0) X có hàm mật độ xác suất đồng thời 1 f (x) = exp − (x − µ)T Σ−1 (x − µ) p/2 1/2 (2π) |Σ| Kí hiệu X ∼ Np (µ; Σ) 1.4 VECTƠ TRUNG BÌNH MẪU, MA TRẬN HIỆP PHƯƠNG SAI MẪU Giả sử x1 , x2 , ,xn mẫu chọn ngẫu nhiên từ tổng thể X T = [X1 , X2 , , Xp ] Đặt xj = (x1j + x2j + + xnj ), n sij = n−1 j = 1, 2, , p n (xki − xi )(xkj − xj ) k=1 rij = √ sij sii sjj Vectơ xT = [x1 , x2 , , xp ] gọi vectơ trung bình mẫu Ma trận S = [sij ]p gọi ma trận hiệp phương sai mẫu Ma trận R = [rij ]p gọi ma trận hệ số tương quan mẫu 1.5 ƯỚC LƯỢNG KHÔNG CHỆCH Cho X = [Xij ]n×p mẫu ngẫu nhiên X T = [X1 , X2 , , Xp ] với E(X) = µ Cov(X) = Σ Khi E(X) = µ; E(S) = Σ Hệ 1.5.1 Cho X1 , X2 , , Xn mẫu ngẫu nhiên từ phân bố đồng thời có vectơ trung bình µ ma trận hiệp phương sai Σ Khi E(X) = E(X) = µ; Cov(X) = Σ n Và [n/(n − 1)]Sn ước lượng không chệch Σ 1.6 PHÂN BỐ MẪU TRUNG BÌNH MẪU Định lý 1.6.1 Cho X = [Xij ]n×p mẫu ngẫu nhiên tổng thể X có phân bố chuẩn p chiều Np (µ; Σ) Khi X có phân Σ bố chuẩn Np (µ; ) n Định lý 1.6.2 (Định lí giới hạn trung tâm) Cho X = [Xij ]n×p mẫu ngẫu nhiên tổng thể X có E(X) = µ cov(X) = Σ Khi với n đủ lớn, X có xấp xỉ phân bố chuẩn Σ Np (µ; ) n 1.7 NHẬN DẠNG PHÂN BỐ CHUẨN NHIỀU CHIỀU 1.7.1 Sử dụng biểu đồ xác suất chuẩn Từ biểu đồ xác suất chuẩn thành phần x1 , x2 , ,xp chấp nhận X1 , X2 , ,Xp có phân bố chuẩn chiều lúc ta chấp nhận X có phân bố chuẩn 1.7.2 Kiểm định χ - bình phương 1.8 KIỂM ĐỊNH GIẢ THIẾT VỀ VECTƠ TRUNG BÌNH CHƯƠNG PHÂN TÍCH PHÂN BIỆT, PHÂN LOẠI VÀ PHÂN TÍCH CỤM 2.1 KHÁI NIỆM PHÂN TÍCH PHÂN BIỆT VÀ PHÂN LOẠI Tiến hành phân loại nhiệm vụ khoa học để đưa giới trật tự Và mục đích phân loại xác định xem đối tượng quan sát xếp vào lớp Khác với việc phân loại phân tích phân biệt Phân tích phân biệt kỹ thuật phân tích sử dụng cho việc phân biệt lớp 2.2 PHÂN LOẠI HAI LỚP Giả sử tổng thể phân hoạch thành lớp π1 π2 X T = (X1 , , Xp ) vectơ đo p chiều xác định đối tượng tổng thể Kí hiệu Ω miền giá trị X R1 R2 miền giá trị X giới hạn π1 π2 Khi ta có Ω = R1 ∪R2 R1 ∩ R2 = ∅ Ta giả sử f1 (x) f2 (x) hàm mật độ X π1 π2 (nếu X vectơ rời rạc f1 (x) 10 Tổng xác suất phân loại sai (TPM ) T P M = p1 f1 (x)dx + p2 R2 f2 (x)dx (2.5) R1 Ta xếp đối tượng x0 vào lớp xác suất hậu nghiệm lớn P (πi /x0 ) Theo quy tắc Bayès p1 f1 (x0 ) P (π1 /x0 ) = p1 f1 (x0 ) + p2 f2 (x0 ) p2 f2 (x0 ) P (π2 /x0 ) = − P (π1 /x0 ) = p1 f1 (x0 ) + p2 f2 (x0 ) (2.6) Dựa vào tiêu chuẩn xác suất hậu nghiệm, ta xếp x0 vào lớp π1 P (π1 /x0 ) > P (π2 /x0 ) 2.3 PHÂN LOẠI HAI LỚP CÓ PHÂN BỐ CHUẨN Giả sử f1 (x), f2 (x) hàm mật độ phân bố chuẩn liên kết với lớp π1 , π2 có vectơ trung bình µ1 , µ2 ma trận hiệp phương sai Σ1 , Σ2 Ta xét trường hợp sau: 2.3.1 Σ1 = Σ2 = Σ Giả sử hàm mật độ X T = [X1 , X2 , , Xp ] π1 π2 cho công thức 1 exp − (x − µi )T Σ−1 (x − µi ) , i = 1, fi (x) = p/2 1/2 (2π) |Σ| (2.7) tham số µ1 , µ2 Σ biết Định lý 2.3.1 Cho hai lớp π1 π2 có hàm mật độ cho công thức 2.7 Khi ta có phân bổ sau: 11 Xếp x0 vào π1 c(1/2) p2 (µ1 − µ2 )T Σ−1 x0 − (µ1 − µ2 )T Σ−1 (µ1 + µ2 ) ≥ ln c(2/1) p1 (2.8) Ngược lại xếp x0 vào π2 Giả sử ta có n1 đối tượng biến ngẫu nhiên nhiều chiều X T = [X1 , X2 , , Xp ] từ lớp π1 n2 đối tượng X T từ lớp π2 , với n1 + n2 − ≥ p Khi ma trận liệu tương ứng  xT11   xT21       T   T  X1 =  x12  , X2 =  x22      T x1n1 xT2n2 Từ ma trận liệu, vectơ trung bình mẫu ma trận hiệp phương sai xác định sau x1 = n1 x2 = n2 n1 x1j , S1 = j=1 n2 j=1 n1 − 1 x2j , S2 = n2 − n1 (x1j − x1 )(x1j − x1 )T j=1 n2 (x2j − x2 )(x2j − x2 )T j=1 Khi n1 − n2 − S1 + S2 (n1 − 1) + (n2 − 1) (n1 − 1) + (n2 − 1) ước lượng không chệch Σ Sp = 12 Ước lượng E(CM) nhỏ Ta xếp x0 vào π1 c(1/2) p2 (x1 − x2 )T Sp−1 x0 − (x1 − x2 )T Sp−1 (x1 + x2 ) ≥ ln c(2/1) p1 (2.9) Ngược lại xếp x0 vào π2 Hệ 2.3.2 Kết hợp tuyến tính yˆ = a ˆT x = (¯ x1 − x ¯2 )T Sp−1 x tối đa hóa tỷ số (¯ y1 − y¯2 )2 (ˆ aT x ¯1 − a ˆT x ¯ )2 (ˆ aT d)2 = = s2y a ˆT Sp a ˆ a ˆT Sp a ˆ (2.10) tất vectơ hệ số a ˆ với d = (¯ x1 − x ¯2 ) Giá trị lớn tỷ số D2 = (¯ x1 − x ¯2 )T Sp−1 (¯ x1 − x ¯2 ) Chú ý s2y = n1 j=1 (y1j − y¯1 )2 + n2 j=1 (y2j − y¯2 )2 n1 + n2 − với y1j = a ˆT x1j y2j = a ˆT x2j Luật phân bố dựa vào hàm phân biệt Fisher Xếp x0 vào lớp π1 yˆ0 = (¯ x1 − x ¯2 )T Sp−1 x0 ≥ m ˆ = (¯ x1 − x ¯2 )T Sp−1 (¯ x1 + x ¯2 ) (2.11) 2.3.2 Σ1 = Σ2 Định lý 2.3.3 Cho lớp π1 π2 mô tả hàm mật độ phân bố chuẩn có vectơ trung bình µ1 , µ2 ma trận hiệp phương sai Σ1 , Σ2 Khi 13 + Xếp x0 vào π1 c(1/2) p2 −1 T −1 T −1 − xT0 (Σ−1 − Σ2 )x0 + (µ1 Σ1 − µ2 Σ2 )x0 − k ≥ ln c(2/1) p1 (2.12) |Σ1 | T −1 k = ln + (µ1 Σ1 µ1 − µT2 Σ−1 µ2 ) |Σ2 | + Ngược lại xếp x0 vào π2 Quy tắc phân loại bậc hai Xếp x0 vào π1 c(1/2) p2 − xT0 (S1−1 − S2−1 )x0 + (xT1 S1−1 − xT2 S2−1 )x0 − k ≥ ln c(2/1) p1 (2.13) Ngược lại xếp x0 vào π2 2.4 ĐÁNH GIÁ HÀM PHÂN LOẠI Giá trị nhỏ TPM gọi tỷ lệ lỗi tối ưu (OER), thu cách khéo chọn R1 R2 Như vậy, OER tỷ lệ lỗi cho TPM tối thiểu Về nguyên tắc việc thực hàm phân loại mẫu đánh giá cách tính toán tỷ lệ lỗi thực tế (AER) AER = p1 ˆ2 R f1 (x)dx + p2 ˆ1 R f2 (x)dx ˆ R ˆ miền phân loại xác định mẫu có kích thước với R n1 n2 Ta định nghĩa tỷ lệ lỗi rõ ràng (APER) tỷ lệ đối tượng bị phân loại sai hàm phân loại mẫu Cho lớp π1 có n1 đối tượng lớp π2 có n2 đối tượng ma trận nhầm lẫn có dạng 14 Thành viên thực tế π1 π2 n2M Thành viên dự đoán π1 π2 n1C n1M = n1 − n1C = n2 − n2C n2C n1 n2 n1C : Số đối tượng lớp π1 xếp vào lớp π1 n1M : Số đối tượng lớp π1 xếp sai vào lớp π2 n2C : Số đối tượng lớp π2 xếp vào lớp π2 n2M : Số đối tượng lớp π2 xếp sai vào lớp π1 Khi ta có tỷ lệ lỗi rõ ràng n1M + n2M AP ER = n1 + n2 2.5 PHÂN LOẠI NHIỀU LỚP Tổn thất trung bình nhỏ Cho fi (x) hàm mật độ liên kết với lớp πi , i = 1, 2, , g , pi xác suất tiền nghiệm lớp πi c(k/i) tổn thất gây xếp đối tượng thuộc lớp πi vào lớp πk , đặc biệt với k = i, c(i/i) = Gọi Rk tập đối tượng thuộc lớp πk , ta có xác suất phân loại sai đối tượng thuộc lớp πi vào lớp πk P (k/i) = P (X ∈ Rk /πi ) = fi (x)dx Rk (2.14) 15 với i = 1, 2, , g P (i/i) = − g k=1,k=i P (k/i) Từ ta có tổn thất trung bình E(CM ) = p1 E(CM )(1) + p2 E(CM )(2) + + pg E(CM )(g)   g g = p1 P (k/1)c(k/1) + p2  k=2 P (k/2)c(k/2) k=1,k=2 g−1 + + pg P (k/g)c(k/g) k=1  g g pi  = i=1  P (k/i)c(k/i) k=1,k=i Luật phân loại để E(CM) nhỏ với tổn thất phân loại sai Xếp x0 vào πk pk fk (x) > pi fi (x), với i = k (2.15) Xếp x0 vào πk ln pk fk (x) > ln pi fi (x), với i = k (2.16) Phân loại lớp có phân bố chuẩn Xếp x vào πk ln pk fk (x) = ln pk − 1 p ln 2π − ln |Σk | − (x − µk )T Σ−1 k (x − µk ) 2 = max ln pi fi (x) Ta định nghĩa tỉ số phân biệt bậc hai cho lớp thứ i sau 1 T −1 dQ i (x) = − ln |Σi | − (x − µi ) Σi (x − µi ) + ln pi , i = 1, 2, , g 2 (2.17) 16 TPM nhỏ Σi không Xếp x vào lớp πk Q Q Q dQ k (x) = max(d1 (x), d2 (x), , dg (x)) (2.18) với dQ k (x) cho công thức 2.17 Ước lượng tỉ số dˆQ i (x) = − ln |Si | − phân biệt bậc hai (x − x ¯i )T Si−1 (x − x ¯i ) + ln pi , i = 1, 2, , g (2.19) Ước lượng TPM trường hợp Σi không Xếp x vào lớp πk ˆQ ˆQ ˆQ dˆQ k (x) = max(d1 (x), d2 (x), , dg (x)) (2.20) với dˆQ i (x) xác định công thức 2.19 Một trường hợp đơn giản ma trận hiệp phương sai lớp Σi Đặt Σi = Σ, i = 1, 2, , g , ta định nghĩa tỉ số phân biệt tuyến tính sau di (x) = µTi Σ−1 x − µTi Σ−1 µi + ln pi , i = 1, 2, , g ˆ Ước lượng di (x) tỉ số phân biệt tuyến tính di (x) dựa ước lượng gộp Σ Sp = [(n1 −1)S1 +(n2 −1)S2 + +(ng −1)Sg ] n1 + n2 + + ng − g cho T −1 dˆi (x) = x ¯Ti Sp−1 x − x ¯ S x ¯ + ln pi , i = 1, 2, , g (2.21) i p 17 Ước lượng TPM trường hợp Σi Xếp x vào lớp πk dˆk (x) = max(dˆ1 (x), dˆ2 (x), , dˆg (x)) với dˆi (x) cho công thức 2.21 Xếp x vào lớp πk dˆki (x) = (¯ xk − x ¯i )T Sp−1 x − (¯ xk − x ¯i )T Sp−1 (¯ xk + x ¯i ) , ∀i = k pi ≥ ln pk 2.6 ỨNG DỤNG CỦA PHÂN TÍCH PHÂN BIỆT VÀ PHÂN LOẠI Ví dụ 2.6.1 Bộ phận tuyển sinh đào tạo thạc sĩ quản trị kinh doanh trường đại học có kết tuyển sinh đào tạo họ muốn dựa vào điểm GPA (Grade Point Average) điểm GMAT (Graduate Management Admission Test) kết tuyển sinh để tiến hành sơ tuyển phục vụ công tác tuyển sinh năm Dựa vào kết tuyển sinh năm vừa qua, phận tuyển sinh phân thành nhóm sau: π1 (được nhận hồ sơ), π2 (không nhận hồ sơ) π3 (là biên hai nhóm π1 π2 ) Bộ phận tuyển sinh nhận hồ sơ thí sinh thuộc nhóm π1 π3 để tham dự kì thi vòng Giả sử năm tuyển sinh tiếp theo, thí sinh có GPA = 3,21 GMAT = 497 Khi đó, phận tuyển sinh phân loại thí sinh vào nhóm nào? 18 Ví dụ 2.6.2 Trường THPT chuyên tỉnh A muốn dựa vào điểm tổng kết Toán điểm trung bình chung năm học lớp để tiến hành sơ tuyển Dựa vào kết tuyển sinh năm trường tiến hành phân thí sinh vào nhóm: nhóm (được nhận hồ sơ), nhóm (không nhận hồ sơ) nhóm nhóm trung gian nhóm Ở kì tuyển sinh nhà trường dựa vào điểm tổng kết Toán điểm trung bình chung năm học lớp để tiến hành phân loại để nhận thí sinh thuộc nhóm nhóm vào thi tuyển vòng 2.7 KHÁI NIỆM PHÂN TÍCH CỤM Phân tích cụm quy trình tìm cách nhóm đối tượng cho vào cụm, cho đối tượng cụm tương tự (gần nhau) đối tượng khác cụm không tương tự (không gần nhau) xét theo đặc tính lựa chọn để nghiên cứu 2.8 CÁC KHOẢNG CÁCH THƯỜNG DÙNG 2.9 PHƯƠNG PHÁP PHÂN CỤM THEO THỨ BẬC Luận văn tập trung nghiên cứu phương pháp gộp theo thứ bậc cụ thể phương pháp kết nối Cách thực hiện: Chia thành n cụm đơn C1 , C2 , , Cn ; cụm chứa phần tử Lập ma trận khoảng cách cụm Tìm cặp cụm có khoảng cách ngắn nhất, chẳng hạn cụm 19 Ci cụm Cj , nhập hai cụm thành cụm (Ci , Cj ) đồng thời xóa bỏ cụm Ci Cj Lặp lại hai bước lại cụm dừng lại 2.9.1 Phương pháp phân cụm theo thứ bậc kết nối đơn Công thức tính khoảng cách hai cụm theo phương pháp phân cụm theo thứ bậc kết nối đơn: dA,B = min{dij }, (2.22) dij khoảng cách hai đối tượng i ∈ A j ∈ B Ví dụ 2.9.1 Cho ma trận khoảng cách phần tử D = [dik ] = 0 9 3 6 11 10     Bước Từ ma trận khoảng cách ta có khoảng cách hai phần tử nhỏ nên ghép thành cụm (3, 5) Tính khoảng cách từ phần tử lại đến cụm (3, 5) Như ma trận khoảng cách cụm (3, 5), (1), (2), (4) (3, 5) D = [dik ] = (3, 5) 3 7 4   Bước Khoảng cách cụm (3, 5) (1) ngắn 20 nên ghép hai cụm thành cụm (1, 3, 5) Ma trận khoảng cách cụm (1, 3, 5), (2), (4) (1, 3, 5) D = [dik ] = (1, 3, 5) Bước Khoảng cách cụm (2) (4) ngắn nên ghép hai cụm thành cụm (2, 4) Ma trận khoảng cách cụm (1, 3, 5), (2, 4) (1, 3, 5) (2, 4) (1, 3, 5) D = [dik ] = (2, 4) Bước Ghép hai cụm (1, 3, 5) (2, 4) thành cụm (1, 2, 3, 4, 5) 2.9.2 Phương pháp phân cụm theo thứ bậc kết nối đầy đủ Công thức tính khoảng cách hai cụm theo phương pháp phân cụm theo thứ bậc kết nối đầy đủ: dA,B = max{dij }, (2.23) dij khoảng cách hai đối tượng i ∈ A j ∈ B 2.9.3 Phương pháp phân cụm theo thứ bậc kết nối trung bình Công thức tính khoảng cách hai cụm theo phương pháp phân cụm theo thứ bậc kết nối trung bình: dA,B = dij , nA nB i∈A j∈B (2.24) 21 dij khoảng cách hai đối tượng i ∈ A j ∈ B , nA nB số đối tượng có cụm A B 2.10 PHƯƠNG PHÁP PHÂN CỤM K - TRUNG BÌNH Cách thực Phân chia đối tượng thành K cụm ban đầu Tính toán khoảng cách đối tượng đến tâm cụm (khoảng cách Euclide) Từ toàn đối tượng, phân phối lại đối tượng vào cụm có khoảng cách từ tâm cụm đến đối tượng nhỏ Tính toán lại trung tâm cụm Lặp lại bước không phân phối lại Ví dụ 2.10.1 Cho bảng số liệu hai chiều sau: Đối tượng A B C D Giá trị x1 -1 -3 quan sát x2 -2 -2 Phân chia đối tượng thành K = cụm cho khoảng cách từ đối tượng đến tâm cụm chứa nhỏ Bước Giả sử ta chọn A tâm nhóm thứ c1 (5, 3) B tâm nhóm thứ hai c2 (−1, 1) Bước Tính khoảng cách đối tượng đến tâm 22 cụm Ta ma trận khoảng cách 6, 32 6, 9, 43 D0 = 6, 32 3, 61 3, 61 Bước Nhóm đối tượng vào cụm gần 0 G0 = 1 Ta thấy sau vòng lặp thứ nhất, cụm gồm đối tượng A cụm gồm đối tương B, C, D Bước Cụm có đối tượng A nên tâm cụm không đổi Tâm cụm tính sau: −1 + − − − c2 = ; 3 = (−1, 5; −1, 5) Bước Tính lại khoảng cách từ đối tượng đến tâm Ta ma trận khoảng cách sau 6, 32 6, 9, 43 D1 = 6, 67 2, 55 2, 55 1, 58 Bước Phân phối đối tượng vào cụm 0 G1 = 1 Ta thấy G0 = G1 nên thuật toán dừng kết phân cụm sau Đối tượng A B C D Giá trị x1 -1 -3 quan sát x2 -2 -2 Cuối hai cụm cần tìm (A) (B,C,D) Cụm 2 23 2.11 ỨNG DỤNG CỦA PHÂN TÍCH CỤM Ví dụ 2.11.1 Trong xếp loại học lực, học sinh xếp thành loại Giỏi (GIOI), Khá (KHA), Trung bình (TB), Yếu (YEU), Kém (KEM) Trong ví dụ sử dụng thêm phương pháp phân tích cụm để có thêm góc nhìn khác đánh giá, xếp loại học sinh Ví dụ 2.11.2 Trường THPT A muốn dựa vào kết học tập lớp thí sinh trúng tuyển vào lớp 10 để phân vào lớp học cho học sinh lớp có kết học tập tương đối đồng Khi sử dụng phương pháp K - trung bình phân tích thành cụm 24 KẾT LUẬN Sau khoảng thời gian thu thập tài liệu, nghiên cứu tổng hợp, luận văn “Phân tích phân biệt, phân loại phân tích cụm” hoàn thành, luận văn giải hai toán sau: Bài toán phân biệt phân loại : Phương pháp đưa để giải toán dựa vào xác suất tiền nghiệm hàm mật độ xác suất để đưa hàm phân biệt, từ tính xác suất sai lầm phân loại Bài toán phân cụm: Để giải toán phân cụm, luận văn đưa hai phương pháp - Phương pháp phân cụm theo thứ bậc kết nối - Phương pháp phân cụm K -trung bình Mặc dù cố gắng trình độ có hạn nên luận văn không tránh khỏi sai sót, kính mong đóng góp ý kiến quý thầy cô bạn để luận văn hoàn thiện ... có phân bố chuẩn 1.7.2 Kiểm định χ - bình phương 1.8 KIỂM ĐỊNH GIẢ THIẾT VỀ VECTƠ TRUNG BÌNH CHƯƠNG PHÂN TÍCH PHÂN BIỆT, PHÂN LOẠI VÀ PHÂN TÍCH CỤM 2.1 KHÁI NIỆM PHÂN TÍCH PHÂN BIỆT VÀ PHÂN LOẠI... ngẫu nhiên phân bố chuẩn nhiều chiều Chương 2: Phân tích phân biệt, phân loại phân tích cụm Trong chương có hai nhiệm vụ chính: thứ giải toán phân biệt, phân loại; thứ hai giải toán phân cụm 3 CHƯƠNG... hành phân loại nhiệm vụ khoa học để đưa giới trật tự Và mục đích phân loại xác định xem đối tượng quan sát xếp vào lớp Khác với việc phân loại phân tích phân biệt Phân tích phân biệt kỹ thuật phân

Ngày đăng: 01/05/2017, 22:12

Xem thêm