Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 91 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
91
Dung lượng
0,9 MB
Nội dung
BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM TP.HCM Cao Thị Hồng Nhung PHÂN TÍCH BAYES THEO CHUẨN L1 LUẬN VĂN THẠC SĨ TOÁN HỌC Thành phố Hồ Chí Minh – 2012 BỘ GIÁO DỤC VÀ ÐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM TP.HCM Cao Thị Hồng Nhung PHÂN TÍCH BAYES THEO CHUẨN L Chuyên ngành: Toán Giải Tích Mã số: 60 46 01 LUẬN VĂN THẠC SĨ TOÁN HỌC NGƯỜI HƯỚNG DẪN KHOA HỌC GS TS ĐẶNG ĐỨC TRỌNG Thành phố Hồ Chí Minh – 2012 LỜI CẢM ƠN Sau hai năm học tập đại học Sư phạm Tp.HCM chuyên ngành toán Giải tích với quan tâm, giúp đỡ tận tình thầy cô, gia đình bạn bè, hôm em hoàn thành khóa học với luận văn tốt nghiệp Em xin bày tỏ lòng biết ơn chân thành, sâu sắc đến: Cha mẹ quan tâm dạy bảo, lo lắng cho bước đường đời chỗ dựa vững để hoàn thành tốt luận văn Thầy Đặng Đức Trọng – người tận tình hướng dẫn luận văn cho em Là học viên chuyên ngành giải tích nên kiến thức lĩnh vực Xác suất - Thống kê nhiều hạn chế, thầy dành nhiều thời gian dạy, hướng dẫn giúp đỡ em suốt trình thực luận văn, nguồn động lực vô lớn để em hoàn thành đề tài Em thật biết ơn thầy! Thầy Chu Đức Khánh Thầy Đinh Ngọc Thanh Hai thầy tận tình quan tâm giúp đỡ dẫn chúng em nghiên cứu khoa học Qua em xin cảm ơn ThS Nguyễn Văn Phong anh chị “nhóm seminar”, trao đổi với em đề tài Các thầy Khoa Toán – tin trường Đại học Sư phạm TPHCM, tận tình giảng dạy chúng em, thầy cô Phòng Sau đại học tạo điều kiện cho chúng em hai năm học Cao học vừa qua Cuối xin cảm ơn tất bạn giúp đỡ, đóng góp ý kiến để luận văn hoàn chỉnh Xin chân thành cảm ơn tất cả! Tp Hồ Chí Minh, tháng năm 2012 Cao Thị Hồng Nhung MỤC LỤC LỜI CẢM ƠN DANH MỤC DỊCH MỘT SỐ THUẬT NGỮ TIẾNG ANH PHẦN MỞ ĐẦU CHƯƠNG I KIẾN THỨC CHUẨN BỊ .1 1.1 Lý thuyết xác suất 1.2 Định lý Bayes 1.3 Phép biến đổi biến ngẫu nhiên 1.4 Các số đặc trưng biến ngẫu nhiên 1.5 Một số phân phối biến ngẫu nhiên 10 1.6 Hàm Lauricella D 15 1.7 Lý thuyết phương pháp phân tích Bayes 17 CHƯƠNG II PHÂN TÍCH BAYES THEO CHUẨN L 30 2.1 Hệ số chồng lấp sai số Bayes hai hàm mật độ R .30 2.2 Phân tích Bayes cho tỷ lệ trộn phân loại nhận dạng hai tổng thể 42 2.3 Khoảng cách L1 hai hàm mật độ xác suất 54 2.4 Khoảng cách L1 hai tổng thể 57 2.5 Ví dụ cụ thể phân tích tỷ lệ trộn π 59 CHƯƠNG III CẬN CỦA SAI SỐ BAYES TRONG BÀI TOÁN PHÂN LOẠI 66 3.1 Cận cho sai số Bayes trung bình 67 3.2 Phân tích hậu nghiệm .74 3.3 Ví dụ cụ thể 76 KẾT LUẬN .80 TÀI LIỆU THAM KHẢO 82 DANH MỤC DỊCH MỘT SỐ THUẬT NGỮ TIẾNG ANH Population: tổng thể Observation: quan sát Observable: quan sát Unobservable: không quan sát Prior probability: xác suất tiên nghiệm Posterior probability: xác suất hậu nghiệm Marginal probability: xác suất lề Conjugate family prior: họ phân phối tiên nghiệm liên hợp Classification: phân loại Misclassification: phân loại sai Likelihood function: hàm hợp lý Cost of misclassification: giá phân loại sai Expected cost of misclassification (ECM): kỳ vọng giá phân loại sai Overlapping coefficient: hệ số chồng lấp Incomplete Beta function: hàm Beta khuyết Binomial distribution: phân phối nhị thức Predictive distribution: phân phối dự đoán Improper: tầm thường Credible interval: khoảng tin cậy Bayes inference: suy diễn Bayes Decision theory: lý thuyết định Decision rule: quy tắc định Actions: tác động Loss function: hàm tổn thất Mean squared error: sai số bình phương trung bình Normalizing constant: số chuẩn hóa Proportional: tỷ lệ Effectiveness: tính hiệu PHẦN MỞ ĐẦU Lý chọn đề tài Trong thực tế có nhiều vấn đề đòi hỏi phải giải toán phân loại phân biệt tổng thể H1 H , vấn đề nhiều nhà toán học quan tâm lý thuyết ứng dụng Có nhiều phương pháp để giải toán phân loại đề cập chẳng hạn phương pháp phân loại dựa vào phương pháp phân tích phân biệt R.A Fisher (1936), tiêu chuẩn tỷ số hợp lý T.W Aderson (1984) [1], phương pháp sai số Bayes đề cập T.P Logan (1993) nhắc đến nhóm tác giả Pham-Gia, N Tukkan A Bekker (2006) [6],…Trong số phương pháp Bayes xem có hiệu hết tính xác suất sai lầm trình phân loại Trong toán phân loại phân biệt, nghiên cứu sai lầm vấn đề quan trọng đặt tiêu chuẩn để đánh giá việc giải toán tốt hay không Số đo phương pháp Bayes gọi sai số Bayes ( Pe ) phân loại tốt sai số Bayes nhỏ Hơn tiêu chuẩn phân loại toán dựa đánh giá khoảng cách phần tử hay hàm mật độ xác suất, việc chọn khoảng cách thích hợp thuận lợi xử lý tính toán quan tâm đặc biệt Có nhiều khoảng cách đưa tối ưu khoảng cách L1 hàm mật độ đề cập Pham-Gia et al (2006) [6] Thông qua khoảng cách sai số Bayes (cũng mối quan hệ đại lượng toán phân loại phân biệt) đề cập Trong phương pháp phân loại người ta đặc biệt quan tâm đến tổng thể H chứa phần tử chung H1 H , kết hợp từ tổng thể với tỷ lệ Giả sử H1 H ta quan sát biến ngẫu nhiên X , ký hiệu f1 ( x ) , f ( x ) hàm mật độ xác suất tương ứng hai tổng thể gọi π tỷ lệ trộn phần tử H1 H ( ≤ π ≤ 1) , hàm mật độ xác suất biến ngẫu nhiên X tổng thể H có dạng: g = ( x ) π f1 ( x ) + (1 − π ) f ( x ) , − π tỷ lệ trộn phần tử H H Tham số π thường cách xác, vấn đề cần quan tâm ước lượng π Ước lượng nghiên cứu McLachlan Basford (1988); Everitt (1985) dựa phương pháp cực đại tỷ số hợp lý phương pháp mômen Trước James (1978) dựa thực tế để ước lượng π đáng ý phải kể đến phương pháp Bayes nhóm tác giả Pham-Gia, N Tukkan A Bekker (2006) [6], phương pháp cho phép ước lượng π với giả thiết π có luật phân phối xác suất tiên nghiệm cụ thể chọn trước Với mong muốn tìm hiểu, nghiên cứu vấn đề nêu, dựa hai báo [6] [7], thực đề tài: “PHÂN TÍCH BAYES THEO CHUẨN L1 ” Mục đích nghiên cứu Đề tài nhằm trình bày phương pháp phân loại phần tử quan sát vào hai tổng thể R theo chuẩn L1 , từ thực phân tích Bayes tìm hàm mật độ hậu nghiệm cho tỷ lệ trộn π hỗn hợp Đồng thời tìm phân phối cho khoảng cách L1 hai hàm mật độ hai tổng thể khoảng cách hai tổng thể Xác định chặn chặn cho sai số Bayes phân loại, cận Lissack – Fu cận Bhattacharyya, qua đánh giá ảnh hưởng phân phối tiên nghiệm π hai loại cận Đối tượng phạm vi nghiên cứu Đề tài chủ yếu tập trung phân tích khái niệm, định lý R theo chuẩn L1 Dựa vào phương pháp Bayes để phân tích tỷ lệ trộn π hỗn hợp Các tổng thể với biến ngẫu nhiên có phân phối chuẩn, mũ, beta mô hình liệu có phân phối nhị thức Phương pháp nghiên cứu Phương pháp phân tích: Phân tích đề tài để xác định đối tượng phạm vi nghiên cứu Dựa báo, tài liệu tham khảo để phân tích làm rõ vấn đề cần nghiên cứu Phương pháp tổng hợp, khái quát hóa: Tổng hợp, khái quát vấn đề phân tích Nội dung nghiên cứu Luận văn chia làm chương Chương I Kiến thức chuẩn bị Nội dung chương trình bày kiến thức xác suất, định lý Bayes, lý thuyết phương pháp phân tích Bayes làm sở nghiên cứu cho chương sau Chương II Phân tích Bayes theo chuẩn L1 Nội dung: Trình bày phương pháp phân loại phần tử quan sát vào hai tổng thể R theo khoảng cách L1 Phân tích tỷ lệ trộn π phần tử thuộc H1 hỗn hợp H theo phương pháp Bayes với giả thiết π có phân phối tiên nghiệm cho trước dựa vào liệu để phân tích hậu nghiệm cho π Đồng thời dựa khoảng cách L1 để tìm phân phối cho khoảng cách hai hàm mật độ hai tổng thể phân phối hai tổng thể Chương III Cận sai số Bayes toán phân loại Trong chương nêu hai dạng cận sai số Bayes cận Lissack – Fu cận Bhattacharyya phân loại quan sát phần tử vào hai tổng thể xác định Đồng thời đưa khái niệm phép đo tính hiệu để đánh giá thực phân phối so sánh hai phân phối tiên nghiệm CHƯƠNG I KIẾN THỨC CHUẨN BỊ 1.1 Lý thuyết xác suất 1.1.1 Khái niệm xác suất Cho Ω không gian mẫu, σ − đại số Ω , hàm P : → R gọi phân phối xác suất độ đo xác suất thỏa mãn tiên đề sau: i) P ( A ) ≥ với A∈ ii) P ( Ω ) =1 iii) Nếu có Ai ∈ , i = 1, , n Ai ∩ Aj =∅, ∀i ≠ j , ∞ ∞ P Ai = ∑ P ( Ai ) i =1 i =1 , P ) gọi không gian xác suất, tập A∈ Khi ba ( Ω, biến cố P ( A ) xác suất biến cố A 1.1.2 Biến ngẫu nhiên Một biến ngẫu nhiên (hay gọi đại lượng ngẫu nhiên) ánh xạ X : → R , với kiện A∈ , X ( A ) nhận tương ứng số thực a Cho B ⊂ R , ta định nghĩa ( ) P ( X ∈ B) = P X −1 ( B ) 1.1.3 Hàm phân phối hàm mật độ 1.1.3.1 Định nghĩa Giả sử X biến ngẫu nhiên ( Ω, , P ) Hàm phân phối tích lũy hay gọi tắt hàm phân phối (viết tắt cdf) X hàm F : R → [ 0,1] xác định F= ( x) P ( X ≤ x) 1.1.3.2 Định nghĩa Biến ngẫu nhiên X gọi rời rạc X nhận hữu hạn đếm giá trị xi , i = 1, 2, Khi hàm mật độ X định nghĩa f= ( x ) P= ( X x) ∑ f (x ) Như vậy, ta có mối quan hệ F ( x = ) P ( X ≤ x =) xi ≤ x i 1.1.3.3 Định nghĩa Biến ngẫu nhiên X gọi liên tục tồn hàm f ( x ) cho i) f ( x ) ≥ với x +∞ ii) ∫ f ( x ) dx = −∞ iii) Với số a, b cho a ≤ b ta có b P (a < X < b) = ∫ f ( x ) dx a Khi hàm f ( x ) gọi hàm mật độ (pdf) biến ngẫu nhiên X Từ F ( x= ) P ( X ≤ x =) x ∫ f ( t ) dt −∞ f ( x) = F '( x) 1.1.3.4 Một số tính chất Giả sử F hàm biến ngẫu nhiên X Khi i) ≤ F ( x ) ≤ 1, ∀x ii) F ( x ) không giảm iii) lim F ( x ) = , lim F ( x ) = x →−∞ x →+∞ iv) P ( x < X ≤ y= ) F ( y) − F ( x) v) P ( X > x ) =− F ( x) vi) Nếu X liên tục, 69 f ( w) = f (π ) g ' (π ) f (π ) + g ' (π ) = f (π ) + f (π ) Vì π Beta (π , α , β ) nên ta có α −1 β −1 1− w 1− w 1 − 1− w f (π ) f= = = B (α , β ) (1 − w ) (1 + w ) 2α + β − B (α , β ) α −1 β −1 α −1 β −1 1+ w 1+ w 1 − 1+ w f (π ) f= = = B (α , β ) (1 + w ) (1 − w ) 2α + β − B (α , β ) α −1 β −1 Do f (π ) + f (π ) = f ( w) = 2 (1 − w ) (1 + w ) α −1 β −1 + (1 + w ) α −1 2α + β −1 B (α , β ) (1 − w ) β −1 với < p < ∞ , ta có ii) Theo bất đẳng thức Holder p p J1 ( H1 , H π ) =∫ P ( H1 t ) − P ( H t ) g ( t ) dt ≤ ∫ P ( H1 t ) − P ( H t ) g ( t ) dt R R ∫ R P ( H1 t ) − P ( H t ) g ( t ) dt ≤ ∫ P ( H1 t ) − P ( H t ) g ( t ) dt = J1 ( H , H π ) p R Từ lấy kỳ vọng hai vế tiên nghiệm π , ta ( ) p Eπ J p ( H1 , H π ) ≤ Eπ J1 ( H1 , H π ) ≤ Eπ J p ( H1 , H π ) Mặt khác J1 ( H1 , H= π) ∫ π f ( t ) − (1 − π ) f ( t ) dt = − ∫ {π f ( t ) , (1 − π ) f ( t )} dt 2 = − Pe Do ( ) ( ) p − Eπ J p ( H1 , H π ) ≤ Eπ [ Pe ] ≤ − Eπ J p ( H1 , H π ) 70 Tương tự với < p < , theo bất đẳng thức Holder số mũ âm, ta có: p p J1 ( H1 , H π ) =∫ P ( H1 t ) − P ( H1 t ) g ( t ) dt ≥ ∫ P ( H1 t ) − P ( H1 t ) g ( t ) dt R R J1 ( H1 , H π ) ≤ ∫ P ( H1 t ) − P ( H1 t ) g ( t ) dt p R Do J p ( H , H π ) p ≤ J1 ( H , H π ) ≤ J p ( H , H π ) Lấy kỳ vọng hai vế tiên nghiệm π dựa vào biểu thức J1 ( H1 , H π ) = − Pe , ta có − Eπ J p ( H1 , H π ) ≤ Eπ [ Pe ] ≤ − Eπ J p ( H1 , H π ) p Nhận xét Ta thấy p > , khoảng cách cận cận Pe tăng lên theo giá trị p iii) Ta có Pe = ∫ {π f ( x ) , (1 − π ) f ( x )}dx R Vì {a, b} ≤ aα b1−α , α ∈ ( 0,1) a > 0, b > nên với α = , ta có ∞ Pe ≤ ∫ π (1 − π ) f1 ( x ) f ( x )dx ≤ π (1 − π ) ρ , ∞ với ρ = ∫ f1 ( x ) f ( x )dx Đặt E1 = ∫ P ( H1 t ) P ( H t ) g ( t )dt Ta có { } { } P ( H1 t ) P ( H t ) ≥ P ( H1 t ) , P ( H t ) max P ( H1 t ) , P ( H t ) ≥ { } Do đó, ký hiệu A = P ( H1 t ) , P ( H t ) , ta có 71 = Pe ∫ {π f ( t ) , (1 − π ) f ( t )} dt R { } = ∫ P ( H1 t ) , P ( H t ) g ( t ) dt R E A (1 − A ) ≤ ∫ P ( H1 t ) P ( H t ) g ( t )dt = ≤ E ( A ) E (1 − A= ) Pe (1 − Pe ) ≤ Pe Đặt = δ P ( H t ) P ( H t ) g ( t ) dt ∫= E ( ) P ( H1 t ) P ( H t ) Ta có 1 1 − 4δ ≤ − − E1 ≤ Pe − 2 2 Thật vậy, trước hết từ bất đẳng thức Jensen ta có δ = E2 ( P ( H1 t ) P ( H t ) ) ≤ E P ( H1 t ) P ( H t ) E = ≤ Pe (1 − Pe ) Mặt khác − E1 ≥ − Pe (1 − Pe ) =− Pe Suy − Pe ≤ − 4δ Hay 1 − − 4δ ≤ Pe 2 Như − − 4π (1 − π ) ρ ≤ Pe ≤ π (1 − π ) ρ Lấy kỳ vọng hai vế π ta bất đẳng thức (4) Bổ đề chứng minh Nhận xét E1 cách đặt chứng minh gọi sai số lân cận gần toán phân loại phần tử, ký hiệu LNN có mối quan hệ với sai số Bayes: Pe ≤ LNN ≤ Pe 72 Chú ý hai loại cận bổ sung cho nhau, cận thứ sử dụng cho trường hợp p > 0, p ≠ cận thứ hai sử dụng p = Nhận thấy π phần bù − π xảy hỗn hợp nên chúng cần phải xem điều cần thiết, W thay xét Do đó, việc tìm khoảng cách W = − 2π đổi từ đến 1, W = π = W = π = π = Trường hợp π biến ngẫu nhiên có phân phối tiên nghiệm suy biến , ta có W = p p f1 ( t ) − f ( t ) J p H1 , H π = = ∫ dt < 1, R f1 ( t ) + f ( t ) p −1 ( p ≥ 1) Khi π có phân phối suy biến 1, ta có W = J p ( H1 , H π= 0= ) J p ( H1 , H π= 1=) Để nghiên cứu dạng tính hiệu phân phối tiên nghiệm, xem xét khoảng cách mà tạo hai cận Eπ [ Pe ] khoảng cách W xem xét lúc đầu 3.1.2 Đơn vị đo tính hiệu phân phối tiên tiên nghiệm 3.1.2.1 Định nghĩa Giả sử f (.) phân phối tiên nghiệm π Khi đơn vị đo tính hiệu (ký hiệu S – tính hiệu quả) cho f (.) : λ (f p ) với < p, p ≠ θ f định nghĩa sau: i) Với < p, p ≠ , Eπ J p ( H1 , H π ) − Eπ J p ( H1 , H π ) , với p > = Eπ [W ] p ( p) λf λ (f p ) Eπ J p ( H1 , H π ) − Eπ J p ( H1 , H π ) p , với < p < = Eπ [W ] ii) Tương tự, sử dụng cận Bhattacharrya định nghĩa 73 θf = ρ Eπ π (1 − π ) + Eπ − 4π (1 − π ) ρ − Eπ [W ] đơn vị đo tính hiệu tương ứng L1 3.1.2.2 Định nghĩa Cho hai phân phối tiên nghiệm phân biệt f1 (.) f (.) giá trị cố định p, ta định nghĩa f1 hiệu f (hoặc S – hiệu hơn) theo cận Lissack-Fu, ký hiệu f1 > LF ( p ) f λ (f1p ) > λ (f2p ) Tương tự, f1 hiệu f theo cận Bhattacharyya, ký hiệu f1 > B f θf >θf 3.1.2.3 Định lý Cho phân phối tiên nghiệm f (.) π E (π ) ≠ i) λ (f p ) hàm tăng p , với p > Hơn nữa, với p cố định, ta có: (1 − p ) −1 ( p) λf < 2p − E (π ) −1 − E (π ) θf < ii) p −1 Chứng minh i) Vì khoảng cách hai cận Pe hàm tăng theo p ( p > 1) nên ta có λ (f p ) hàm tăng theo p Mặt khác, ta có cực đại khoảng cách hai cận L – F Pe p λξ ≤ −p −p p −1 −1 , nên cận Bhattachayya ( p) −1 p −1 (1 − p ) −1 2p p −1 Eπ [W ] θξ ≤ −1 2Eπ [W ] Vì W = − 2π hàm lồi nên theo bất đẳng thức Jensen ta có 74 Eπ [W= ] Eπ − 2π ≥ − Eπ (π ) Vì E (π ) ≠ nên (1 − p ) −1 λ (f p ) < 2p p −1 − E (π ) θ f < −1 − E (π ) Định lý chứng minh Nhận xét Khi α= β → ∞ ta có E (π ) → , λ (f p ) → ∞ (tương tự θ f → ∞ ) Như vậy, theo thứ tự phân phối tiên nghiệm π , họ p tiên nghiệm Beta xác định tham số (α * , β * ) để làm cho λ (f * ) cực đại hay không? Với E (π ) ≠ , phương trình λ (f p ) = UB (ký hiệu UB cận trên) chứng minh nghiệm với (α * , β * ) Do tìm (α ', β ') λ (f p ) < λ (f p' ) < UB cận λ (f p ) chưa đạt Kết tương tự áp dụng θ f 3.2 Phân tích hậu nghiệm Tương tự chương II, để đơn giản, xét trường hợp phân loại trực tiếp dựa hai hàm mật độ với xác suất phân loại sai tương ứng d1 d2 ε d1 + d Khi đó, chứng minh với hệ số chồng lấp= chương II, π có phân phối tiên nghiệm Beta (π , α , β ) với n quan sát từ hỗn hợp, có j quan sát thuộc H1 , ta có hàm mật độ xác suất hậu nghiệm π φ trong= đó, A ε −1 ( n, j ) = ,B d2 (π ) = Beta (π , α , β ) [1 − Aπ ] [1 − Bπ ] 1− ε − d2 ( j n− j , P0( n , j ) ( A, B ) ) L ( n, j )= ∫ f (π )(1 − Aπ ) (1 − Bπ ) j n− j dπ 75 Phân phối hậu nghiệm khoảng cách π − π Định lý Giả sử π tỷ lệ trộn hỗn hợp với hàm mật độ g= ( x ) π f1 ( x ) + (1 − π ) f ( x ) phân loại sai vào H H1 với xác suất tương ứng d1 d Nếu π có phân phối tiên nghiệm Beta (π , α , β ) với n quan sát từ hỗn hợp có j quan sát thuộc vào H1 , W có hàm mật độ hậu nghiệm j n− j α −1 β −1 f ( n , j ) ( w ) = (1 − w ) (1 + w ) ( − A ) + Aw ( − B ) + Bw j n− j α −1 β −1 + (1 + w ) (1 − w ) ( − A ) − Aw ( − B ) − Bw / 2α + β + n −1 B (α , β ) P0( n , j ) ( A, B ) , P0( n , j ) ( A, B ) đa thức theo A B j = n j = Chứng minh Ta có W = − 2π Vì π có phân phối hậu nghiệm cho hàm mật độ φ ( n, j ) (π ) = Beta (π , α , β ) [1 − Aπ ] [1 − Bπ ] j n− j P0( n , j ) ( A, B ) nên cách thay đổi biến trước tính toán, có biểu thức cho hàm mật độ hậu nghiệm W Thật vậy, giả sử f ( n , j ) ( w ) hàm mật độ W = g (π )= − 2π φ ( n , j ) (π ) hàm mật độ π Xét phương trình w= g (π )= − 2π ta có = π1 ( w) Vậy 1− w 1+ w , π ( w) = 2 = w g= (π ( w ) ) g (π ( w ) ) Khi hàm mật độ hậu nghiệm W f ( n, j ) ( w) = Ta có φ ( n , j ) (π ) φ ( n , j ) (π ) ( n , j ) + = φ (π1 ) + φ ( n, j ) (π ) g ' (π ) g ' (π ) 76 1− w φ ( n , j ) (π ) = φ ( n , j ) 1− w − w Beta , α , β 1 − A = P0( n , j ) ( A, B ) (1 − w ) (1 + w ) α −1 = j − w 1 − B n− j ( − A ) + Aw ( − B ) + Bw α + β + n−2 B (α , β ) P0( n , j ) ( A, B ) β −1 j n− j 1+ w φ ( n , j ) (π ) = φ ( n , j ) 1+ w + w , α , β 1 − A Beta = P0( n , j ) ( A, B ) (1 + w ) (1 − w ) α −1 = j + w 1 − B n− j ( − A ) − Aw ( − B ) − Bw 2α + β + n − B (α , β ) P0( n , j ) ( A, B ) β −1 j n− j Từ suy phân phối hậu nghiệm W có hàm mật độ cho biểu thức (5) Định lý chứng minh ( Từ kết trên, tính Eπ( n , j ) J p ( H1 , H π ) ) λ (f n,( pj )) , θ (f n j ) thông qua hàm mật độ hậu nghiệm π W 3.3 Ví dụ cụ thể Giống chương II, ta lấy hai tổng thể H1 H với phân phối X N ( 5,92 ) X N (18, 62 ) Tỷ lệ π H1 cho phân phối tiên nghiệm Beta (π , 4,16 ) 3.3.1 Phân tích tiên nghiệm Phân phối tiên nghiệm π có hàm mật độ f (π ) = π (1 − π ) 15 B ( 4,16 ) phương sai E (π ) = 0.20 Var (π ) = 7.619 x 10−3 Khoảng cách W π − π có hàm mật độ tiên nghiệm , với trung bình 77 (1 − w )3 (1 + w )15 + (1 − w )15 (1 + w )3 f ( w) = 19 B ( 4,16 ) (1 − w )3 (1 + w )15 + (1 − w )15 (1 + w )3 , = [33.81631] ≤ w ≤ Khi Eπ (W ) = 0.6003 Varπ (W ) = 0.0301 Tính cận Lissack-Fu cận Bhattacharyya cho Eπ [ Pe ] Bây giả sử p = , ta tính ( ) π f1 ( t ) − (1 − π ) f ( t ) π (1 − π )15 ∫0= ∫ π f1 ( t ) + (1 − π ) f ( t ) B ( 4,16 ) dtdπ 0.6768 = Eπ J p ( H1 , H π ) Eπ J ( H1 , H π ) = 0.8208 Từ cận Lissack Fu xác định 0.0896 ≤ Eπ [ Pe ] ≤ 0.1616 Tương tự, ta có cận Bhattacharyya Eπ [ Pe ] 0.0705 ≤ Eπ [ Pe ] ≤ 0.251 S – tính hiệu phân phối tiên nghiệm so sánh hai tiên nghiệm Ký hiệu f1 (π ) hàm mật độ tiên nghiệm thứ π với phân phối Beta (π , 4,16 ) tính λ (f 2) Với p = , ta = 0.8208 − 0.6768 = 0.1199 x 0.6003 Giả sử lấy Beta (π , 2,18 ) phân phối tiên nghiệm thứ hai π với hàm mật độ f (π ) Khi λ (f22) = 0.0560 Ta có nên λ (f 2) > λ (f 2) f1 > LF ( ) f2 Như vậy, theo đánh giá thấy sử dụng tiên nghiệm Beta (π , 4,16 ) thích hợp tiên nghiệm Beta (π , 2,18 ) 78 Tương tự θ f = 0.3006 θ f = 0.1800 Do f1 > B f2 Từ cận λ (f 2) λ (f 2) tính 0.2083 0.1565 Tương tự, cận θ f 0.3451 θ f 0.2588 3.3.2 Phân tích hậu nghiệm Khi π phân phối tiên nghiệm Beta (π , 4,16 ) phân phối hậu nghiệm π W có hàm mật độ xác định φ ( 20,5) (π ) = π (1 − π ) (1 − Aπ ) (1 − Bπ ) , ( 20,5) P0 ( A, B ) B ( 4,16 ) 15 15 15 15 f ( 20,5) ( w ) = (1 − w ) (1 + w ) ( − A ) + Aw ( − B ) + Bw 15 15 + (1 + w ) (1 − w ) ( − A ) − Aw ( − B ) − Bw / 239 B ( 4,16 ) P0( 20,5) ( A, B ) , A = −4.8716, B = 0.7183, P0( 20,5) ( A, B ) = 2.5593 Phân phối W thể hình 3.1 f(w) posterior prior Hình 3.1 Phân phối tiên nghiệm hậu nghiệm khoảng cách W π 1− π 79 Ta có trung bình phương sai hậu nghiệm W Eπ( 20,5) (W ) = 0.6092 Varπ( 20,5) (W ) = 0.023 Trung bình hậu nghiệm W lệch bên phải so với phân phối tiên nghiệm có phương sai nhỏ phương sai tiên nghiệm Bây giả sử lấy j = tính toán ta thấy cận hậu nghiệm Lissack Fu cho Eπ [ Pe ] 0.0953 ≤ Eπ [ Pe ] ≤ 0.1712 So sánh với cận L-F tiên nghiệm giá trị p = ta thấy có tăng lên tương đối nhỏ cận cận Eπ [ Pe ] Tương tự cận hậu nghiệm Bhattacharyya: 0.0710 ≤ Eπ [ Pe ] ≤ 0.254 So với cận tiên nghiệm hai giá trị có tăng lên Đồng thời tính đơn vị đo tính hiệu hậu nghiệm f1 (π ) λφ((2) ) = 0.1246 θφ((2) ) = 0.2971 20,6 f1 20,6 f1 Nhận xét λφ((2) ) = 0.1246 > 0.1199 = λ (f 2) 20,6 f1 θφ((2) ) = 0.2971 > 0.3006 = θ f 20,6 f1 80 KẾT LUẬN Luận văn trình bày lý thuyết phương pháp phân loại phần tử vào hai tổng thể R trực tiếp dựa hàm mật độ trình bày phân loại sai theo khoảng cách L1 Đồng thời luận văn nêu khái quát phương pháp Bayes lý thuyết định để từ thực phân tích tỷ lệ trộn π phần tử H1 hỗn hợp H , phân tích kết hậu nghiệm cho π đưa ví dụ cụ thể để phân tích làm rõ vấn đề việc chọn hàm mật độ tiên nghiệm cho π , quan sát liệu tính toán kết hậu nghiệm π để đưa ước lượng tốt cho π Trong chương 3, luận văn nêu số kết giới hạn cho trung bình sai số Bayes π xem biến ngẫu nhiên Và từ đưa định nghĩa phép đo tính hiệu để đánh giá thực phân phối so sánh hai phân phối tiên nghiệm Vì tỷ lệ π − π xem xét hỗn hợp nên việc tìm phân phối tiên nghiệm hậu nghiệm cho khoảng cách trình bày Lý thuyết phương pháp Bayes toán phân loại phân tích tham số mô hình xác suất xem vững mạnh so với phương pháp khác, so với phương pháp thống kê cổ điển (hay thống kê tần suất) việc suy diễn tham số phương pháp Bayes tối ưu thuận lợi luận văn thực phần suy diễn π theo cách thức thống kê Bayes trình bày theo chuẩn L1 để làm sở cho việc phân loại phần tử tổng thể chưa biết tỷ lệ tổng thể hỗn hợp Các kết luận văn làm sở cho việc nghiên cứu suy diễn tham số theo thống kê Bayes, số vấn đề toán phân loại phần tử giới hạn bị chặn sai số Bayes Tuy nhiên, hạn chế kiến thức thời gian nên luận văn chưa thể hết phân tích tham số tất khía cạnh thống kê Bayes lý 81 thuyết định chưa mở rộng vấn đề hỗn hợp nhiều tổng thể Do định hướng cho nghiên cứu giải vấn đề chưa làm rõ mở rộng đến nhiều ứng dụng thống kê Bayes 82 TÀI LIỆU THAM KHẢO Tiếng Việt [1] Võ Văn Tài (2010), Sử dụng hàm cực đại phân tích nhận dạng thống kê cho nhiều tổng thể nhiều chiều, Luận án tiến sĩ toán học, Đại học Quốc gia TPHCM [2] Võ Văn Tài, Phạm Gia Thụ, Tô Anh Dũng (2008), “Sai số Bayes khoảng cách hai hàm mật độ xác suất phân loại hai tổng thể”, Tạp chí phát triển khoa học công nghệ, Đại học Quốc gia TPHCM, 11(6), tr.23-37 [3] Võ Văn Tài, Phạm Gia Thụ, Tô Anh Dũng (2008), “Ước lượng Bayes cho tỉ lệ trộn phân loại nhận dạng hai tổng thể”, Tạp chí phát triển khoa học công nghệ, Đại học Quốc gia TPHCM, 11(1), tr.21-30 [4] Nguyễn Thị Hải Yến (2012), Sử dụng hàm cực đại vào toán phân biệt phân chùm, Luận văn thạc sĩ toán học, Đại học sư phạm TPHCM Tiếng Anh [1] Anderson, T.W (1984), An introduction to multivariate statistical analysis, Wiley, New York [2] William M Bolstad (2007), Introduction to Bayesian statistics, Wiley [3] Luc Devroye, László Gyorfi, Gábor Lugosi (1996), A Probabilistic Theory of Pattern Recognition, Springer [4] Jayanta K Ghosh, Mohan delampady, Tapas (2006), An introduction to Bayesian analysis theory and methods, Springer [5] Lymon Ott, R., Micheal longnecker, An introduction to statistical methods and data analysis, Texas A&M university [6] Pham – Gia, T., and Turkkan, N (2006), “Bayesian analysis in the L1 - norm of the mixing proportion using discriminant analysis”, Metrika 64(1), pp.1-22 [7] Pham – Gia, T., Turkkan, N and Bekker, A., (2006), “Bounds for the Bayes error in classification: A Bayesian approach using discrimination analysis”, Statistical Methods and Applications 16, pp.7-26 83 [8] Pham – Gia, Turkkan, N and Tai, Vovan, (2008), “The maximum function in statistical discrimination analysis”, Commun In Stat – Simulation computation 37(2), pp.320-336 [9] Larry Wasserman (2003), All of statistics, Springer [...]... ) f (θ x ) dθ 2 n Phân vị của phân phối hậu nghiệm Phân vị thứ k của phân phối hậu nghiệm (hay phân vị hậu nghiệm của π với mức xác suất k % ) là giá trị θ k được xác định bởi θk ( ) k = 100 ∫ f θ x n dθ −∞ Một số phân vị quan trọng: Điểm tứ phân vị thứ nhất Q1 là phân vị mức xác suất 0.25, điểm tứ phân vị thứ hai Q2 là phân vị mức xác suất 0.5 và điểm tứ phân vị thứ ba Q3 là phân vị mức xác suất... việc chọn phân phối tiên nghiệm khá tốt Một số ví dụ về các phân phối tiên nghiệm liên hợp cho các mô hình một tham số: Mô hình Phân phối tiên nghiệm Chuẩn với phương sai đã biết Chuẩn (đối với trung bình) Chuẩn với trung bình đã biết Gamma (đối với phương sai) Nhị thức Beta Poisson Gamma Chú ý Phân phối tiên nghiệm liên hợp chỉ tồn tại khi phân phối các quan sát từ mẫu ngẫu nhiên là họ phân phối mũ,... sử dụng tiên nghiệm có phân phối Beta Phân phối tiên nghiệm có tính chất như vậy gọi là phân phối tiên nghiệm liên hợp Phân phối tiên nghiệm liên hợp Khi một phân phối tiên nghiệm có tính chất: Tiên nghiệm và hậu nghiệm có cùng một họ phân phối thì gọi đó là phân phối tiên nghiệm liên hợp tương ứng với mô hình 22 Hầu hết các phân phối tiên nghiệm sử dụng trong việc ứng dụng Bayes đều là liên hợp vì... 1.7 Lý thuyết và phương pháp phân tích Bayes Khi phân tích dữ liệu, các nhà thống kê thường bắt đầu bằng việc cung cấp một mô hình xác suất theo cách mà dữ liệu được tạo ra, thông thường dữ liệu được tạo ra bằng cách lấy mẫu ngẫu nhiên hoặc một số cơ cấu lấy mẫu khác Khi một mô hình đã được chọn, dữ liệu được xử lý như một vectơ ngẫu nhiên X = ( X 1 , X 2 , , X n ) với phân phối xác suất được xác định... và sự phân tán có thể có của tham số Giả sử Beta (α , β ) là một họ các phân phối tiên nghiệm liên hợp trong mô hình nhị thức mà chúng ta sẽ chọn, tuy nhiên phân phối Beta có rất nhiều dạng nên không biết sẽ chọn thế nào nhưng chúng ta có niềm tin về giá trị trung bình và độ lệch chuẩn có thể có của π Từ đó có thể chọn được phân phối tiên nghiệm thích hợp theo cách sau: Giả sử chúng ta tin rằng phân. .. Var ( X ) 2 (a − b) 2 12 13 1.5.2.2 Phân phối chuẩn Biến ngẫu nhiên X có phân phối chuẩn (hoặc Gauss) với tham số µ và σ ký hiệu bởi X N ( µ , σ 2 ) nếu X có hàm mật độ ( x − µ )2 1 f ( x) = exp − 2σ 2 σ 2π ( x ∈ ) , với µ ∈ R và σ > 0 Tham số µ và σ 2 lần lượt là trung bình và phương sai của phân phối ( σ là độ lệch chuẩn) Khi đó X có hàm phân phối xác suất 1 F ( x) = σ 2π (... tin về x bằng cách dự đoán phân phối cho x dựa trên quan sát x với sự phân tích hậu nghiệm của tham số θ trong mô hình Ta có Phân phối dự đoán hậu nghiệm của x có hàm mật độ được xác định bởi 26 ( ) ( ) f x x = ∫ f x θ f (θ x ) dθ Φ Khi chưa quan sát dữ liệu chúng ta cũng có thể thực hiện dự đoán phân phối của x thông qua phân phối tiên nghiệm của tham số θ được gọi là phân phối dự đoán tiên nghiệm... họ phân phối xác định bởi p = f ( x θ ) h ( x ) exp c (θ ) + ∑ t j ( x ) Aj (θ ) , j =1 trong đó, c (θ ) , Aj (θ ) chỉ phụ thuộc vào θ và t j ( x ) chỉ phụ thuộc vào x Hàm h ( x ) > 0 và không phụ thuộc vào θ Ví dụ các các phân phối thuộc họ mũ như là: Phân phối Chuẩn, Bernoulli, Nhị thức, Đa thức, Mũ, Poisson,… 1.7.3 Một số vấn đề trong việc chọn phân phối tiên nghiệm 1.7.3.1 Chọn phân. .. suất 0.975 và 0.025 Có hai cách thực hiện việc tìm khoảng tin cậy Bayes đó là sử dụng Minitab và xấp xỉ phân phối ( ) hậu nghiệm Beta (α ', β ') bởi một phân phối chuẩn N m ', ( s ')2 , với m ' và ( s ')2 là trung bình và phương sai hậu nghiệm của π Khi đó miền tin cậy (1 − α ) 100% của π xấp xỉ m '± zα / 2 s ' , trong đó zα / 2 là phân vị chuẩn tắc mức xác suất α 2 1.7.6 Các bài toán nhiều tham số Giả... tâm Giả sử chúng ta cần suy diễn về tham số θ1 thì phân phối hậu nghiệm lề của θ1 là ( ) ( ) f θ1 x n = ∫ ∫ f θ1 , θ 2 , , θ p x n dθ 2 dθ p Trong thực tế thì việc tính tích phân này rất khó thực hiện nên có thể dựa vào một số phương pháp để đánh giá, chẳng hạn như phương pháp đánh giá phân tích, xấp xỉ tiệm cận hoặc mô hình hóa trực tiếp,… 1.7.7 Phân phối dự đoán cho một quan sát mới Giả sử x = ( ... thuyết phương pháp phân tích Bayes 17 CHƯƠNG II PHÂN TÍCH BAYES THEO CHUẨN L 30 2.1 Hệ số chồng lấp sai số Bayes hai hàm mật độ R .30 2.2 Phân tích Bayes cho tỷ lệ trộn phân loại nhận... thực đề tài: “PHÂN TÍCH BAYES THEO CHUẨN L1 ” Mục đích nghiên cứu Đề tài nhằm trình bày phương pháp phân loại phần tử quan sát vào hai tổng thể R theo chuẩn L1 , từ thực phân tích Bayes tìm hàm... trung phân tích khái niệm, định lý R theo chuẩn L1 Dựa vào phương pháp Bayes để phân tích tỷ lệ trộn π hỗn hợp Các tổng thể với biến ngẫu nhiên có phân phối chuẩn, mũ, beta mô hình liệu có phân