Hiện tại thống kê có hai trường phái: Thống kê tần suất và thống kê Bayes. Thống kê tần suất đã ra đời trước, là phương pháp phổ biến hiện nay. Nó dựa trên những kết quả quan sát mẫu của hiện tại mà không cần để ý đến những thông tin, dữ liệu đã biết trước. Thống kê Bayes dựa trên những thông tin dữ liệu đã biết trước về vấn đã quan sát để suy luận cho những thống kê hiện tại. Trước sự phát triển mạnh mẽ của công nghệ thông tin, đặc biệt là những phần mềm thống kê, việc lưu trữ những thông tin rất thuận lợi thì thống kê Bayes ngày càng phát triển. Chúng ta có thể đem thống kê Bayes vào phương pháp tần suất để phát triển nhiều kết quả lý thuyết cũng như ứng dụng. Chính vì vậy, có thể nói thống kê Bayes là một mảng kiến thức rộng lớn được rất nhiều nhà thống kê trên thế giới quan tâm, tuy nhiên ở nước ta vấn đề này chưa được nghiên cứu nhiều.So với các phương pháp khác, phương pháp thống kê Bayes lập luận theo kinh nghiệm được tích lũy áp dụng vào mô hình phân loại đối tượng linh hoạt hơn, phù hợp với đặc trưng của bài toán hơn. Các cơ chế ước lượng cũng gần gũi với cách suy luận thông thường, chính vì vậy mà các kết quả phân loại tương đối giống với cách phân loại thông thường.
PHẦN MỞ ĐẦU Hiện thống kê có hai trường phái: Thống kê tần suất thống kê Bayes Thống kê tần suất đời trước, phương pháp phổ biến Nó dựa kết quan sát mẫu mà không cần để ý đến thông tin, liệu biết trước Thống kê Bayes dựa thông tin liệu biết trước vấn quan sát để suy luận cho thống kê Trước phát triển mạnh mẽ công nghệ thông tin, đặc biệt phần mềm thống kê, việc lưu trữ thơng tin thuận lợi thống kê Bayes ngày phát triển Chúng ta đem thống kê Bayes vào phương pháp tần suất để phát triển nhiều kết lý thuyết ứng dụng Chính vậy, nói thống kê Bayes mảng kiến thức rộng lớn nhiều nhà thống kê giới quan tâm, nhiên nước ta vấn đề chưa nghiên cứu nhiều.So với phương pháp khác, phương pháp thống kê Bayes lập luận theo kinh nghiệm tích lũy áp dụng vào mơ hình phân loại đối tượng linh hoạt hơn, phù hợp với đặc trưng toán Các chế ước lượng gần gũi với cách suy luận thông thường, mà kết phân loại tương đối giống với cách phân loại thông thường Suy luận Bayes sử dụng rộng rãi tất ngành nghề y học, kinh tế, tin học,v.v Đặc biệt xác suất thống kê đóng vai trò quan trọng.Hiện tìm số biểu thức giải tích hậu nghiệm cụ thể giả sử tiên nghiệm hàm mật độ xác suất thông dụng Beta, mũ, chuẩn, Trong thống kê sử dụng định lý Bayes cho ước lượng kiểm định tham số thống kê, toán phân loại ngày trở nên phổ biến Chương BIẾN NGẪU NHIÊN VÀ CÁC PHÂN PHỐI XÁC SUẤT THÔNG DỤNG 1.1 Biến ngẫu nhiên luật phân phối xác suất 1.1.1 Khái niệm phân loại a) Khái niệm Biến ngẫu nhiên biến nhận giá trị khả phép thử ngẫu nhiên với xác suất định phụ thuộc vào kết phép thử ngẫu nhiên Các biến ngẫu nhiên thường ký hiệu chữ hoa như: X, Y, Z, … dạng số: X1, X2, …, Xn; Y1, Y2, …, Yn;…Các giá trị có biến ngẫu nhiên ký hiệu là: x1, x2, …, xm; y1, y2…,ym,… Một biến ngẫu nhiên coi xác định biết tập giá trị xác suất mà nhận giá trị thuộc tập b) Phân loại Gọi tập giá trị biến ngẫu nhiên X X (Ω ) Căn vào tập X (Ω ), biến ngẫu nhiên chia thành loại: rời rạc liên tục Biến ngẫu nhiên rời rạc: Biến ngẫu nhiên gọi rời rạc X (Ω ) hữu hạn vô hạn đếm được, cách quãng Biến ngẫu nhiên liên tục: Biến ngẫu nhiên gọi liên tục X (Ω ) lắp đầy khoảng hay số khoảng hay toàn trục số 1.1.2 Hàm mật độ xác suất a) Đối với biến ngẫu nhiên rời rạc Giả sử biến ngẫu nhiên rời rạc X có n giá trị xi, i = 1, 2, …, n, với xác suất tương ứng pi = P(X = xi) > 0, hàm mật độ xác suất X (ký hiệu f(x)) xác định sau: pi x = xi , i = 1, 2, , n f ( x) = x ≠ xi Thông thường để thuận lợi đánh giá biến ngẫu nhiên rời rạc, hàm mật độ xác suất biểu diễn dạng bảng phân phối xác suất sau: X P x1 p1 x2 p2 … … xn pn b) Đối với biến ngẫu nhiên liên tục Hàm số y = f(x) xác định R gọi hàm mật độ xác suất biến ngẫu nhiên liên tục X thỏa tính chất sau: i) f(x) hàm không âm: f(x) ≥ ∀ x, +∞ ∫ f ( x)dx = ii) −∞ Về mặt hình học, việc tìm hàm mật độ f(x) xem việc tìm hàm số f(x) khơng âm mà diện tích hình phẳng giới hạn đồ thị y = f(x) trục hồnh Diện tích đặc trưng cho tất khả xảy phép thử Từ ý nghĩa hình học ta rút tính chất quan trọng hàm mật độ xác suất sau: b P(a ≤ X ≤ b) = ∫ f ( x)dx i) a ii) P(a b) = P(a µ H : µ1 = µ , H : µ1 < µ µ1 ≠ µ Tính P – giá trị: 42 Nếu chọn đối thiết Nếu chọn đối thiết Nếu chọn đối thiết µ1 > µ µ1 < µ µ1 ≠ µ ÷ x1 − x2 ÷ PV = 0.5 + ϕ 2 ÷ σ1 + σ ÷ n n ÷ ÷ x1 − x2 ÷ PV = 0.5 − ϕ 2 ÷ σ1 + σ ÷ n n ÷ ÷ x1 − x2 ÷ PV = − ϕ 2 ÷ σ1 + σ ÷ n n ÷ Chú ý:Khi phương sai hai tổng thể chưa biết, thay chúng phương sai mẫu điều chỉnh Trong trường hợp phương sai hai tổng thể nhau, chưa biết, ta thaymỗi phương sai phương sai mẫu điều chỉnh, phương sai thay phương sai gộp: c) Phương pháp Bayes i)Phương sai hai tổng thể Nếu biết phương sai hai tổng thể ta áp dụng công thức ) m1 , sau để tính trung bình phương sai hậu nghiệm ) n1 x1s12 + m1σ m1 = n1s12 + σ , Đặt µ d = µ1 − µ ) ) N ( µ d , sd2 ) , ) m2 , sau: ) n2 x2 s22 + m2σ m2 = n2 s22 + σ µd có phân phối tiên nghiệm chuẩn , ) ) ) µ d = µ1 − µ , 43 Nếu chưa biết phương sai ta ước lượng phương sai điều chỉnh từ liệu sau sử dụng phương sai gộp cho việc thay Cụ thể: Chọn giả thiết đối thiết với Tính P-giá trị Nếu chọn Nếu chọn Nếu chọn ii) Phương sai hai tổng thể không σ 12 Khi biết phương sai nghiệm s12 xác định s d2 = s12 + s 22 s 22 và σ 22 ta tính phương sai hậu Lúc phương sai hậu nghiệm d Trong trường hợp chưa biết phương sai, sử dụng phương sai mẫu để tìm s12 phương sai hậu nghiệm d xác định s d2 = s12 + s 22 s 22 Lúc phương sai hậu nghiệm 3.6 Kểm định liên quan đến tỷ lệ 3.6.1 Kiểm định tỷ lệ a) Bài tốn Giả sử biến ngẩu nhiên X có phân phối nhị thức với xác suất xảy biến cố cần quan tâm p chưa biết Giả sử p có phân phối tiên nghiệm Beta() Lấy mẫu gồm n phần tử, có m phần tử mà ta quan tâm xảy Với độ tin cậy cho trước ta cần kiểm tra giả thiết đối thiết b) Phương pháp tần số 44 Nếu chọn đối p > p0 thiết ( f − p0 ) n PV = 0.5 + ϕ ÷ p (1 − p ) ÷ Nếu chọn đối thiết p < p0 ( f − p0 ) n PV = 0.5 + ϕ ÷ p (1 − p ) ÷ ( f − p0 ) n PV = − ϕ ÷ p (1 − p ) ÷ Nếu chọn đối thiết f= p ≠ p0 m n tỷ lệ phần tử quan tâm mẫu c) Phương pháp Bayes Gọi xác suất hậu nghiệm p, ta có có phân phối Beta(), Ta có với Đặt Khi Pv xác định sau: 3.6.2 So sánh hai tỷ lệ a) Bài tốn 45 Giả sử hai tổng thể có tỷ lệ phần tử có tính chất A với tỷ lệ , chưa biết Giả sử có phân phối tiền nghiệm Beta(), có phân phối tiên nghiệm Beta() Chọn mẫu gồm phần tử từ phần tử từ ta có số phần tử có tính chất A Với độ tin cậy cho trước ta cần kiểm định giả thiết H : p1 = p2 p > p H : p1 < p2 p ≠ p b) Phươnng pháptần số Nếu chọn đối thiết p1 > p1 p1 < p1 p1 > p1 ÷ ÷ f1 − f PV = 0.5 + ϕ ÷ p(1 − p) + ÷ ÷ n1 n2 ÷ Nếu chọn đối thiết ÷ ÷ f1 − f PV = 0.5 − ϕ ÷ p(1 − p) + ÷ ÷ n1 n2 ÷ Nếu chọn đối thiết ÷ ÷ f1 − f PV = − 2ϕ ÷ p (1 − p ) + ÷ ÷ n1 n2 ÷ f,f tỷ lệ phần tử quan tâm mẫu mẫu mẫu 2, f tỷ lệ phần tử quan tâm chung hai mẫu 46 c) Phương pháp Bayes Giả sử hai phân phối độc lập, hai phân phối hậu nghiệm Beta: độc lập, Ta có phân phối Beta xấp xỉ phân phối chuẩn, phân phối hậu nghiệm có phân phối chuẩn Để so sánh ta đặt giả thiết , -giá trị xác định tương ứng đối thiết sau: Nếu Nếu Nếu 3.7 Một số phương pháp kiểm định khác thống kê Bayes 3.7.1 Kiểm định đuôi Đặt giả thiết:H0: θ ≤ θ0 π = P( H ) = P(θ ≤ θ ) đối thiết H1: θ > θ0 Gọi π = P( H1 ) = P(θ > θ ) , xác suất tiên nghiệm α0 = θ > θ | x) P( θ ≤ θ0 | x ) = P(H0|x), α1 = P( = P(H1|x) xác suất hậu nghiệm a) Tiêu chuẩn Jeffrey Nếu α0 α < 1: Bác bỏ giả thiết α0 α > 1: Chấp nhận giả thiết Nếu b) Kiểm định theo nhân tố Bayes Nhân tố Bayes định nghĩa tỉ số chênh lệch tỉ số hậu nghiệm tỉ số tiền nghiệm 47 B= (α / α ) α 0π = (π / π ) α 1π Nếu B>1: Bác bỏ giả thiết Nếu B