MÔN LÝ THUYẾT XÁC SUẤT,THỐNG KÊ TOÁN
BÀI THẢO LUẬN MƠN LÝ THUYẾT XÁC SUẤT VÀ THỐNG KÊ TỐN A. LÝ THUYẾT I. Ước lượng các tham số của ĐLNN Xét một ĐLNN X thể hiện trên một đám đơng nào đó. Các số đặc trưng của X được gọi là các tham số lý thuyết (hay tham số của đám đơng). Ký hiệu chung tham số lý thuyết cần ước lượng là θ . Có hai phương pháp ước lượng θ là: • Ước lượng điểm • Ước lượng bằng khoảng tin cậy. 1. Ước lượng bằng khoảng tin cậy Để ước lượng tham số θ của ĐLNN X, trước hết từ đám đơng ta lấy ra mẫu ngẫu nhiên W=(X 1 ,X 2 , … , X n ). Tiếp đến ta xây dựng thống kê G=f(X 1 ,X 2 , … , X n, θ), sao cho quy luật phân phối xác suất của G hồn tồn xác định (khơng phụ thuộc vào tham số θ). Với xác suất γ = 1 – α cho trước, ta xác định cặp giá trị α 1, α 2 thỏa mãn các điều kiện α 1 ≥ 0, α 2 ≥ 0 và α 1 + α 2 = α. Vì quy luật phân phối xác suất của G ta đã biết, ta tìm được các phân vị g 1-α1 và g α2 sao cho P(G > g 1-α1 ) = 1 – α 1 và P(G > g a2 )= α 2 . Khi đó: P(g 1-α1 < G < g a2 ) = 1 - α 1 - α 2 = 1 – α = γ. Cuối cùng bằng cách biến đổi tương đương ta có: P(θ * 1 < θ < θ * 2 ) = 1 – α = γ Trong đó: γ = 1 – α * được gọi là là độ tin cậy, (θ * 1 , θ * 2 ) được gọi là độ tin cậy, I = θ * 2 – θ * 1 được gọi là độ dài của khoảng tin cậy. Người ta thường chọn α 1 = α 2 = α/2. Nếu chọn α 1 = 0 và α 2 = α hoặc chọn α 1 = α và α 2 = 0 thì ta sẽ có khoảng tin cậy một phía (dùng để ước lượng giá trị tối thiểu hoặc giá trị tối đa của θ). 2. Ước lượng các tham số của ĐLNN 2.1 Ước lượng kỳ vọng tốn của ĐLNN Để ước lượng kỳ vọng tốn E(X) = µ của ĐLNN X, từ đám đơng ta lấy mẫu W=(X1,X2,…,Xn). Từ mẫu này ta tìm được trung bình mẫu X và phương sai mẫu điều chỉnh S’² . Ta sẽ ước lượng µ thơng qua X . Xét các trường hợp sau: a) ĐLNN X trên đám đơng có phân phối chuẩn đã biết. b) ĐLNN X trên đám đơng có phân phối chuẩn chưa biết. c) Chưa biết quy luật phân phối xác suất của X nhưng n>30. Khi n lớn, X có phân phối xấp xỉ chuẩn. Mặt khác ta luôn có ( ) E X µ = và ( ) 2 Var X n σ = ( ) 2 ,X N n σ µ ⇒ ; Ta xây dựng thống kê: U=~ N(0,1). Khoảng tin cậy đối xứng ( lấy α1 = α2 = α/2) Với độ tin cậy γ= 1 – α cho trước ta tìm được phân vị chuẩn 2 u α sao cho: P(|U| < 2 u α ) = 1 – α =γ Thay biểu thức của U vào công thức trên ta có: P(| X - µ| < 2 u α ) = 1 – α =γ P( X – ε < µ < X + ε ) = 1 – α =γ Trong đó : ε = 2 u α là sai số của ước lượng γ = 1 – α là độ tin cậy ( X – ε; X + ε) là khoảng tin cậy ngẫu nhiên của µ. Ở đây ta cần chú ý rằng : Với xác suất bằng γ = 1 – α khoảng tin cậy ngẫu nhiên này chụp đúng µ (µ là 1 số xác định ) Trong 1 lần lấy mẫu ta tìm được 1 giá trị cụ thể x của X . Khi đó ta có 1 khoảng tin cậy cụ thể của µ là ( x – ε; x + ε) Ta có những bài toán sau: Bài toán 1: Biết kích thước mẫu n, biết độ tin cậy γ = 1 – α, tìm sai số ε ( hoặc khoảng tin cậy ). Vì biết γ = 1 – α tra bảng ta tìm được 2 u α , từ đó ta tìm được sai số ε = 2 u α và khoảng tin cậy của µ Bài toán 2: Biết kích thước mẫu n và sai số ε, cần tìm độ tin cậy γ. Biết n và ε, ta tìm được 2 u α .tra bảng tìm được α/2 từ đó tìm được độ tin cậy γ = 1 – α Từ công thức tìm khoảng tin cậy ta thấy rằng sai số của ước lượng bằng 1 nửa độ dài của khoảng tin cậy. Vì vậy nếu biết khoảng tin cậy đối xứng (a,b) thì ta có thể tính được sai số của ước lượng theo công thức ε= Bài toán 3: Biết độ tin cậy γ, biết sai số ε, cần tìm kích thước mẫu n. Biết γ = 1 – α, ta tìm được 2 u α . Ta tìm được 2 2 2 2 u n α σ ε = Đó chính là kích thước mẫu tối thiểu cần tìm. Chú ý 1 : Nếu chưa biết σ, nhưng kích thước mẫu lớn (n>30). Ta có thể thay σ bằng ước lượng không chệch tốt nhất của nó là s’ Chú ý 2 : Trong trường hợp biết µ cần ước lượng X biến đổi tương đương công thức ta có: P( µ - ε < X < µ + ε ) = 1 – α = γ Vậy khoảng tin cậy của X là ( µ - ε, µ + ε ). Khoảng tin cậy phải (lấy 1 2 0, α α α = = ; dùng để ước lượng giá trị tối thiểu của µ) Ta vẫn dùng thống kê ( ) 0;1 X U N n µ σ − = ; Với độ tin cậy γ = 1-α cho trước ta tìm được phân vị chuẩn u α sao cho: P(U< u α )=1-α=γ Thay vào biểu thức của U vào công thức trên ta có: P ( X u n α µ σ − < ) = 1 – α = γ 1P X u n α σ µ α γ ⇔ − < = − = ÷ Như vậy, khoảng tin cậy phải đối với độ tin cậy γ = 1 – α của µ là: ;X n σ − +∞ ÷ Khoảng tin cậy trái (lấy α2 = 0 ; α1 = α, dùng để ước lượng giá trị tối đa của µ) Ta cũng dùng thống kê : ( ) 0;1 X U N n µ σ − = ; Với độ tin cậy γ = 1 – α cho trước ta tìm được u α sao cho: P(- u α <U) = 1 – α = γ 1P X u n α σ µ α γ ⇒ < + = − = ÷ Ta có khoảng tin cậy trái với độ tin cậy γ = 1 – α của µ là ; X u n α σ +∞ + ÷ 2.2 Ước lượng tỷ lệ. 2.3 Ước lượng phương sai của ĐLNN phân phối chuẩn. II. Kiểm định giả thuyết thống kê 1.Một số khái niệm và định nghĩa 1.1 Giả thuyết thống kê Giả thuyết về quy luât phân phối xác suất của ĐLNN về tham số đặc trưng của đại lựơng ngẫu nhiên hoặc tính độc lập của các ĐLNN được gọi là giả thuyết thống kê,kí hiệu là Ho. Mọi giả thuyết khác với giả thuyết H đươc gọi là đối thuyết,kí hiêu là H1.Ho và H1 lập thành một cặp giả thuyết thống kê. Ta quy định: khi đã chọn cặp giả thuyết Ho và H1 thì nếu bác bỏ Ho sẽ chấp nhận H1. 1.2 Tiêu chuẩn kiểm định Để kiểm đinh cặp giả thuyết thống kê Ho và H1,từ đám đông ta chọn mẫu ngẫu nhiên:W=(X1,…,Xn).dựa vào mẫu trên ta xây dưng thống kê ( ) 1 0 , ., , n G f X X θ = . Trong đó 0 θ là một số tham số liên quan đến Ho sao cho nếu đúng Ho thì quy luật phân phối xác suất của G hoàn toàn xác định. Khi đó thống kê G được gọi là tiêu chuẩn kiểm định. 1.3 Miền bác bỏ Để xây dựng miền bác bỏ ta sử dụng nguyên lý xác suất nhỏ:Nếu một biến cố có xác suất nhỏ ta có thể coi nó không xảy ra trong một lần thực hiện phép thử. Vì đã biết quy luật phân phối xác suất của G, nên với một số α khá bé cho trước ta có thể tìm được miền Wα gọi là miền bác bỏ, sao cho nếu giả thuyết Ho đúng thì xác suất để G nhận giá trị thuộc miền Wα bằng α: P(G ∈ Wα/Ho)=α Vì α khá bé theo nguyên lý xác suất nhỏ ta có thể coi biến cố (G ∈ Wα/Ho) không xảy ra trong một lần thưc hiện phép thử.Nên nếu từ một mẫu cụ thể w=(x1, , xn) ta tìm được giá trị thực nghiệm ( ) 1 0 , , , tn n g f x x θ = mà tn g W α ∈ (Nghĩa là vừa thực hiện phếp thử thấy biến cố (G ∈ Wα/Ho) xảy ra)ta có cơ sở bác bỏ giả thuyết Ho. Kí hiêu W α là miền bù của Wα. Khi đó ta có ( ) 0 1P G W W α α ∈ = − . Vì α khá bé nên 1-α khá gần 1. Theo nguyên lý xác suất lớn: Nếu một biến cố có xác suất rất gần 1 ta có thể coi nó sẽ xảy ra trong một lần thực hiện phép thử, nếu trong một lần lấy mẫu ta thấy tn g W α ∈ thì giả thuyết Ho tỏ ra hợp lí,chưa có cơ sở bác bỏ Ho. Vì vậy ta có quy tắc kiểm định sau: Từ đám đông ta lấy ra một mẫu cụ thể kích thước n: w=(x1,…,xn) và tính tn g • Nếu tn g W α ∈ thì bác bỏ Ho chấp nhận H1 • Nếu tn g W α ∉ thì chưa có cơ sở bác bỏ Ho. 1.4 Các loại sai lầm Theo quy tắc kiểm định trên ta có thể mắc hai loại sai lầm như sau: • Sai lầm loại một là loại sai lầm bác bỏ giả thuyết Ho khí chính Ho đúng. Ta có xác suất mắc sai lầm loại một bằng α. Giá tri α được gọi là mức ý nghĩa. • Sai lầm loai hai là sai lầm chấp nhận Ho khi chính nó sai.Nếu ký hiệu xác suất mắc sai lầm loại hai là ß thì ta có. ( ) 1 /P G W H α β ∈ = 2. Các trường hợp kiểm định 2.1.Kiểm định giả thuyết về kỳ vọng toán của một ĐLNN Giả sử cần nghiên cứu một dấu hiệu X thể hiện trên một đám đông. Kí hiệu E(X) = µ, Var(X) = σ 2 , trong đó µ chưa biết, từ một cơ sở nào đó người ta tìm được µ = µ 0 , nhưng nghi ngờ về điều này. Với mức ý nghĩa α cho trước ta cần kiểm định giả thuyết H 0 : µ = µ 0 . Từ đám đông ta lấy ra mẫu : W=( ,……, ) và tính được các đặc trưng mẫu: = S’ 2 = a) ĐLNN X trên đám đông có phân phối chuẩn đã biết. b) ĐLNN X trên đám đông có phân phối chuẩn chưa biết. c) Chưa biết quy luật phân phối xác suất của X nhưng n>30. Khi n lớn, X có phân phối xấp xỉ chuẩn. Mặt khác ta luôn có ( ) E X µ = và ( ) 2 Var X n σ = ( ) 2 ,X N n σ µ ⇒ ; * Xây dựng tiêu chuẩn kiểm định (XDTCKĐ): U= Nếu H 0 đúng thì U~N(0,1). Xét những bài toán cụ thể sau: • Bài toán 1: Với α cho trước ta có thể tìm được sao cho P(|U|> ) = α. Ta có miền bác bỏ: = { trong đó = • Bài toán 2 : Với α cho trước, ta có thể tìm được sao cho P(U > ) = α. Từ đó ta có miền bác bỏ: = { • Bài toán 3: Với α cho trước ta có thể tìm được phân vị chuẩn sao cho P(U< - ) = α. Do đó ta có miền bác bỏ: = { * Phương pháp P-giá trị (P-Value) 1. Công thức tìm P-giá trị: + Đối với bài toán: Ta có P-giá trị = P(U> ) Trong đó U~N(0,1) và = + Đối với bài toán: Ta có P-giá trị = P(U< ) + đối với bài toán: Ta có P-giá trị = 2P(U>| |). 2. Kết luận sau khi tìm được P-giá trị + Cách thứ nhất _ Nếu P-giá trị ≥ 0.05: chưa có cơ sở để bác bỏ . _ Nếu 0.01 ≤ P-giá trị <0.05: có cơ sở để bác bỏ . _ Nếu P-giá trị <0.01: có cơ sở chắc chắn để bác bỏ + Cách thứ hai: quy định trước mức ý nghĩa α. Tính P-giá trị rồi so sánh với α: Nếu P-giá trị < α thì bác bỏ Nếu P-giá trị ≥ α chưa có cơ sở bác bỏ Chú ý: Các công thức tìm P-giá trị trên còn được dùng cho các bài toán kiểm định giả thuyết thống kê khác, trong đó có dùng tiêu chuẩn U. 2.2.Kiểm định giả thuyết về phương sai của ĐLNN phân phối chuẩn B. BÀI TẬP I. Đề bài 1. Ước lượng chiều cao trung bình của nam sinh viên Đại học Thương mại với độ tin cậy 95% 2. Theo báo cáo của Viện Khoa học Thể dục thể thao năm 2004, chiều cao trung bình của nam thanh niên Việt Nam là 163,14 cm với mức ý nghĩa 5%. Kiểm định giả thuyết cho rằng chiều cao nam sinh viên Đại học Thương mại cao hơn 163,14 cm. II. Giải bài tập Câu 1. Gọi X là chiều cao của nam sinh viên ĐH thương mại X là chiều cao trung bình của nam sinh viên ĐH thương mại trên mẫu. µ là chiều cao trung bình của nam sinh viên ĐH thương mại trên đám đông. a) Mẫu số liệu _ Bảng điều tra chiều cao 150 nam sinh viên Đại học Thương mại STT HỌ VÀ TÊN MÃ SV LỚP CHIỀU CAO (cm) 1 Nguyễn Đức Cường 08D140169 K44I3 170 2 Nguyễn Văn Dinh 08D140189 K44I4 176 3 Dương Tuấn Đô 08D140346 K44I6 172 4 Nguyễn Anh Dũng 08D140244 K44I5 174 5 Tô Trung Dũng 08D140190 K44I4 184 6 Phạm Thế Duyệt 08D140069 K44I2 168 7 Nguyễn Bá Hiệp 08D140016 K44I1 172 8 Võ Đức Hiếu 08D140110 K44I2 175 9 Dư Khánh Hưng 08D140006 K44I1 177 10 Nguyễn Văn Hưng 08D140371 K44I7 169 11 Trần Hoàng Hưng 08D140009 K44I1 174 12 Vũ Hoàng Long 08D140203 K44I4 171 13 Phạm Duy Quang 08D140032 K44I1 176 14 Trương Quang Thế 08D140397 K44I7 175 15 Nguyễn Hữu Tuấn 08D140339 K44I6 167 16 Chu Thanh Tùng 08D140036 K44I1 183 17 Nguyễn Tuấn Anh 08D140061 K44I2 169 18 Trần Việt Anh 08D140181 K44I4 174 19 Đỗ Duy Bàng 07D140140 K43I2 177 20 Nguyễn Quốc Bảo 08D140408 K44I7 171 21 Nguyễn Văn Bình 08D140182 K44I4 175 22 Trịnh Duy Bằng 08D140062 K44I2 173 23 Nguyễn Đức Chính 08D140065 K44I2 183 24 Nguyễn Hoàng Huy Công 08D140365 K44I7 172 25 Nguyễn Ích Cương 08D140366 K44I7 168 26 Nguyễn Sơn Cương 08D140063 K44I2 178 27 Trương Quốc Cường 08D140064 K44I2 184 28 Lê Văn Đông 08D140406 K44I7 173 29 Nguyễn Mạnh Dũng 08D140188 K44I4 185 30 Nguyễn Mạnh Dũng 08D140126 K44I3 177 31 Nguyễn Thành Dương 08D140368 K44I7 171 32 Vương Trường Giang 08D140130 K44I3 183 33 Nguyễn Hữu Hùng 08D140111 K44I2 175 34 Phạm Thanh Hùng 08D140322 K44I6 178 35 Lê Duy Hưng 08D140071 K44I2 175 36 Văn Đức Hữu 08D140137 K44I3 168 37 Trần Văn Huy 08D140372 K44I7 175 38 Trương Quốc Huy 08D140253 K44I5 173 39 Lưu Xuân Kiên 08D140019 K44I1 169 40 Vũ Thành Long 08D140254 K44I5 172 41 Khuất Tiến Minh 08D140026 K44I1 180 42 Nguyễn Danh Minh 08D140260 K44I5 177 43 Vũ Hoàng Nam 08D140266 K44I5 176 44 Nguyễn Văn Quang 08D140269 K44I5 182 45 Vũ Mạnh Quang 08D140268 K44I5 173 46 Nguyển Duy Thành 08D140038 K44I1 172 47 Nguyễn Sĩ Thành 08D140033 K44I1 185 48 Trần Văn Tiến 08D140046 K44I1 172 49 Bùi Huy Toàn 08D140044 K44I1 171 50 Nguyễn Khánh Toàn 08D140282 K44I5 179 51 Nguyễn Minh Tuấn 08D140041 K44I1 178 52 Bùi Khánh Nhật 08D140091 K44I2 175 53 Dương Văn Nhiệm 08D140331 K44I6 169 54 Trần Văn Quân 08D140151 K44I3 182 55 Trần Công Sinh 08D140390 K44I7 174 56 Lê Thanh Sơn 08D140391 K44I7 175 57 Đỗ Huy Thắng 08D140401 K44I7 173 58 Nguyễn Văn Thắng 08D140100 K44I2 181 59 Trần Mạnh Thắng 08D140045 K44I1 172 60 Trần Minh Thế 08D140394 K44I7 168 61 Lê Đôn Thọ 08D140097 K44I2 175 62 Nguyễn Long Biên 08D140242 K44I5 176 63 Hoàng Văn Chiến 08D140001 K44I1 172 64 Bùi Đăng Công 08d140243 K44I5 173 65 Đinh Xuân Cường 08D140066 K44I2 174 66 Ngô Văn Cường 08D140364 K44I7 172 67 Phan Văn Đại 08D140287 K44I5 169 68 Bùi Công Điền 08D140286 K44I5 178 69 Trần Tiến Đức 08D140407 K44I7 182 70 Nguyễn Hữu Dũng 08D140003 K44I1 173 71 Nguyễn Quang Hải 08D140249 K44I5 180 72 Nguyễn Chí Hiếu 08D140014 K44I1 175 73 Khuất Đình Hùng 08D140252 K44I5 171 74 Vũ Văn Hùng 08D140015 K44I1 177 75 Đỗ Tuấn Anh 08D140301 K44I6 174 76 Trần Hoàng Anh 08D140121 K44I3 181 77 Vũ Quyết Chiến 08D140068 K44I2 174 78 Nguyễn Đức Chung 08D140123 K44I3 179 79 Nguyễn Kiên Chung 08D140185 K44I4 172 80 Nguyễn Văn Chung 08D140124 K44I3 167 81 Tống Đức Cường 08D140303 K44I6 177 82 Vũ Mạnh Cường 08D140125 K44I3 171 83 Bùi Văn Đạt 08D140285 K44I5 176 84 Phạm Văn Đạt 08D140164 K44I3 173 85 Lê Anh Đức 08D140226 K44I4 179 86 Dương Kim Dũng 08D140348 K44I6 173 87 Nguyễn Trung Dũng 08D140309 K44I6 170 88 Nguyễn Việt Dũng 08D140304 K44I6 178 89 Nguyễn Hải Dương 08D140306 K44I6 176 90 Lê Công Duy 08D140308 K44I6 170 91 Trương Đức Duy 08D140305 K44I6 177 92 Dương Tiến Đông 07D130007 K43E1 174 93 Nguyễn Minh Dũng 07D130328 K43E5 171 94 Vũ Việt Dũng 07D130091 K43E2 176 95 Nguyễn Tuấn Huy 07D130341 K43E5 174 96 Nguyễn Minh Nam 07D130355 K43E5 172 97 Nguyễn Tùng Nam 07D130193 K43E3 175 98 Trịnh Hoàng Quân 07D130036 K43E1 181 99 Đỗ Trọng Quyết 07D130363 K43E5 171 100 Nguyễn Trọng Sinh 07D130202 K43E3 177 101 Đỗ Duy Thành 07D130205 K43E3 180 102 Nguyễn Xuân Thành 07D130043 K43E1 174 103 Nguyễn Văn Tiến 07D130371 K43E5 179 104 Nguyễn Khắc Trường 07D130138 K43E2 175 105 Bùi Thanh Tùng 07D130302 K43E4 172 106 Nguyễn Bá Tùng 07D130140 K43E2 177 107 Nguyễn Thanh Tùng 07D130060 K43E1 176 108 Trần Ngọc Tùng 07D130061 K43E1 170 109 Hoàng Quốc Việt 07D130379 K43E5 172 110 Nguyễn Duy Hoàng An 09D130401 K45E6 176 111 Hoàng Minh Đức 09D130410 K45E6 177 112 Nguyễn Hữu Hoàng 09D130336 K45E5 174 113 Đào Ngọc Ân 09D130406 K45E6 168 114 Nguyễn Như Hùng 09D130420 K45E6 178 115 Nguyễn Tiến Cường 09D130408 K45E6 174 116 Nguyễn Bá Tuấn 09D130533 K45E7 172 [...]... H1 : µ > 163,14 Với mức ý nghĩa α = 0,05 ta cần kiểm định giả thuyết Vì n=100>30 ( ) σ2 ÷ n ÷ X ; N µ ;σ 2 ⇒ X ; N µ; X − µ0 Ta xây dựng tiêu chuẩn kiểm định: U = σ n Nếu H 0 đúng thì U ; N ( 0;1) Với mức ý nghĩa α = 0,05 ta tìm đước phân vị chuẩn uα sao cho P ( U > uα ) = α Vì α = 0,05 là khá bé nên theo nguyên lý xác suất nhỏ, ta có được miền bác bỏ: { Wα = utn : utn > uα Ta có:... 36 Vì n = 150>30 nên ( X ; N µ ;σ 2 ⇒ X ; N µ; ) σ2 ÷ n ÷ Ta xây dựng thống kê: U= X −µ ; N ( 0;1) σ n uα Với độ tin cậy γ = 0,95 ta tìm được phân vị 2 sao cho 144500 321651 502928 448935 514692 428750 371712 407277 285156 160205 97200 131044 132496 100467 67712 68450 4578991 ( ) P −u . chuẩn. II. Kiểm định giả thuyết thống kê 1.Một số khái niệm và định nghĩa 1.1 Giả thuyết thống kê Giả thuyết về quy luât phân phối xác suất của ĐLNN về tham. BÀI THẢO LUẬN MƠN LÝ THUYẾT XÁC SUẤT VÀ THỐNG KÊ TỐN A. LÝ THUYẾT I. Ước lượng các tham số của ĐLNN Xét một ĐLNN X