Bài toán kiểm định và các khái niệm cơ bản

Một phần của tài liệu bài giảng thống kê nâng cao (Trang 36)

3 Kiểm định phi tham số

3.1 Bài toán kiểm định và các khái niệm cơ bản

và các khái niệm cơ bản 3.1.1 Giới thiệu bài toán kiểm định

Giả sử ta có mẫu ngẫu nhiên X = (X1, X2, . . . , Xn) các quan sát độc lập về biến ngẫu nhiênξ, cònF là lớp các hàm phân bố nào đó. Ta chiaF thành hai lớp con FH và FK =F \FH. Biết rằng hàm phân bố F của biến ngẫu nhiên

X đang xét thuộc vào lớp F nhưng chưa biết F ∈ FH hay F ∈ FK. Ta chọn mệnh đề “Hàm phân bố F thuộc lớp FH” là giả thiết H, còn mệnh đề “Hàm phân bố F thuộc lớp FK” là giả thiết K. Bài toán đặt ra là: Hãy kiểm tra xem giả thiết H đúng hay đối thiết K đúng?

Nếu lớp F được tham sos hóa, tức F = {F(x, θ), θ ∈ Θ}, trong đó dạng toán học của hàm F đã biết, θ là tham số chưa biết. KHi đó ta sẽ đồng nhất lớpF với không gian tham sốΘvà giả thiếtH : “F ∈ FH” sẽ là “θ∈ΘH”, còn đối thiếtK : “F ∈ FK” sẽ là “θ ∈ΘK”, trong đóΘH∩ΘK =∅,ΘH∪ΘK = Θ. Nếu ΘH chỉ gồm 1 điểm thì giả thiếtH được gọi là giả thiết đơn. NếuΘH có nhiều hơn 1 điểm thì giả thiết H được gọi là giả thiết hợp. Ta cũng có những khái niệm tương tự với đối thiết K.

Phương pháp chung để giải bài toán kiểm định giả thiếtH và đối thiếtK

là:

Giả sử Xlà không gian giá trị của biến ngẫu nhiên ξ. Ta tìm cách chia X

ra làm 2 phần: S và S = X\S. Sau đó ta chọn quyết định theo quy tắc sau: Nếu mẫu ngẫu nhiên (X1, X2, . . . , Xn)∈ S thì ta bác bỏ giả thiết H và bác bỏ đối thiết K. Nếu mẫu ngẫu nhiên (X1, X2, . . . , Xn) ∈S thì ta chấp nhận giả thiết H, hay nói chính xác hơn là chưa có cơ sở để bác bỏ H và do đó ta có khuynh hướng nhận H cho đến khi có thông tin mới. Miền S tìm được trên được gọi là miền tiêu chuẩn (hoặc miền tới hạn).

Vấn đề đặt ra là: Chia không gian mẫu X thành hai phần như thế nào, tức là chọn miện S như thế nào?

3.1.2 Sai lầm loại I và sai lầm loại II

Khi chọn một trong hai quyết định theo quy tắc như nêu trong Mục 3.1.1sẽ nảy sinh ra hai loại sai lầm:

Sai lầm loại I: Bác bỏ giả thiếtH khi H đúng. Sai lầm loại II: Chấp nhận giả thiết H khi H sai.

Ký hiệu P(S|H) và P(S|K) là các xác suất mắc sai lầm loại I và loại II, tương ứng. Lẽ tự nhiên là ta chọn miền tiêu chuẩn S sao chocwcj tiểu hóa cả hai xác suất mắc sai lầm, tức là chọn S sao cho có thể loại trừ khả năng mắc cả hai loại sai lầm càng nhiều càng tốt. Song không thể cực tiểu đồng thời cả

3.1. Bài toán kiểm định và các khái niệm cơ bản 33

hai loại sai lầm khi cỡ mẫu cố định, bở vì hai xác suất trên liên hệ với nhau bởi hệ thức:

P(S|K) +P(S|K) = 1; P(S|H) +P(S|H) = 1.

Do đó nếu miền tiêu chuẩn S làm cực tiểu P(S|H) chưa chắc cũng làm cực tiểu P(S|K)và ngược lại. Hơn nữa miền tiêu chuẩn S =∅sẽ có xác suất mắc sai lầm loại I bằng không, tức là bé nhất, nhưng miền tiêu chuẩn như vậy lại không có ý nghĩa gì. Vậy ta hiểu cực tiểu đồng thời hai xác suất mắc sai lầm theo nghĩa tổng của chúng là nhỏ nhất. Do vậy có hai phương pháp chọn miền tiêu chuẩn S:

Phương pháp I:Cố định hai xác suất mắc sai lầm, chọn miềnS sao cho cỡ mẫun là cực tiểu.

Phương pháp II: Ta cố định một loại xác suất mắc sai lầm và tìm miền

S sao cho xác suất mắc sai lầm kia là cực tiểu. Thông thường ta cố định xác suất mắc sai lầm loại I: P(S|H) ≤ α, tức là cho giới hạn trên của xác suất mắc sai lầm loại I, ta sẽ chọn miền tiêu chuẩnS sao cho xác suất mắc sai lầm loại IIP(S|K)đạt cực tiểu hayP(S|K)đạt cực đại. Phương pháp II được sử dụng rộng rãi hơn, do vậy ta sẽ tiếp cận theo phương pháp này.

Cho trước 0≤α ≤1, ta chọn miền tiêu chuẩn S sao cho:

P(S|H)≤α,

P(S|K)đạt cực đại. (3.1)

Nếu H ={θ ∈ΘH},K ={θ ∈ΘK} thì (3.1) được viết lại là

( sup θ∈ΘH Pθ(S)≤α, Pθ(S) đạt cực đại, với θ∈ΘK. (3.2)

α được gọi làmức ý nghĩa của tiêu chuẩn, α thường được chọn bằng 0.1, 0.05, 0.01,0.001, v.v. . . Chọn α bằng bao nhiêu là tùy thuộc vào từng trường hợp, yêu cầu cụ thể.

Ký hiệu β(θ) = Pθ(S), θ ∈ Θ. β(θ) được gọi là hàm hàm lực lượng (hàm mạnh) của tiêu chuẩn S.

Phương pháp giải bài toán kiểm định với giả thiết H và đối thiết K dưa vào miền tiêu chuẩnS như trên gọi là phương pháp không ngẫu nhiên.

Bây giờ ta xét tiêu chuẩn ngẫu nhiên.

Với quan sát X = (X1, X2, . . . , Xn), ta chọn việc bác bỏ hay chấp nhận giả thiết H với xác suất phụ thuộc vào X tương ứng là φ(X) và 1−φ(X),

0 ≤ φ(X) ≤ 1, φ(X) đo đươc đối với σ− trường A các tập con của X ((X,

A,Pθ) là một cấu trúc thống kê). Tiêu chuẩn được đặc trưng bởi hàm φ(X)

Nếu φ(X) chỉ nhận hai giá trị là 0 và 1 thì ta lại có tiểu chuẩn không ngẫu nhiên với miền tiêu chuẩn S ={X :φ(X) = 1} tức là tiêu chuẩn không ngẫu nhiên cũng là tiêu chuẩn ngẫu nhiên với φlà hàm chỉ tiêu của miền tiêu chuẩn.

Bài toán kiểm định với giả thiết H và đối thiết K được phát biểu bàng ngôn ngữ hàm tiêu chuẩn như sau: Cần chọn hàm tiêu chuẩn φ sao cho

Eθφ(X)≤α,

Eθφ(X) đạt cực đại, với θ∈ΘK. (3.3)

Hàm lực lượng β(θ) = Pθ(S), θ ∈ Θ, chính là xác suất bác bỏ giả thiết trong trường hợp kiểm định về tham số θ.

Ưu thế của tiêu chuẩn ngẫu nhiên là ta sử dung triệt để được mức ý nghĩa

αđã cho, còn đối với tiêu chuẩn không ngẫu nhiên mức ý nghĩa của tiêu chuẩn tìm được thường nhỏ hơn hay bằng αchứ không đúng bằngα. Chẳng hạn giả thiết H được xét với phân bố nhị thức B(1, p), tức là P(X = 1) = p, P(X = 0) = 1−p. Khi đó với mọi cách chọn miền tiêu chuẩn S các giá trị có thể của

P(S|H) chỉ có thể là 0, p,1−p,1. Như vậy dối với mức ý nghĩa α khác các giá trị trên thì ta luôn có P(S|K)< α.

3.2. Kiểm định phi tham số 35

Chương 4

Chương 5

Phân tích cấu trúc dữ liệu nhiều chiều

Chương 6

Tài liệu tham khảo

[1] Nguyễn Văn Hữu (chủ biên); Đào Hữu Hồ; Hoàng Hữu Như. Thống Kê Toán. NXB ĐẠI HỌC QUỐC GIA HÀ NỘI, 2004. (Trích dẫn ở trang 9) [2] Trần Văn Lý. Bài Giảng Xác Suất Thống Kê. Tủ sách ĐẠI HỌC CẦN

THƠ, 2006. (Không trích dẫn)

[3] Tống Đình Quỳ. Giáo trình Xác Suất Thống Kê. NXB GIÁO DỤC, 1999. (Không trích dẫn)

Một phần của tài liệu bài giảng thống kê nâng cao (Trang 36)

Tải bản đầy đủ (PDF)

(47 trang)