Kiểm định giả thuyết với Monte Carlo

Một phần của tài liệu Phương pháp monte carlo cho bài toán kiểm định (Trang 36 - 46)

3 PHƯƠNG PHÁP MONTE CARLO KIỂM ĐỊNH GIẢ THUYẾT

3.2 Kiểm định giả thuyết với Monte Carlo

Nhớ lại rằng trong kiểm định giả thuyết thống kê, chúng ta có thống kê cần kiểm định cung cấp bằng chứng xác định giả thuyết nên bị bác bỏ hay không. Một khi chúng ta quan sát giá trị của thống kê cần kiểm định, chúng ta quyết định giá trị cụ thể phù hợp là giả thuyết hay không. Để đưa ra quyết định, chúng ta phải biết hàm phân phối của thống kê khi giả thuyết là đúng.

3.2.1 Phương pháp Monte Carlo kiểm định giả thuyết (giá trị tới hạn)

Ước lượng hàm phân phối của thống kê cần kiểm định dưới giả thuyết là một trong những mục tiêu chính của phương pháp Monte Carlo. khi áp dụng cho giá trị tới hạn và phương pháp tiếp cận p-giá trị để kiểm định giả thuyết.

Nhắc lại trong phương pháp tiếp cận giá trị tới hạn để kiểm định giả thuyết, chúng ta đưa ra mức ý nghĩa α. Chúng ta sử dụng mức ý nghĩa để tìm miền tới hạn trong

phân phối của thống kê cần kiểm định khi giả thuyết là đúng. Bằng cách sử dụng phương pháp Monte Carlo,chúng ta xác định giá trị tới hạn sử dụng phân phối ước lượng của thống kê cần kiểm định. Phương pháp căn bản là lấy mẫu ngẫu nhiên nhiều lần từ không gian tựa mẫu, tính toán giá trị của thống kê cần kiểm định tại mỗi lần thử, và sử dụng giá trị đó để ước lượng hàm phân phối của thống kê cần kiểm định.

PHƯƠNG PHÁP MONTE CARLO KIỂM ĐỊNH GIẢ THUYẾT ( GIÁ TRỊ TỚI HẠN)

1. Sử dụng mẫu ngẫu nhiên có sẵn kích cỡ n từ không gian mẫu quan tâm tính toán giá trị quan sát được của thống kê cần kiểm định t0.

2. Quyết định một không gian tựa mẫu thể các đặc tính thật của không gian mẫu thực dưới giả thuyết (coi giả thuyết là đúng).

3. Lấy một mẫu ngẫu nhiên kích thước n từ không gian tựa mẫu..

4. Tính toán giá trị của thống kê cần kiểm định bằng cách sử dụng mẫu ngẫu nhiên trong bước 3 và lưu lại.

5. Lặp lại bước 3 và 4 cho thử nghiệm m. Chúng ta có các giá trị t1, . . . , tM, từ đó có một ước lượng phân phối của thống kê cần kiểm định T khi mà giả thuyết là đúng.

6. Tính toán giá trị tới hạn cho mức ý nghĩa α:

Kiểm tra cận dưới : Lấy α, b, từ t1 ,. . . ., tM.

Kiểm tra cận dưới : lấy (1−α), qb1−α từt1 , . . . , tM.

Kiểm tra cả hai cận : lấy bqα/2 và bq1−α/2 từt1, . . . , tM. Trong MATLAB có thể dùng hàm csquantiles trong gói thống kê.

7. Nếu t0 rơi vào miền tới hạn khi đó bác bỏ giả thuyết.

Trong ví dụ được đưa ra dưới đây, chúng tôi áp dụng phương pháp Monte Carlo để thử nghiệm tình huống quen thuộc, kiểm định về trung bình không gian mẫu.

Ví dụ 3.2.1. Ví dụ này minh họa cho ý tưởng của phương pháp Monte Carlo kiểm

định giả thuyết. Tập dữ liệu mcdata chứa 25 quan sát, lưu trong ma trận Data:

Data=           465 449 468 446 447 456 442 433 447 456 438 449 454 456 456 454 446 463 452 435 447 447 450 444 450          

Chúng ta quan tâm trong việc sử dụng dữ liệu để kiểm định giả thuyết và đối thuyết dưới đây:

H0 : µ = 454

Chúng ta sẽ thực hiện mô phỏng kiểm định giả thuyết để đưa ra giá trị tới hạn. Chúng ta quyết định sử dụng công thức thống kê cần kiểm định dưới đây

z= xσ/−√454

n. Một vài chuẩn bị

% Load up the data. load mcdata

n = length(mcdata);

% Population sigma1s known. sigma = 7.8;

sigxbar = sigma/sqrt(n);

% Get the observed value of the test statistic. Tobs = (mean(mcdata)-454)/sigxbar;

Giá trị quan sát được của thống kê cần kiểm định t0 = 2.56 . Bước tiếp theo là

quyết định mô hình cho không gian mẫu mà sinh radical dữ liệu của chúng ta. Chúng

ta nghi ngờ hàm phân phối chuẩn với σ = 7.8 là tốt cho mô hình, và chúng ta kiểm

tra lại giả thuyết bằng cách sử dụng đồ thị . Kết quả thể hiện trong hình 3.1 mà chúng ta sử dụng phân phối như là không gian tựa mẫu.

normplot(mcdata)

Bây giờ chúng ta thực hiên mô phỏng Monte Carlo. Chúng ta sử dụng 1000 thử nghiệm trong ví dụ này. Trong mỗi thử nghiệm, chúng tôi lấy mẫu ngẫu nhiên từ hàm

phân phối thống kê cần kiểm định dưới giả thuyết ( phân phối chuẩn với µ= 454 và σ

= 7.8) và ghi lại giá trị của thống kê cần kiểm định.

M = 1000;%Số lần thử Tm = zeros(1,M);

for1 = 1:M

% Sinh mẫu ngẫu nhiên dưới H_0 % n là kích thước mẫu

Tm(i) = (mean(xs) - 454)/sigxbar; end

Hình 3.1: Biểu đồ củamcdatathể hiện phân phối giả thiết cho dữ liệu là hợp lý.

Bây giờ chúng ta đã có ước lượng phân phối của ước lượng của thống kê cần kiểm định

chứa đựng trong biến số Tm, chúng ta cần sử dụng điều đó để ước lượng giá trị tới

hạn cho kiểm tra cận dưới.

%Tính giá trị tới hạn

% Trường hợp này kiểm tra cận dưới alpha = 0.05;

cv = csquantiles(Tm,alpha);

Chúng ta có được mộ ước tính giá trị tới hạn của −1.75. Từ giá trị quan sát được của

thống kê cần kiểm định là t0 = −2.56, nó nhỏ hơn so với giá trị tới hạn, chúng ta bác bỏ H0. 2

3.2.2 Phương pháp Monte Carlo kiểm định giả thuyết (P-giá trị)

Phương pháp cho kiểm định giả thuyết Monte Carlo bằng cách sử dụng p-giá trị là tương tự. Thay vì tìm giá trị tới hạn từ hàm thống kê được mô phỏng của thống kê cần kiểm định, chúng ta sử dụng nó để ước tính p-giá trị.

PHƯƠNG PHÁP MONTE CARLO KIỂM ĐỊNH GIẢ THUYẾT (P- GIÁ TRỊ)

1. Với một mẫu ngẫu nhiên kích thước n được sử dụng trong kiểm định giả thuyết thống kê, tính toán giá trị quan sát được của kiểm tra thống kê t0.

2. Quyết định trên một không gian tựa mẫu mà phản ánh các tính chất của không gian mẫu dưới giả thuyết.

3. Có được một mẫu ngẫu nhiên kích thước n từ không gian tựa mẫu.

4. Tính toán giá trị của thống kê cần kiểm định bằng cách sử dụng mẫu ngẫu nhiên trong bước 3 và ghi lại vào các ti.

5. . Lặp lại bước 3 và 4 cho M thử nghiệm. Chúng ta có các giá trị t1,. . . ,tM

coi như ước lượng phân phối của thống kê cần kiểm định T khi giả thuyết là đúng.

6. Ước tính cho p-giá trị bằng cách sử dụng phân phối tìm được trong bước 5, như sau

Kiểm tra cận trên :

b

p−giá trị = #(ti≤t0)

M ; 1 = 1, ..., M

Kiểm tra cận dưới :

b

p−giá trị = #(ti≥t0)

M ;1 = 1, ..., M

7. Nếu pbgiá trị α, khi đó bác bỏ giả thuyết.

Ví dụ 3.2.2. Chúng ta quay trở lại ví dụ 3.2.1 và áp dụng phương pháp mô phỏng Monte Carlo (p-giá trị ) để kiểm định giả thuyết với một chút thay đổi trong tính toán.

Tobs = mean(mcdata); M = 1000;

for1 = 1:M

% Sinh mẫu ngẫu nhiên dưới H_0. xs = sigma*randn(1,n) + 454; Tm(i) = mean(xs);

end

Chúng ta tìm ước tính p-giá trị bằng cách đếm số quan sát trong Tm đó là giá trị dưới thương của giá trị quan sát được của thống kê cần kiểm định với M.

% Nhận p-value. Trường hợp kiểm tra cận dưới. ind = find(Tm <= Tobs);

pvalhat = length(ind)/M;

Chúng ta có ước tính p-giá trị được đưa ra bởi 0.007. Nếu mức ý nghĩa của kiểm định làα = 0.05, khi đó chúng ta bác bỏ giả thuyết.

3.3 Phương pháp Monte Carlo đánh giá kiểm định giả thuyết

Phương pháp mô phỏng Monte Carlo có thể được sử dụng để đánh giá hiệu quả của mô hình kiểm định hoặc kiểm định giả thuyết trong giới hạn của sai lầm loại1 và sai lầm loại 2. Với một vài tham số, chẳng hạn như trung bình mẫu, những sai lầm này có thể được xác định. Tuy nhiên, nếu chúng ta có một bài thống kê cần kiểm định mà các giả định của phương pháp tới hạn bị vi phạm hoặc các phương pháp phân tích có thể không được áp dụng? Ví dụ, giả sử rằng chúng ta chọn giá trị tới hạn bằng cách sử dụng xấp xỉ chuẩn ( khi thống kê cần kiểm định của chúng ta là phân phối không chuẩn ), chúng ta phải đánh giá kết quả thực hiện điều đó? Trong tình huống này, chúng ta có thể sử dụng mô phỏng Monte Carlo để ước lượng sai lầm loại 1 và sai lầm loại 2.

Bởi vì sai lầm loại 1 xảy ra khi chúng ta bác bỏ giả thuyết nhưng nó đúng, chúng ta phải có mẫu từ không gian tựa mẫu phù hợp H0.

PHƯƠNG PHÁP ĐÁNH GIÁ MONTE CARLO CHO SAI LẦM LOẠI1

2. Đưa ra mẫu ngẫu nhiên kích thước n từ giả không gian tựa mẫu.

3. Thực hiện kiểm định giả thuyết bằng cách sử dụng giá trị tới hạn.

4. Lưu ý khi xảy ra sai lầm loại 1. Ghi lại kết quả cho thử nghiệm này, Ii =

 

1;Mắc sai lầm loại1

0; Không mắc sai lầm loại1

5. Quay lại bước 2 đến 4 cho M thử nghiệm.

6. Xác suất nhận sai lầm loại1 αb= M1

M

i=1

Ii.

Chú ý rằng trong bước 6, điều này giống như là tính toán số lần giả thuyết là bác bỏ sai ra khỏi M thử nghiệm. Điều này cung cấp một ước lượng của mức ý nghĩa của kiểm định cho giá trị tới hạn.

Phương pháp cũng tương tự cho ước tính sai lầm loại 2 của bài toán thống kê cần kiểm định. Tuy nhiên, loại sai lầm này được xác dịnh bởi mẫu từ phân phối khi giả thuyết là sai. Có rất nhiều khả năng cho sai lầm loại 2, chúng ta nên nghiên cứu sai lầm loại 2 cho đối thuyết quan tâm.

PHƯƠNG PHÁP MONTE CARLO CHO ĐÁNH GIÁ SAI LẦM LOẠI 2

1. Xác định không gian tựa mẫu. khi mà giả thuyết là sai.

2. Sinh một mẫu ngẫu nhiên kích thước n từ không gian tựa mẫu.

3. Thực hiện kiểm định giả thuyết bằng cách sử dụng mức ý nghĩa α và giá trị tới hạn tương ứng.

4. Chú ý xem là sai lầm loại 2 xảy ra; tức là, có phải giả thuyết không bị bác

bỏ? Ghi lại kết quả cho M thử nghiệm, Ii =

  

1;Mắc sai lầm loại 2

0; Không mắc sai lầm loại 2

5. Quay lại bước 2 đến 4 cho M thử nghiệm

6. Xác suất tạo ra sai lầm loại 2 là βb= 1

M M

i=1

Tỷ lệ của sai lầm loại 2 được ước lượng bằng tỷ lệ số lần giả thuyết không bị bác bỏ (khi nó nên bị bác bỏ) trong Mthử nghiệm .

Ví dụ 3.3.1. Kiểm định giả thuyết trong ví dụ 3.2.1, chúng ta có giá trị tiêu chuẩn ( từ giả thuyết ) là -1,645. Chúng ta có thể ước tính mức ý nghĩa của kiểm định bằng cách sử dụng các bước dưới đây:

M = 1000; alpha = 0.05;

% Lấy giá trị tới hạn cv = norminv(alpha,0,1);

Im = 0; for1 = 1:M

% Sinh mẫu ngẫu nhiên dưới H_0 xs = sigma*randn(1,n) + 454; Tm = (mean(xs)-454)/sigxbar; if Tm <= cv % thì bác bỏ H_0 Im =1m +1; end end alphahat =1m/M;

Một giá trị tới hạn là 1.645 trong tình huống này tương ứng với xác suất của sai lầm loại 1 là 0.05. Từ mô phỏng này, chúng ta đưa ra ước lượng giá trị là 0.045, rất gần với giá trị lý thuyết. Bây giờ chúng ta kiểm tra lại sai lầm loại 2 trong kiểm định này. Chú ý rằng chúng ta có một mẫu từ đối thuyết quan tâm.

mualt = 445:458;

betahat = zeros(size(mualt)); for j = 1:length(mualt)

Im = 0;

for1 = 1:M xs = sigma*randn(1,n) + mu; Tm = (mean(xs)-454)/sigxbar; if Tm > cv Im =1m +1; end end betahat(j) =1m/M; end powhat = 1-betahat;

Chúng ta vẽ đồ thị độ tin cậy power như một hàm củaµ, hình 3.2. Đúng như kỳ vọng

khiµgần 454(trung bình dưới giả thuyết), độ tin cậy power của kiểm định tăng tương ứng.

Trong đề tài này em đã trình bày các vấn đề liên quan đến phương pháp Monte Carlo và các hệ thống kiến thức thuật toán có liên quan Nội dung chính của báo cáo trình bày về:

1 Giới thiệu MATLAB và ứng dụng

2 Bài toán thống kê kiểm định và ước lượng cổ điển.

3 Phương pháp Monte Carlo cho bài toán thống kê cần kiểm định.

Hơn nữa, sau một thời gian tìm hiểu về phần mềm soạn thảo văn bản Latex, báo cáo đã được trình bày và hoàn thiện bằng phần mềm này.

Tuy nhiên do thời gian thực hiện đề tài thực tập không nhiều, còn có những sai sót em rất mong nhận được sự góp ý của quý thầy cô và bạn đọc.

[1] Đào Hữu Hồ,Xác suất thống kê, Nhà xuất bản Đại học Quốc gia Hà Nội (1996) .

[2] Trần Mạnh Tuấn, Xác suất thống kê lý thuyết và thực hành tính toán, NXB Đại học Quốc Gia Hà Nội (2004).

[3] Đặng Hùng Thắng,Mở đầu về lý thuyết xác suất và các ứng dụng, Nhà xuất bản Giáo Dục (1997) .

[4] Wendy L. Martinez and Angle R. Martinez , Computational Statistics Handbook

Một phần của tài liệu Phương pháp monte carlo cho bài toán kiểm định (Trang 36 - 46)

Tải bản đầy đủ (PDF)

(46 trang)