Kiểm định độ phân tán (phương sai)

Một phần của tài liệu Machine Learning Toolbox trong MatLab (Trang 67 - 72)

2 Các phân phối xác suất

3.3 Kiểm định độ phân tán (phương sai)

3.3.1 Kiểm định Ansari-Bradley

Lý thuyết chung

Kiểm định Ansari-Bradley được dùng để kiểm định độ phân tán của bộ dữ liệu. Kiểm tra xem phương sai của 2 mẫu có bằng nhau hay khơng kể cả khi 2 mẫu lấy từ tổng thể không cần cùng tuân theo phân phối chuẩn, tuân theo phân phối bất kỳ miễn là 2 mẫu cùng median. Khi không cùng median ta phải lấy 2 mẫu x, y trừ cho median để chuẩn hóa dữ liệu.

Lấy mẫu có số lượng biến quan sát nhỏ hơn, (hay coi là mẫu y) với N biến quan sát. Ta tiến hành xếp hạng các biến, biến nhỏ nhất và lớn nhất có hạng là 1, đánh dần về median của y. Sau đó biến ngẫu nhiên của kiểm định được định nghĩa là:

W =∑ j

Rj

VớiRj là hạng của các biến quan sát trong mẫu nhỏ hơn y. Khi đó chúng ta sẽ bác bỏH0 khi

P(W >wobs) =α.

Cài đặt code

1. h = ansaribradley(x,y)trả vềh=0 nếu khơng bác bỏ giả thuyếtH0 rằng 2 mẫu có cùng phương sai, đối thuyết H1 :2 mẫu có cùng dạng phân phối, median nhưng phương sai khác nhau.

2. [h,p] = ansaribradley(x,y)trả thêm về p-value của kiểm định.

Ví dụ minh họa

load carsmall

x = MPG(Model_Year==82); y = MPG(Model_Year==76);

[h,p,stats] = ansaribradley(x,y)

Kết quả thu đượch = 0, p = 0.5787, stats = struct with fields: W: 526.9000; Wstar: 0.1986

nên ta không bác bỏ H0 và tổng của hạng trong mẫu nhỏ làW.

3.3.2 Kiểm định Bartlett

Lý thuyết chung

3 KIỂM ĐỊNH GIẢ THUYẾT

cần thiết để mô tả mối quan hệ hiệp phương sai giữa các biến quan sát trong bộ dữ liệu.

Cài đặt code

1. ndim = barttest(x,alpha) trả về số chiều tối thiểu để biểy thị mối quan hệ hiệp phương sai của bộ dữ liệu với mức ý nghĩaα =5%.

Ví dụ minh họa

rng default % for reproducibility

mu = [0 0];

sigma = [1 0.9; 0.9 1];

X = mvnrnd(mu,sigma,20); % columns 1 and 2

X(:,3:4) = mvnrnd(mu,sigma,20); % columns 3 and 4

X(:,5:6) = mvnrnd(mu,sigma,20); % columns 5 and 6

ndim = barttest(X,0.01)

Kết quả trả về ndim=3Chỉ cần 3 chiều dữ liệu (3 biến quan sát) ta có thể mơ tả được mối quan hệ hiệp phương sai của bộ dữ liệu x với mức ý nghĩa α =5%.

3.3.3 Kiểm định phương sai Chi - bình phương

Lý thuyết chung

Kiểm định chi - bình phương rất thơng dụng khi tiến hành kiểm định cho phương sai của mẫu có bằng phương sai tổng thể hay khơng. Biến ngẫu nhiên T được định nghĩa là:

T = (n−1). s σ0

2

với n là độ lớn của mẫu được lấy ra từ tổng thể tuân theo phân phối chuẩn, s là phương sai mẫu đã hiệu chỉnh vàσ là phương sai mẫu lý thuyết. Khi giả thuyếtH0 đúng (Tức phương sai mẫu bằng phương sai mẫu lý thuyết) thì biến ngẫu nhiên T tuân theo phân phối khi bình phương với

n−1bậc tự do.

Cài đặt code

1. h = vartest(x,v) trả vềh=1nếu ta bác bỏ giả thuyếtH0 rằng bộ dữ liệu x có phương sai bằng v với mức ý nghĩa α=0.05

3 KIỂM ĐỊNH GIẢ THUYẾT

Ví dụ minh họa

load examgrades x = grades(:,1);

[h,p,ci,stats] = vartest(x,25)

Kết quả thu đượch=1,p=0nên ta bác bỏ giả thuyết H0, ci = 2×1 59.8936 99.7688 , stats = struct with fields: chisqstat : 361.9597

d f : 119

Các thông số thu được ở ci là cận trên và cận dưới của khoảng tin cậy với mức ý nghĩa

α =0.05và trả về độ lớn của biến ngẫu nhiênT và số bậc tự dodf.

3.3.4 Kiểm định Fisher 2 mẫu có phương sai bằng nhau

Lý thuyết chung

Kiểm định Fisher cho 2 mẫu dùng để kiểm định giả thuyết phương sai của 2 mẫu x và y tuân theo phân phối chuẩn có bằng nhau hay khơng. Biến ngẫu nhiên F được định nghĩa như sau:

F = s

2 1

s22

với s1, s2 là 2 phương sai mẫu đã hiệu chỉnh của mẫu x (có độ lớn mẫu làN1) và y (có độ lớn mẫu là N2). Khi đó biến ngẫu nhiên F có bậc tự do là(N1−1,N2−1).

Cài đặt code

1. h = vartest2(x,y) trả vềh=1 khi bác bỏ giả thuyếtH0 rằng 2 mẫu x,y tuân theo phân phối chuẩn và có phương sai bằng nhau với mức ý nghĩa α=0.05

2. [h,p] = vartest2(x,y) trả thêm về p−valuecủa kiểm định.

Ví dụ minh họa

load examgrades; x = grades(:,1); y = grades(:,2); [h,p] = vartest2(x,y)

3 KIỂM ĐỊNH GIẢ THUYẾT

3.3.5 Kiểm định phương sai bằng nhau cho đa mẫu

Lý thuyết chung

Kiểm định trên sử dụng kiểm định Bartlett cho nhiều mẫu với giả thuyết H0 các mẫu đã cho trong bộ dữ liệu đều tuân theo phân phối chuẩn với phương sai bằng nhau. Biến ngẫu nhiên T được xác định như sau:

T = (N−k).logs2p−∑ki=1(Ni−1)logs2i

1+1/(3(k−1)) ∑ki=11/(Ni−1)−1/(N−k) ! vớis2p = k ∑ i=1

(Ni−1)s2i/(N−k) Khi giả thuyếtH0 đúng thì biến ngẫu nhiên T tuân theo phân phối khi bình phương với k−1bậc tự do.

Cài đặt code

1. vartestn(x) trả về 1 bảng tóm tắt các đại lượng thống kê cho mẫu, vẽ boxplot các mẫu trong x và trả về p−valuecho kiểm địnhH0 rằng các mẫu đã cho tuân theo phân phối chuẩn với phương sai bằng nhau.

2. vartestn(x,group)Kiểm định phương sai nhiều chiều cho các biến phân loại trong group với bộ dữ liệu x.

Ví dụ minh họa

load examgrades vartestn(grades)

3 KIỂM ĐỊNH GIẢ THUYẾT

Một phần của tài liệu Machine Learning Toolbox trong MatLab (Trang 67 - 72)

Tải bản đầy đủ (PDF)

(184 trang)