5 Ứng dụng
5.2 Phân phối bootstrap
Gọi .F / là trung vị của F, và t .X / là trung vị mẫu. Để thuận tiện, chọn cỡ mẫu lẻ là n D 2m 1. Khi đó, với X.1/ X.2/ : : : X.n/ là thống kê thứ tự,
t .X /D X.m/ (5.2)
Đặt
R.X; F /D t .X / .F / (5.3) mục 5.2 và 5.3 sẽ trình bày các xây dựng phân phối mẫu cho R.
5.2 Phân phối bootstrap
Xét quan trắc X D x với X D .X1; X2; : : : ; Xn/ và x D .x1; x2; : : : ; xn/. Ước lượng phân phối mẫu của R.X; F / dựa vào x theo phương pháp Bootstrap như sau
1. Xây dựng phân phối xác suấtFO đặt khối lượng 1
n ở mỗi điểmx1; : : : ; xn.
2. Từ FO cố định như trên, lấy một mẫu cỡ n là X D .X1; X2; : : : ; Xn/
có các thành phần độc lập,
Xi D xi; Xi i nd F ;O i D 1; 2; : : : ; n (5.4) mẫu này được gọi là mẫu bootstrap. Dữ liệu quan trắc của X là
x D .x1; x2; : : : ; xn/. .x1; x2; : : : ; xn/ không nhất thiết phải là một hoán vị của .x1; x2; : : : ; xn/ vì mỗi giá trị xi được chọn ngẫu nhiên có hoàn lại từ tập hợp các giá trị fx1; x2; : : : ; xng.
5.2 Phân phối bootstrap
Giải thích phân phối đa thức: giả sử một thí nghiệm cók kết cụcA1; : : : ; Ak
với xác suất xảy ra tương ứng là p1; p2; : : : ; pk. Thực hiện n phép thử, gọi
Ti là số lần xuất hiện Ai trong n phép thử. Khi đó bộ .T1; T2; : : : ; Tk/ có phân phối đa thức với tham số .n; p/, p D .p1; p2; : : : ; pk/.
Thống kê thứ tựx.1/ x.2/ : : : x.n/tương ứng vớiN.1/ ; N.2/ ; : : : ; N.n/
(N.i / là số lần rút được x.i /, i D 1; 2; : : : ; n) được viết lại như sau
x.1/ x.2/ : : : x.n/ N.1/ N.2/ : : : N.n/
Giá trị bootstrap của R là
R D R.X;F /O D t .X/ .F /O D X
.m/ x.m/ (5.5)
với X.1/ X.2/ : : : X.n/ là thống kê thứ tự cho mẫu bootstrap và X.m/
là trung vị của mẫu .X1; X2; : : : ; Xn/. .F /O là trung vị của FO, chính là
x.m/ vì khối lượng đặt tại mỗi điểm x.i / là 1
n và x.m/ là điểm giữa).
Với mọi giá trị l nguyên, 1 l n. Ta nhận thấy,
n
X.m/ > x.l/
o
D nN.1/ CN.2/ C CN.l/ m 1o (5.6)
Chứng minh .5:6/:
Phần thuận: Giả sử ta có vế trái fX.m/ > x.l/g. Do cỡ mẫu là n D 2m 1
nên bên trái X.m/ có m 1 phần tử và bên phải cũng có m 1 phần tử. Khi chọn mẫu bootstrap, do rút có hoàn lại nên các lần sau có thể lặp lại x.1/ ta được N.1/ phần tử, . . . , lặp lại x.l/ ta được N.l/ . Do tổng số phần tử bên trái X.m/ không được vượt quá .m 1/ nên
N.1/ CN.2/ C CN.l/ m 1.
Phần đảo: Giả sử ta có vế phải fN.1/ CN.2/ C CN.l/ m 1g. Khi thực hiện chọn mẫu bootstrap, mỗi lần rút một phần tử có hoàn
5.2 Phân phối bootstrap
lại từ fx1; x2; : : : ; xng. Số phần tử tại x.1/ là N.1/ , . . . , tại x.l/ là N.l/
mà fN.1/ C N.2/ C C N.l/ m 1g. Như vậy, tất cả các phần tử
x.1/; : : : ; x.l/ phải nằm bên trái X.m/ . Vậy X.m/ > x.l/. Vậy, P robfX.m/ > x.l/g D P robfN.1/ CN.2/ C CN.l/ m 1g D P rob Bi nomi al n; l n m 1 D m 1 X jD0 Cnj l n j n l n n j (5.7)
với Bi nomi al.n; nl/ là ký hiệu chỉ biến ngẫu nhiên có phân phối nhị thức với tham số .n;nl/ (Các ký hiệu như P rob, E hoặc Var dùng để chỉ các tính toán xác suất liên quan đến mẫu bootstrap).
Ta có thể giải thích (5.7) qua mô hình gieo đồng tiền:
Có đồng tiền gieo n lần, biết rằng xác suất xuất hiện mặt sấp là l n. Thì P rob˚Bi nomi al.n; nl/ m 1 chính là xác suất để số lần xuất hiện mặt sấp m 1. Ở đây, ta có thể hiểu xuất hiện mặt sấp tức là rút được fx.1/; x.2/; : : : ; x.l/g, xuất hiện mặt ngửa là rút được các x./ còn lại.
N.1/ C N.2/ C : : : N.l/ là số lần sấp, n .N.1/ C N.2/ C : : : N.l/ ) là số lần ngửa. Xác suất tại mỗi x.i / là 1
n, xác suất để rút được fx.1/; x.2/; : : : ; x.l/g là l n. Do đó, từ trên ta có, P rob˚R D x.l/ x.m/ DP rob Bi nomi al.n; l 1 n / m 1 l
5.2 Phân phối bootstrap Thật vậy, P robfR D x.l/ x.m/g D P robfX.m/ D x.l/g D P robfX.m/ > x.l 1/g P robfX.m/ > x.l/g D P rob Bi nomi al.n;l 1 n / m 1 P rob Bi nomi al.n; l n/ m 1 (5.9)
Cụ thể, trường hợp n D 13.m D 7/, ta tính được phân phối bootstrap của R như sau
Bảng 5.1: Phân phối bootstrap cho trường hợp nD13. l= 2 hoặc 12 3 hoặc 11 4 hoặc 10 5 hoặc 9 6 hoặc 8 7 (5.8)= 0.0015 0.0142 0.0550 0.1242 0.1936 0.2230
Cách tính: vớil D 2hoặcl D 12,P robfR D x.2/ x.7/g D P robfR D
x.12/ x.7/g D 0; 0015. Ở đây ta có nhận xét: Bi nomi al.n; l
n/ D n Bi nomi al.n; n l
n /.
Cụ thể, với l D 2 ta có Bi nomi al.13; 1
13/ Bi nomi al.13; 2 13/ D 13 Bi nomi al.13;12 13/ 13 Bi nomi al.13; 11 13/ D Bi nomi al.13; 11 13/ Bi nomi al.13; 12 13/ tức là P robfR D x.2/ x.7/g D
P robfR D x.12/ x.7/g; tương tự cho các trường hợp còn lại. Khi l D 1
hoặc l D 13 xác suất boostrap rất bé, nhỏ hơn 0:0015, có thể nhận giá trị 0:000 : : : (đến chữ số có nghĩa) 0 nên có thể bỏ qua không tính xác suất bootstrap trong những trường hợp này.