Luận văn thạc sĩ Toán ứng dụng: So sánh trung bình hai mẫu với số chiều lớn

Trong kiểm định giả thuyết thống kê dành cho dữ liệu có số chiềulớn, đặc biệt trong các ứng dụng khác nhau như di truyền học, sinh học hayxử lý tín hiệu, ta thường quan tâm đến câu hỏi:

Không gian định chuẩn

Định nghĩa 1.1.1 (xem [6], trang 3) Giả sử X là một không gian vectơ trên trường sốK(K =RhayK =C) Một ỏnh xạ kãk : X →Rđược gọi là một chuẩn trên X nếu thỏa mãn các điều kiện sau với mọi x, y ∈ X, với mọi λ ∈ K i) kxk ≥ 0; kxk = 0 ⇔ x = 0; ii) kλxk = |λ|.kxk; iii) kx + yk ≤ kxk + kyk.

Khi đú, (X, kãk) được gọi là một khụng gian tuyến tớnh định chuẩn.

Với mọi (x 1 , , x n ) ∈R n , ta có các chuẩn thông dụng sau kxk 1 = n

|x i | được gọi là chuẩn l 1, kxk 2 = n P i=1

|x i | 2 1 2 được gọi là chuẩn l 2 hay chuẩn Euclide, kxk p = p

|x i | p 1 p với 1 ≤ p < ∞ được gọi là chuẩn l p , kxk ∞ = max

1≤i≤n |x i | được gọi là chuẩn vô cùng. Định nghĩa 1.1.2 (xem [6], trang 3) Cho M n là tập các ma trận vuông cấp n Ánh xạ k•k : M n →R được gọi là một chuẩn ma trận trên M n nếu thỏa mãn các điều kiện sau với mọi A, B ∈ M n, với mọi λ ∈R i) kAk ≥ 0; kAk = 0 ⇔ A = 0; ii) kλAk = |λ|.kAk; iii) kA + Bk ≤ kAk + kBk; iv) kABk ≤ kAk.kB k.

Với mọi ma trận vuông cấp n, ta định nghĩa các chuẩn ma trận thông dụng sau kAk 1 = max

Phân phối chuẩn nhiều chiều

Ta bắt đầu mục này với phân phối chuẩn một chiều Một biến ngẫu nhiên X được gọi là cú phõn phối chuẩn N (à, σ 2 ) nếu nú cú hàm mật độ f (x) = 1 σ √ 2π e −

(x − à) 2 2σ 2 , x ∈R , trong đúà và σ 2 lần lượt là kỳ vọng và phương sai của biến ngẫu nhiờn X Phõn phối chuẩn nhiều chiều là tổng quát của phân phối chuẩn một chiều. Định nghĩa 1.2.1 (xem [10], trang 43) Giả sử àlà một vectơ trongR p và Σlà một ma trận vuụng cấppđối xứng xỏc định dương Một vectơ X = (X 1 , , X p ) ∈ R p được gọi là có phân phối chuẩn nhiều chiều N p (à, Σ) nếu nú cú hàm mật độ f(x) = 1

− 1 2 (x − à) 0 Σ −1 (x − à) o , x ∈R p , với det(Σ) là định thức của Σ. Nếu à = 0 (0 là vectơ khụng trong R p ) và Σ = I (I là ma trận đơn vị cấp p) thì hàm mật độ của X trở thành f (x) = 1

, x ∈R p và N p (0, I) được gọi là phân phối chuẩn tắc nhiều chiều

Ta phát biểu mà không chứng minh các mệnh đề sau.

Mệnh đề 1.2.1 (xem [10], trang 45) Nếu X ∼ N p (à, Σ) thỡ E(X) = à và Cov(X) = Σ. Tương tự, nếu X ∼ N p (0, I) thì E(X) = 0 và Cov(X) = I. Đặc biệt, nếu X ∼ N 2 (à, Σ) thỡ

E(X) = à = à 1 à 2 và ma trận hiệp phương sai

Suy ra, hệ số tương quan giữa hai biến ngẫu nhiên X 1 và X 2 là ρ = σ 21 σ 1 σ 2 Hơn nữa, hàm mật độ của X là f(x, y) = 1

Phân phối Gumbel

Phân phối Gumbel thường được dùng để mô tả phân phối của giá trị lớn nhất hay giá trị nhỏ nhất, sử dụng phân tích lượng mưa lớn nhất hằng năm hay thể tích nước sông giảm đi lớn nhất hằng tháng, v.v Gumbel đã chứng minh được rằng giá trị lớn nhất của một mẫu các quan sát có phân phối mũ hội tụ theo phân phối về phân phối Gumbel khi kích thước mẫu lớn. Định nghĩa 1.3.1 (xem [5], trang 57) Một biến ngẫu nhiên X được gọi là có phân phối Gumbel cực tiểu với các tham số η > 0 và υ > 0 nếu X có hàm mật độ f (u) = 1 υ exp z(u) − e z(u)

, u ∈R , với z(u) = u − η υ Khi đó, ta ký hiệu X ∼ Gumbel m (η, υ) Trường hợp η = 0 và υ = 1được gọi là phân phối Gumbel chuẩn tắc cực tiểu và hàm mật độ trở thành f (u) = exp(u − e u ).

Tương tự, một biến ngẫu nhiên X được gọi là có phân phối Gumbel cực đại với các tham số η > 0 và υ > 0 nếu nó có hàm mật độ f(u) = 1 υ exp − z(u) − e −z(u)

Khi đó, ta ký hiệu X ∼ Gumbel M (η, υ) Trường hợp η = 0 và υ = 1 được gọi là phân phối Gumbel chuẩn tắc cực đại và hàm mật độ trở thành f(u) = exp − u − e −u ).

Ta phát biểu mà không chứng minh các mệnh đề sau.

Mệnh đề 1.3.1 (xem [5], trang 58) Biến ngẫu nhiên X ∼ Gumbelm (η, υ) có hàm phân phối

6 Tương tự, biến ngẫu nhiên X ∼Gumbel M (η, υ) có hàm phân phối

6 ,trong đó γ ' 0.5772 là hằng số Euler.

Hàm cumulant

Trong lý thuyết xác suất và thống kê,χ n được gọi là cumulant bậc n của một phân phối xác suất và đại lượng này là tập hợp các đại lượng được thay thế bởi các moment của phân phối Nếu hai phân phối xác suất bất kỳ có cùng các moment thì các cumulant cũng giống nhau và ngược lại Trong một số trường hợp, việc sử dụng các cumulant đơn giản hơn các moment Trước tiên, ta nhắc lại một số định nghĩa về hàm phân phối của phân phối chuẩn tắc, moment trung tâm bậc k và hàm sinh moment. Định nghĩa 1.4.1 (xem [12], trang 171) Hàm phân phối của phân phối chuẩn tắc được ký hiệu là Φ(x) = 1

Hàm phân phối của phân phối chuẩn tắc có tính chất Φ(−x) = 1 − Φ(x). Định nghĩa 1.4.2 (xem [12], trang 115) Nếu X là một biến ngẫu nhiên và k là một số tự nhiên thì đại lượng E (X k ) được gọi là moment bậc k của X và đại lượng E

X − E(X) k được gọi là moment trung tâm bậc k của X. Định nghĩa 1.4.3 (xem [12], trang 125) Hàm sinh moment của biến ngẫu nhiên X là kỳ vọng của biến ngẫu nhiên e tX , trong đó t là số thực Ta ký hiệu là

Nếu X là biến ngẫu nhiên rời rạc với xác suất P (X = x k ) = p k thì

Nếu X là biến ngẫu nhiên liên tục với hàm mật độ f (x) thì

−∞ e tx f(x)dx. Định nghĩa 1.4.4 (xem [3], trang 295) Hàm sinh cumulant của biến ngẫu nhiên X được xác định bởi

, trong đó M X (t) = E(e tX ) là hàm sinh moment của biến ngẫu nhiên X. Định nghĩa 1.4.5 (xem [3], trang 295) Đại lượng χ n được gọi là cumulant bậc n của biến ngẫu nhiên X được xác định từ khai triển chuỗi Maclaurin của hàm sinh cumulant K X (t) tại t 0 = 0

Ta phát biểu mà không chứng minh một số tính chất của cumulant như sau.

(a) Với c là hằng số, ta có χ 1 (X + c) = χ 1 (X) + c và χ n (X + c) = χ n (X) với n ≥ 2.

(b) Với c là hằng số, ta có χ n (cX) = c n χ n (X).

(c) Nếu X và Y là hai biến ngẫu nhiên độc lập thì χ n (X + Y ) = χ n (X) + χ n (Y ). Định nghĩa 1.4.6 (xem [9]) Hàm cumulant đồng thời của vectơ ngẫu nhiên X = (X 1 , , X n ) ∈R n được xác định bởi

P i=1 t i X i Định lý 1.4.2 (xem [9]) Cho vectơ ngẫu nhiên X = (X 1 , , X n ) ∈R n Khi đó, χ n (X 1 , , X n ) được gọi là cumulant bậc n của X được xác định bởi χ n (X 1 , , X n ) =X π

, (1.1) trong đó P π là tổng trên tất cả các phân hoạch có thể có của {X 1 , , X n } và Q

B∈π là tích trên mỗi phân hoạch π. Ta cũng có

, (1.2) trong đó χ |B| {X j : j ∈ B} là cumulant đồng thời của các biến ngẫu nhiên trong tập {X j : j ∈ B}, |B| là lực lượng của B, |π| là số lượng phân hoạch,

Chi tiết chứng minh của định lý (1.4.2) được trình bày chi tiết trong [9].

Tiếp theo, ta sẽ giới thiệu phương pháp phân tích đa biến đồng thời cũng là mở rộng của kiểm định t-test Kiểm định này được gọi là kiểm định T được giới thiệu lần đầu bởi Hotelling (xem [1], trang 117).

Phương pháp kiểm định Hotelling

Ta bắt đầu mục này với các định nghĩa về hai loại sai lầm thường gặp. Định nghĩa 1.5.1 (xem [12], trang 294) Sai lầm loại I là xác suất bác bỏ giả thuyết H 0 khi H 0 đúng Ta ký hiệu là P(sai lầm loại I)= α.

Sai lầm loại II là xác suất chấp nhận giả thuyết H 0 khi H 1 đúng Ta ký hiệu là P(sai lầm loại II)= β.

Khi đú, hàm 1 − β(à) được gọi là hàm khả năng của quy tắc kiểm định được xác định bởi xác suất bác bỏ H 0 khi H 0 sai.

Trong phõn tớch nhiều biến, ta so sỏnh hai kỳ vọng à 1 và à 2 của hai mẫu độc lập có các ma trận hiệp phương sai bằng nhau; nghĩa là Σ 1 = Σ 2 = Σ Cụ thể, X 1 , X 2 , , X n ∈ R p và Y 1 , Y 2 , , Y m ∈ R p lần lượt là các mẫu độc lập có cùng phõn phối N p (à 1 , Σ) và N p (à 2 , Σ), trong đú à 1 và à 2 lần lượt là cỏc kỳ vọng của hai mẫu, ma trận hiệp phương sai chung Σ Ta muốn kiểm định giả thuyết

Tương tự, ta cú thể xột cỏc trường hợp H 1 : à 1 > à 2 và H 1 : à 1 < à 2 Đặt X = n

Y k m là các vectơ trung bình mẫu.

Ta xác định W 1 và W 2 như sau:

(Y k − Y )(Y k − Y ) 0 = (m − 1)S 2 , trong đó(n −1)S 1 và(m − 1)S 2 lần lượt là các ước lượng không chệch của (n − 1)Σ và (m − 1)Σ.

(n − 1)S 1 + (m − 1)S 2 là một ước lượng không chệch của ma trận hiệp phương sai chung Σ. Ta biết rằng, nếu giả thuyết H 0 đúng thì giá trị thống kê của kiểm địnht −test cho một chiều là t = X − Y q

∼ t n+m−2 , trong đó t n+m−2 là phân phối Student với (n + m − 2) bậc tự do và

S p 2 = (n − 1)S x 2 + (m − 1)S y 2 n + m − 2 là ước lượng của phương sai chung σ 2 Khi đó, ta tổng quát trường hợp p chiều là

Nếu H 0 đúng thì T ∼ T p,n+m−2 2 , trong đó T p,n+m−2 2 là phân phối Hotelling với p và n + m − 2 bậc tự do.

Vậy giả thuyết H 0 bị bác bỏ ở mức ý nghĩa α khi và chỉ khi T ≥ T α,p,n+m−2 2 Các giá trị bác bỏ giả thuyết H 0 của T được thể hiện trong Bảng A.7 của tác giả Alvin C Rencher (xem [1], trang 558).

Định lý giới hạn trung tâm Linderberg

Ta bắt đầu mục này với định lý giới hạn trung tâm cho các biến ngẫu nhiên độc lập cùng phân phối. Định lý 1.6.1 (xem [13], trang 262 ) Cho X 1 , X 2 , dóy cỏc biến ngẫu nhiờn độc lập cựng phõn phối cú kỳ vọng à và phương sai hữu hạn σ 2 < ∞ Đặt X n = 1 n n

Nhận xét Định lý giới hạn trung tâm nói rằng trung bình mẫu X của một mẫu gồm các quan sát ngẫu nhiên X 1 , , X n độc lập từ một phân phối bất kỳ luôn có thể được xấp xỉ bởi phân phối chuẩn tắc N (0, 1) khi kích thước mẫu đủ lớn (n ≥ 30); nghĩa là, với mọi u ∈R n→∞ lim P √ n(X − à) σ ≤ u

= Φ(u), trong đó Φ(u) là hàm phân phối của phân phối chuẩn tắc. Định nghĩa 1.6.1 (Dãy dừng - xem [8], trang 271, định nghĩa 8.6.1) Một dãy các biến ngẫu nhiên {X i } i≥1 xác định trên (Ω, F , P ) gọi là dừng nghiêm ngặt nếu với mọi k ≥ 1 phân phối xác suất của (X i+j : j = 1, 2 , k) là như nhau cho tất cả i ≥ 0. Định nghĩa 1.6.2 (xem [11], trang 16, định nghĩa 1.4.3) Cho chuỗi thời gian dừng {X t : t ∈Z } Hàm tự hiệp phương sai của {X t } tại độ trễ h là γ X (h) = Cov(X t+h , X t ). Định nghĩa 1.6.3 (xem [8], trang 343, định nghĩa 11.1.1) Cho{X n1 , , X nr n }, n ≥ 1là dãy các biến ngẫu nhiên xác định trên (Ω n , F n , P n )sao choX n1 , , X nr n là độc lập Khi đó, {X nj : 1 ≤ j ≤ r n } n≥1 được gọi là dãy tam giác dưới của các biến ngẫu nhiên độc lập. Định nghĩa 1.6.4 (xem [8], trang 344, định nghĩa 11.1.2) Cho {X nj : 1 ≤ j ≤ r n } n≥1 được gọi là dãy tam giác dưới của các biến ngẫu nhiên độc lập sao cho

≡ σ nj 2 < ∞, (1.5) với mọi 1 ≤ j ≤ r n và n ≥ 1 Khi đó, {X nj : 1 ≤ j ≤ r n } n≥1 được gọi là thỏa điều kiện Lindeberg nếu với mọi ε > 0, ta có n→∞ lim s −2 n r n

P j=1 σ nj 2 , n ≥ 1. Định lý 1.6.2 (Lindeberg, xem [8], trang 345, định lý 11.1.1) Cho {X nj : 1 ≤ j ≤ r n } n≥1 được gọi là dãy tam giác dưới của các biến ngẫu nhiên độc lập thỏa (1.5) và điều kiện Lindeberg (1.6) Khi đó,

S n s n → N (0, 1) theo phân phối, (1.7) trong đó S n = r n

Chi tiết chứng minh của định lý (1.6.2) ta có thể xem trong [8], trang 345.

Hệ quả 1.6.3 (xem [8], trang 345, hệ quả 11.1.2) Cho {X n } n≥1 là dãy các biến ngẫu nhiờn độc lập cựng phõn phối với E(X 1 ) = à và V ar(X 1 ) = σ 2 ∈ (0, ∞) Khi đó, √ n(X n − à) → N (0, σ 2 ) theo phõn phối, (1.8) trong đó X n = n −1 n

Dãy trộn

Xét hai tập các biến ngẫu nhiên A và B Khi đó, sự phụ thuộc giữa các biến ngẫu nhiên trong hai tập A và B được gọi là các dãy trộn (mixing processes), trong đó bậc của sự phụ thuộc của chúng sẽ giảm dần khi khoảng cách giữa hai tập A và B tăng dần Bậc của sự phụ thuộc được đo bởi các hệ số trộn. Định nghĩa 1.7.1 (xem [8], trang 514, định nghĩa 16.2.1) Giả sử (Ω, F , P ) là không gian xác suất và G 1 , G 2 là σ −đại số con của F Hệ số α được gọi là hệ số trộn mạnh hay hệ số α −mixing giữa G 1 , G 2 được xác định như sau α(G 1 , G 2 ) ≡ sup n

(1.9) Định nghĩa 1.7.2 (xem [8], trang 515, định nghĩa 16.2.2) Giả sử {X i } i∈ Z là dãy các biến ngẫu nhiên xác định trên (Ω, F , P ) Khi đó, hệ số α −mixing của {X i } i∈Z được xác định bởi α X (n) ≡ sup i∈ Z α σ

, (1.10) với n ≥ 1 và α(ã, ã) được xỏc định từ (1.9).

Quá trình {X i } i∈ Z được gọi là trộn mạnh nếu n→∞ lim α X (n) = 0 (1.11) Định nghĩa 1.7.3 (xem [8], trang 515, định nghĩa 16.2.3) Giả sử m ∈ Z + và {X i } i∈Z dãy các biến ngẫu nhiên xác định trên (Ω, F , P ) Nếu với mọi k ∈Z, {X i : i ≤ k, i ∈ Z } và {X i : i > k + m, i ∈ Z } là độc lập thì {X i } i∈ Z được gọi là m-phụ thuộc. Định lý 1.7.1 (Bất đẳng thức Rio - xem [8], trang 517, định lý 16.2.2) Cho X và Y là hai biến ngẫu nhiên với

Q X (u)Q Y (u)du, (1.12) trong đó α = α σhXi, σhY i

. Chi tiết chứng minh định lý (1.7.1) ta có thể tham khảo trong [8], trang 517.

Hệ quả 1.7.2 (xem [8], trang 518, hệ quả 16.2.4) Cho X và Y là hai biến ngẫu nhiên với α σhXi, σhY i

= α ∈ [0, 1] Giả sử E|X| p < ∞, E|Y | q < ∞ cho q, p ∈ (1, ∞) với 1 p + 1 q < 1 Khi đó, E|XY | < ∞ và

Chi tiết chứng minh hệ quả (1.7.2) ta có thể tham khảo trong [8], trang 519.

Từ hệ quả (1.7.2), ta có các tính chất sau.

Tính chất 1.7.3 (xem [8], trang 345, tính chất 16.3.1) Dãy {X i } i∈ Z dãy các biến ngẫu nhiờn với hệ số trộn mạnh α(ã).

X n=1 α(n) < ∞ và c ∈ (0, ∞), P (|X i | ≤ c) = 1 cho tất cả i Khi đó,

Cov(X 1 , X n+1 ) hội tụ tuyệt đối (1.14)

E|X i | 2+δ < ∞ cho tất cả δ ∈ (0, ∞) Khi đó, (1.14) vẫn hội tụ tuyệt đối.

Giả sử rằng các biến ngẫu nhiên {X i } i∈ Z là dãy dừng và

Khi đó nV ar(X n ) = n −1 V ar

Dưới các giả thuyết (i) hay (ii) của tính chất (1.7.3), giới hạn n→∞ lim V ar √ n.X n

Trong trường hợp tổng quát, không chắc chắn σ ∞ 2 > 0 Tuy nhiên, dưới tính chất (1.7.3), nếu σ ∞ 2 > 0 thì định lý giới hạn trung tâm cho √ n(X n ) − E(X 1 ) vẫn thỏa trong trường hợp dãy dừng.

Việc sử dụng các biến ngẫu nhiên trộn là dựa trên ý tưởng “khối-lớn–khối- nhỏ”, được giới thiệu bởi S.N.Bernstein Phương pháp này được mô tả như sau: giả sử à = E(X 1 ) = 0.

X i bởi 2 nhóm: tổng của B i với kích thước p (được gọi là các

“khối-lớn”) và tổng của L i với kích thước q (được gọi là các “khối-nhỏ”) n

+ R n ,trong đó R n được gọi là phần dư.

• Tiếp theo, ta viết lại

Nếu q p n thì số các biến X i trong

Kết hợp điều kiện trộn và định lý Lindeberg (1.6.2) cho tổng các biến ngẫu nhiên độc lập, ta được

Phương pháp kiểm địnhCLX để so sánh trung bình hai mẫu có số chiều lớn

Giới thiệu

Các kết quả của chương này được tham khảo từ bài báo của các tác giả TonyCai, Weidong Liu và Yin Xia năm 2014 (xem [17]) Ta xem xét bộ dữ liệu có số chiều lớn với sự kết hợp kiểm định sự bằng nhau của hai vectơ trung bình trong phân tích đa biến Ta giới thiệu kiểm định thống kê CLX dựa trên sự biến đổi tuyến tính của dữ liệu bởi nghịch đảo ma trận hiệp phương sai, ma trận này kết hợp chặc chẽ sự tương quan giữa các biến Hơn nữa, ta xác định phân phối của giả thuyết thống kê dưới giả thuyết H 0 đúng và một số kết quả mô phỏng của phương pháp này cũng được thể hiện.

Phương pháp CLX

Ta nhắc lại một số ký hiệu và định nghĩa Cho vectơβ = (β 1 , β 2 , , β p ) 0 ∈R p , định nghĩa chuẩn l q bởi |β| q = p P i=1

|β i | q 1/q với 1 ≤ q ≤ ∞ Nếu vectơ β có k giá trị khác không thì vectơ β gọi là k-thưa Cho ma trận Ω = (w i,j ) p×p , kΩk L

|w i,j | Nếu mỗi dòng hay cột của ma trận Ω có k giá trị khác không thì ma trận Ω được gọi là ma trận k- thưa Ta ký hiệu δ = à 1 − à 2 là sự khỏc biệt giữa à 1 và à 2 Cho hai dóy số thực {a n } và {b n }, viết a n = O(b n ) nếu n đủ lớn và tồn tại hằng số C sao cho

|a n | ≤ C|b n |, a n = o(b n ) nếu giới hạn lim n→∞ a n b n = 0.Giả sửX 1 , X 2 , , X nlà cỏc mẫu độc lập cựng phõn phốiN p (à 1 , Σ)vàY 1 , Y 2 , , Y m là cỏc mẫu độc lập cựng phõn phối N p (à 2 , Σ), trong đú à 1 và à 2 lần lượt là cỏc vectơ trung bình kích thước p × 1 của hai mẫu, các ma trận hiệp phương sai là như nhau; nghĩa làΣ 1 = Σ 2 = Σ có kích thước p × p và ma trận Ω = Σ −1 đã biết.

Ta kiểm định giả thuyết

Hơn nữa, các mẫu {X k ; 1 ≤ k ≤ n} và {Y k ; 1 ≤ k ≤ m} được biến đổi tương ứng thành {ΩX k ; 1 ≤ k ≤ n} và {ΩY k ; 1 ≤ k ≤ m} Khi đó, giá trị thống kê CLX là giá trị cực đại của tổng bình phương các đại lượng kiểm định t hai mẫu {ΩX k ; 1 ≤ k ≤ n} và {ΩY k ; 1 ≤ k ≤ m} Trong trường hợp này, hai giả thuyết

H 0 : Ωδ = 0 là như nhau Ước lượng không chệch của Ωδ là vectơ trung bình mẫu

Ω(X − Y ) =: Z(Z 1 , Z 2 , , Z p ) 0 Khi đó, kiểm định giả thuyết H 0 : δ = 0 dựa trên giá trị thống kê

, (2.1) trong đó w i,i là các phần tử đường chéo ma trận hiệp phương sai chung của hai mẫu {ΩX k ; 1 ≤ k ≤ n} và {ΩY k ; 1 ≤ k ≤ m}.

Một cách khái quát, với A là ma trận khả nghịch tùy ý, ta giới thiệu 3 dạng thống kê CLX như sau:

• Cho ma trận A kích thước p × p Giả thuyết

H 0 : δ = 0 tương đương với giả thuyết

H 0 : Aδ = 0. Ước lượng của Aδ là δ A = (δ 1 A , , δ p A ) 0 := A(X − Y ) Ma trận hiệp phương sai của AX là B = (b i,j ) và giá trị thống kê tương ứng là

• Khi ta chọn A = Ω 1/2 thì Ω 1/2 X và Ω 1/2 Y là độc lập Ước lượng của Ω 1/2 δ là W = (W 1 , , W p ) 0 := Ω 1/2 (X − Y ) Khi đó, giá trị thống kê trong trường hợp này là

• Khi ta chọn A = I (với I là ma trận đơn vị); nghĩa là kiểm định dựa trên sự khác biệt trung bình X − Y giữa hai mẫu {X k } và {Y k } Ước lượng của Iδ là δ = (δ 1 , , δ p ) 0 := X − Y và giá trị thống kê trong trường hợp này là

1≤i≤p δ 2 i σ i,i , (2.4) trong đó σ i,i là các phần tử đường chéo của ma trận Σ Hơn nữa, M I là cực đại của bình phương đại lượng kiểm định t của 2 mẫu {X k } và {Y k }.

Các thống kê vừa nêu trên với ma trận Ω đã biết Tuy nhiên, nếu ma trận Ω chưa biết thì ta cần ước lượng ma trận Ω Tony Cai, Weidong Liu và Xi Luo (2011) (xem [18]) đã giới thiệu phương pháp để ước lượng ma trận Ω (phương pháp này được gọi là phương pháp CLIME) Ta nêu tóm tắt phương pháp này như sau:

TH1: Khi ma trận Ω biết thưa.

Giả sử Σ n là ma trận hiệp phương sai chung của hai mẫu ban đầu được xác định như sau:

Mặt khác, Ω ˆ 1 = ( ˆ w i,j 1 ) là nghiệm của bài toán tối ưu hóa min kΩk 1 điều kiện |Σ n Ω − I| ∞ ≤ λ n , trong đú kãk 1 là chuẩn l 1 và λ n = C log p n với C là hằng số đủ lớn. Áp dụng phương pháp CLIME, ta tìm được Ω = ( ˆ ˆ w i,j ) p×p là ước lượng của ma trận Ω, trong đó ˆ w i,j = ˆ w j,i = ˆ w 1 i,j I w ˆ i,j 1 ≤ w ˆ j,i 1

TH2: Khi ma trận Ω chưa biết thưa, ta ước lượng Ω bởi

Ω = ( ˆ ˆ Σ ∗ ) −1 , sao cho Σ ˆ ∗ = (ˆ σ i,j ∗ ) p×p là ước lượng của Σ thỏa ˆ σ ∗ i,j = ˆ σ i,j I(|ˆ σ i,j | ≥ λ i,j ), với λ i,j = 2 r θ ˆ i,j log p n , trong đó θ ˆ i,j = 1 n + m nX n k=1 h (X ki −X i )(X kj −X j )−ˆ σ i,j i 2 + m

Y ki , θ ˆ i,j là ước lượng của θ i,j = V ar

Khi đó, Ω ˆ là ước lượng của ma trậnΩ cho 2 trường hợp vừa nêu trên và giá trị thống kê M Ω trở thành

Một số tính chất của phương pháp CLX

Trước tiên, ta giới thiệu các bổ đề hỗ trợ cho việc chứng minh một số tính chất của phương pháp CLX.

Xét A 1 , , A n là các biến cố trên (Ω, F , P ) Ta có

0, với t > n được gọi là tổng Bonferroni.

Bổ đề 2.3.1 (xem [17], trang 366, bổ đề 1) Giả sử A 1 , , A n là các biến cố trên (Ω, F, P ), A = p

Chứng minh Gọi v là số sự kiện xảy ra tại thời điểm lấy mẫu.

Từ (2.6) và (2.7) suy ra điều phải chứng minh.

Bổ đề 2.3.2 (Berman - xem [17], trang 366, bổ đề 2) Nếu (X, Y ) có phân phối chuẩn hai chiều với X ∼ N (0, 1), Y ∼ N (0, 1) và hệ số tương quan ρ thì c→∞ lim

Chứng minh Vì(X, Y ) có phân phối chuẩn hai chiều với X ∼ N (0, 1), Y ∼ N (0, 1), hệ số tương quan ρ và hàm mật độ của phân phối chuẩn hai chiều là f (x, y) = 1

Thay x = w(1 + ρ) c + c và y = z(1 + ρ) c + c vào (2.8), ta được P (X > c, Y > c)

Theo định lý hội tụ bị chặn, ta có

Từ (2.9) và (2.10) suy ra điều phải chứng minh.

Tiếp theo, ta xây dựng các giả thiết sau để xác định hàm phân phối của các thống kê M Ω , M Ω 1/2 và M I , từ đó tìm ra phép kiểm định phù hợp.

D 2 =diag(w 1,1 , , w p,p ) là hai ma trận chéo cấp pcó các phần tử trên đường chéo lần lượt là σ k,k và w k,k với 1 ≤ k ≤ p Đồng thời, σ k,k và w k,k lần lượt là các phần tử của đường chéo ma trận Σ và Ω Giả sử các giá trị riêng λ của ma trận Σ bị chặn trên và bị chặn dưới Ma trận hệ số tương quan của X, Y và ΩX, ΩY lần lượt là Γ = (γ i,j ) = D 1 −1/2 ΣD 1 −1/2 ,

R = (r i,j ) = D −1/2 2 ΩD −1/2 2 Ta có các giả thiết sau

C.1 Với hằng số C 0 > 0, ta có C 0 −1 ≤ λ min (Σ) ≤ λ max (Σ) ≤ C 0 ;

C.2 Với hằng số r 1 sao cho 0 < r 1 < 1, ta có max

C.3 Với hằng số r 2 sao cho 0 < r 2 < 1, ta có max

Khi đó, ta chuẩn hóa kiểm định M Ω ở (2.1) trong đó (Z 1 , , Z p ) 0 có vectơ trung bình là vectơ 0, ma trận hiệp phương sai Ω = (w i,j ) 1≤i,j≤p và các phần tử đường chéo của ma trận này là w i,i = 1 cho 1 ≤ i ≤ p Ta có bổ đề sau.

Bổ đề 2.3.3 (xem [17], trang 366, bổ đề 6) Giả sử max

1≤i≤p max Z i 2 − 2 log p + log (log p) ≤ xo

1≤i≤p |Z i | ≥ √ x p Đặt x p = 2 log p − log (log p) + x. Áp dụng bổ đề (2.3.1) ta có

Với γ > 0 là số đủ nhỏ xác định sau, 2 ≤ d ≤ t − 1, ∀i k 6= i l ∈ S và S là dãy con lớn nhất của {i 1 , , i t } Đặt

Vì tổng số dãy con của {i 1 , , i t } với Card(S) = d là C p d nên dãy con S với Card(S) = d có số chỉ số i nhỏ hơn Cdp 2γ thỏa |Cov(Z i , Z j )| ≥ p −γ với j ∈ S. Đặt Card(I d ) là tổng số các vectơ (i 1 , , i t ) trong I d Do đó, Card(I d ) ≤ Cp d+2γt Đặt

Khi đó, số phần tử của P

− 1 2 z 0 Ω −1 t z dz, trong đó Ω t là ma trận hiệp phương sai của Z = (Z i 1 , , Z i t ) 0 và Ω t = (a kl ) t×t , với a kl = Cov(Z i k , Z i l ).

Vì i 1 , , i t ∈ I c , a k,k = 1 và |a kl | < p −γ với k 6= l nên Z

|z| min ≥ √ x p , kzk 2 ≤ log p 2 o , ta có Z

(2.16) trong đó (i 1 , , i t ) ∈ I c Từ (2.14)–(2.16) suy ra

, (2.17) với (i 1 , , i t ) ∈ I c Mặt khác, S ⊂ I d với d ≥ 1 Giả sử S =n i t−d+1 , , i t o

Khi đó, tồn tại l ∈ S sao cho |Cov(Z k , Z l )| ≥ p −γ Ta chia I d làm 2 phần

1 ≤ i 1 < < i t ≤ p : ∃k sao cho |Cov(Z k , Z l1 )| ≥ p −γ và |Cov(Z k , Z l2 )| ≥ p −γ o và

I d,2 = I d \I d,1 , trong đó k ∈ {i 1 , , i t−d } và với mọi l 1 , l 2 ∈ S với l 1 6= l 2 Ta thấy rằng, I 1,1 = ∅ và I 1,2 = I 1 Vì Card(I d,1 ) ≤ Cp d−1+2γt nên

= O(p −d ), trong đó (i 1 , , i t ) ∈ I d,1 Với γ đủ nhỏ, ta có

Giả sử |Cov(Z i 1 , Z i t−d+1 )| ≥ p −γ với mọi (i 1 , , i t ) ∈ I d,2 , ta có

|Z i 1 | ≥ √ x p , |Z i t−d+1 | ≥ √ x p , , |Z i t | ≥ √ x p Áp dụng tương tự (2.14)–(2.16), đặt U l là ma trận hiệp phương sai của (Z i 1 , Z i t−d+1 , , Z i t ) Khi đó,

2 = O(p −γ ), trong đó U l =diag(D, I d−1 ) là ma trận chéo; với I d−1 là ma trận đơn vị cấp (d − 1), D là ma trận hiệp phương sai của Z i 1 và Z i t−d+1

Từ bổ đề (2.3.2) và giả sử max

Với γ đủ nhỏ Khi đó

Kết hợp (2.18) và (2.19) suy ra

P i 1 , ,i t → 0, (2.20) với 1 ≤ d ≤ t − 1. Từ (2.13), (2.17) và (2.20) suy ra

Từ giả thiết (C.3), cho n → ∞ và k → ∞ suy ra

1≤i≤p max Z i 2 − 2 log p + log (log p) ≤ xo

(2.22) Chứng minh tương tự, ta được

Từ (2.22) và (2.23) suy ra bổ đề (2.3.3) được chứng minh.

Tiếp theo, ta sẽ xấp xỉ phân phối của các thống kê M Ω , M Ω 1/2 và M I trong định lý sau. Định lý 2.3.4 (xem [17], trang 355, định lý 1) Cho M Ω , M Ω 1/2 và M I được xác định lần lượt từ (2.1), (2.3) và (2.4).

(a) Giả sử các giả thiết (C.1) và (C.3) thỏa Khi đó, với mọi x ∈R,

(c) Giả sử các giả thiết (C.1) và (C.2) thỏa Khi đó, với mọi x ∈R,

Chứng minh Từ bổ đề (2.3.3) suy ra định lý (2.3.4) được chứng minh.

Từ định lý (2.3.4), các thống kê M Ω , M Ω 1/2 và M I có cùng phân phối xấp xỉ Gumbel khi giả thuyếtH 0 đúng Các thống kê này có mức ý nghĩaα xấp xỉ lần lượt là Φ α (Ω) = Ih

, Φ α (I) = I h M I ≥ 2 log p − log (log p) + q α i , trong đó q α = − log(π) − 2 log log(1 − α) −1 là điểm phân vị mức (1 − α) của phân phối Gumbel Phân phối này có hàm phân phối là

Khi đó, kiểm định giả thuyết tương ứng các thống kê M Ω , M Ω 1/2 và M I lần lượt là

• bác bỏ giả thuyết H 0 nếu M Ω − 2 log p + log (log p) ≥ q α ,

• bác bỏ giả thuyết H 0 nếu M Ω 1/2 − 2 log p + log (log p) ≥ q α ,

• bác bỏ giả thuyết H 0 nếu M I − 2 log p + log (log p) ≥ q α

Nhận xét Các kiểm định Φ α (Ω) và Φ α ( ˆ Ω) dùng để tối ưu các tỉ lệ cực tiểu cho các kiểm định với đối thuyết thưa Dưới các giả thiết (C.1)–(C.3), Φ α (Ω) mang lại hiệu quả như Φ α (Ω 1/2 ) và Φ α (I) Hơn nữa, khi xét lớp các đối thuyết tổng quát thì kiểm định Φ α (Ω) hiệu quả hơn Φ α (Ω 1/2 ) và Φ α (I) Tuy nhiên, ta lưu ý rằng mối liên hệ giữa ba kiểm định trên không rõ ràng trong trường hợp đối thuyết không thưa.

Một số kết quả mô phỏng

Ta bắt đầu mục này với việc mô phỏng phương pháp CLX trên dữ liệu thực tế Sau đó, ta mô phỏng phương pháp này 500 lần mô phỏng trên hai mẫu được tạo ra từ phần mềm R, phân tích hiệu quả của phương pháp trên.

Kiểm định thống kê CLX được ứng dụng trên dữ liệu từ trung tâm “TheCancer Genome Atlas” Ta có thể tìm được dữ liệu này từ gói dữ liệu “highD2pop” trên phần mềm R của các tác giả Gregory, Karl Bruce, et al (2015) Dữ liệu trên chứa bản sao một số độ đo cặp nhiễm sắc thể từ 400 vị trí đo trên nhánh dài của nhiễm sắc thể 1 cho 92 bệnh nhân nhóm X và 138 bệnh nhân Y Nhóm X là các bệnh nhân sống hơn hai năm kể từ khi họ được chuẩn đoán mắc bệnh ung thư não và nhóm Y là các bệnh nhân sống ít hơn hai năm từ khi họ được chuẩn đoán mắc bệnh ung thư não Mỗi cặp vị trí đo cho nhóm X và nhóm Y từ nhánh cuối của đoạn nhiễm sắc thể Dữ liệu này có khoảng 3% giá trị không xác định.

Bài toán đặt ra là so sánh số bản sao tại 400 vị trí đo trên nhánh nhiễm sắc thể dài giữa hai nhóm bệnh nhân X và Y? Giả sử X 1 , X 2 , , X n là các mẫu độc lập cựng phõn phốiN p (à 1 , Σ)và Y 1 , Y 2 , , Y m là cỏc mẫu độc lập cựng phõn phối N p (à 2 , Σ), trong đúà 1 và à 2 lần lượt là cỏc vectơ trung bỡnh kớch thước p ì 1của hai mẫu, các ma trận hiệp phương saiΣ 1 vàΣ 2 là như nhau; nghĩa làΣ 1 = Σ 2 = Σ có kích thước p × p, ma trậnΩ = Σ −1 chưa biết thưa, n = 92, m = 138 và p = 400. Ta kiểm định giả thuyết

Hơn nữa, ma trận Ω = Σ −1 chưa biết thưa Ta áp dụng phương pháp CLIME đã giới thiệu trong mục (2.2) ước lượng ma trậnΣ là Σ ˆ ∗ và ước lượng ma trận Ωlà Ω ˆ Khi đó, kiểm định thống kê M Ω và M Ω 1/2 lần lượt trở thành M Ω ˆ và M 1/2 ˆ

Ω Từ phương pháp CLX vừa trình bày trên, ta có 3 mô hình của phương pháp này như sau:

(a) Mô hình 1: Giá trị thống kê M Ω ˆ = n m n + m max

(b) Mô hình 2: Giá trị thống kê M Ω ˆ 1/2 = n m n + m max

(c) Mô hình 3: Giá trị thống kê M I = n m n + m max

1≤i≤p δ 2 i σ i,i , trong đóσ i,i là các phần tử đường chéo của ma trận Σ ˆ ∗ và δ = (δ 1 , , δ p ) 0 = X − Y.

Từ định lý (2.3.4), các giá trị thống kê M Ω ˆ , M Ω ˆ 1/2 và M I có cùng phân phối xấp xỉ Gumbel khi giả thuyếtH 0 đúng Các thống kê này có mức ý nghĩa α xấp xỉ lần lượt là Φ α ( ˆ Ω) = I h M Ω ˆ ≥ 2 log p − log (log p) + q α i , Φ α ( ˆ Ω 1/2 ) = I h M Ω ˆ 1/2 ≥ 2 log p − log (log p) + q α i , Φ α (I) = I h M I ≥ 2 log p − log (log p) + q α i , trong đó q α = − log(π) − 2 log log(1 − α) −1 là điểm phân vị mức (1 − α) của phân phối Gumbel Phân phối này có hàm phân phối là

Khi đó, kiểm định giả thuyết tương ứng các thống kê M Ω ˆ , M Ω ˆ 1/2 và M I lần lượt là

• bác bỏ giả thuyết H 0 nếu M Ω ˆ − 2 log p + log (log p) ≥ q α,

• bác bỏ giả thuyết H 0 nếu M Ω ˆ 1/2 − 2 log p + log (log p) ≥ q α ,

• bác bỏ giả thuyết H 0 nếu M I − 2 log p + log (log p) ≥ q α Với 3 mô hình vừa nêu trên, ta viết chương trình ứng dụng trên phần mềmR cho mỗi mô hình và các kết quả thể hiện ở các bảng (2.1), (2.2) và (2.3).

Hình 2.1: Biểu đồ phân tán của các cặp nhân tố. n = 92, m = 138, p = 400, Σ 1 = Σ 2 M Ω ˆ 14.439 p −value 0.0004

Bảng 2.1: Các kết quả kiểm định thống kê CLX dưới mô hình 1 về sự so sánh số bản sao tại 400 vị trí đo trên nhánh nhiễm sắc thể dài giữa hai nhóm bệnh nhân X và Y.

Dưới mô hình 1 và các kết quả bảng (2.1), ta bác bỏ giả thuyết H 0 tại mức ý nghĩa α = 0.05 Nói cách khác, số bản sao tại 400 vị trí đo trên nhánh nhiễm sắc thể dài giữa hai nhóm bệnh nhân X và Y có sự khác biệt. n = 92, m = 138, p = 400, Σ 1 = Σ 2 M Ω ˆ 1/2 1.1562 p −value 0.2713

Dưới mô hình 2 và các kết quả bảng (2.2), ta chấp nhận giả thuyết H 0 tại mức ý nghĩa α = 0.05 Nói cách khác, số bản sao tại 400 vị trí đo trên nhánh nhiễm sắc thể dài giữa hai nhóm bệnh nhân X và Y không có sự khác biệt. n = 92, m = 138, p = 400, Σ 1 = Σ 2

Dưới mô hình 3 và các kết quả bảng (2.3), ta chấp nhận giả thuyết H 0 tại mức ý nghĩa α = 0.05 Nói cách khác, số bản sao tại 400 vị trí đo trên nhánh nhiễm sắc thể dài giữa hai nhóm bệnh nhân X và Y không có sự khác biệt.

Tiếp theo, ta tạo ra hai mẫu ngẫu nhiên độc lập trên phần mềm R với các phõn phối chuẩn nhiều chiều lần lượt là N 400 (à 1 , σ 2 1 ) và N 400 (à 2 , σ 2 2 ), trong đú à 1 , à 2 lần lượt là kỳ vọng đó biết của hai mẫu trờn và σ 1 2 , σ 2 2 lần lượt là phương sai đã biết của hai mẫu trên Giả sử hai mẫu này có kích thước lần lượt là n × p = 40 × 400 và m × p = 60 × 400; và các ma trận hiệp phương sai là như nhau (Σ 1 = Σ 2 ). Áp dụng phương pháp CLX với mô hình 1 và mức ý nghĩa α = 0.05 Với 500 lần mô phỏng, ta kiểm tra xem phép kiểm định CLX phát hiện được bao nhiêu trường hợp à 1 = à 2 và à 1 6= à 2 n = 40, m = 60, p = 400, Σ 1 = Σ 2 , N (à 1 , σ 1 2 ), N (à 2 , σ 2 2 ) à 1 = à 2 = 2 p-value≥ 0.05 p-value< 0.05 σ 1 = σ 2 = 4 88% 12% σ 1 = 4, σ 2 = 6 90% 10%

Bảng 2.4: Tỉ lệ giá trị p-value với 500 lần mô phỏng và hai kỳ vọng bằng nhau. n = 40, m = 60, p = 400, Σ 1 = Σ 2 , N (à 1 , σ 1 2 ), N (à 2 , σ 2 2 ) à 1 = 2, à 2 = 6 p-value≥ 0.05 p-value< 0.05 σ 1 = σ 2 = 3 0% 100% σ 1 = 3, σ 2 = 7 0% 100%

Bảng 2.5: Tỉ lệ giá trị p-value với 500 lần mô phỏng và hai kỳ vọng khác nhau. n = 40, m = 60, p = 400, Σ 1 = Σ 2 , N (à 1 , σ 1 2 ), N (à 2 , σ 2 2 ) à 1 = 2, à 2 = 10 p-value≥ 0.05 p-value< 0.05 σ 1 = 9, σ 2 = 16 0% 100%

Bảng 2.6: Tỉ lệ giá trị p-value với 500 lần mô phỏng.

Với các kết quả được thể hiện ở các bảng (2.4), (2.5), (2.5) và (2.6), ta mô phỏng 500 lần phương phỏp CLX trong trường hợp à 1 6= à 2 thỡ xỏc suất phỏt hiện được rất cao sự khác biệt giữa các kỳ vọng của hai quần thể.

Giới thiệu

Các kết quả của chương này được tham khảo từ bài báo của các tác giảGregory, Karl Bruce, et al năm 2015 (xem [7]) Ta xem xét bộ dữ liệu có số chiều lớn với việc kết hợp kiểm định sự bằng nhau về trung bình các vectơ ngẫu nhiên có số chiều lớn của hai mẫu độc lập cùng phân phối Ta giới thiệu phép kiểm định thống kê GCT, xác định phân phối của giả thuyết thống kê dưới giả thuyết H 0 đúng, phân tích hiệu quả, một số kết quả mô phỏng của kiểm định,so sánh hai phương pháp kiểm định thống kê GCT và CLX cũng được thể hiện.

Phương pháp GCT

Giả sử X 1 , X 2 , , X n ∈ R p và Y 1 , Y 2 , , Y m ∈R p lần lượt là các mẫu độc lập cựng phõn phối cú cỏc kỳ vọng lần lượt là à 1 và à 2 với kớch thước p ì 1, Σ 1 và Σ 2 lần lượt là các ma trận hiệp phương sai có kích thước p × p của hai mẫu Ta kiểm định giả thuyết

, trong đó t 2 nj = X nj − Y mj 2 s 2 nj n + ϑ 2 mj m, j = 1, , p, (3.2) với X nj , Y mj và s 2 nj , ϑ 2 mj lần lượt là các trung bình mẫu và phương sai mẫu của vectơ nhân tố thứ j trong hai mẫu trên.

Hai đại lượng ˆ a n và ˆ b n xác định như sau: ˆ a n ≡ ˆ c n1 + + ˆ c np p và ˆ b n ≡ d ˆ n1 + + ˆ d np p , trong đó ˆ c nj và d ˆ nj lần lượt là các ước lượng c nj và d nj Hai đại lượngc nj và d nj được giới thiệu chi tiết trong bổ đề (3.3.1), cho tất cả các j = 1, , p.

Hơn nữa, từ nhận xét của định lý (3.3.2), ta có giá trị thống kê GCT

/ ζ ˆ n → N (0, 1) theo phân phối, khi n → ∞; trong đó ξ ˆ n = 1 + n −1 ˆ a n + n −2 ˆ b n là kỳ vọng, ζ ˆ n 2 /p là phương sai của thống kê T n và ζ ˆ n thỏa phương trình (3.5) sau đây Khi đó, ta bác bỏ giả thuyết H 0 tại mức ý nghĩa α khi và chỉ khi |G n | > Φ −1 (1 − α/2), với Φ(ã) là hàm phõn phối của phân phối chuẩn tắc.

Ta giới thiệu một số dạng của thống kê GCT như sau:

• Khi ξ ˆ n ≡ 1, ta có giá trị thống kê

• Khi ξ ˆ n ≡ 1 + n −1 ˆ a n + n −2 ˆ b n , ta có giá trị thống kê

Cả hai dạng của thống kê GCT có độ lệch chuẩn √ ζ ˆ n p là như nhau Đặt ˆ γ(k) = (p − k) −1 p−k

(3.4) là hàm tự hiệp phương sai mẫu của các thống kê t 2 Khi đó, ζ ˆ n được xác định như sau ζ ˆ n 2 ≡ X

|k| 1 và L kích cỡ “the lag window”.

Cú nhiều cỏch chọn hàm w(ã) Ở đõy, ta sử dụng “the Parzen window” w p (x) =

 1 − 6|x| 2 + 6|x| 3 , với |x| < 1/2 2(1 − |x| 3 ), với 1/2 ≤ x ≤ 1 0, với |x| > 1 được giới thiệu bởi Brockwell và Davis (2009) và “the trapezoid window” w T (k/r) =

1 − k−[L/2] r−[L/2] , với [L/2] ≤ k ≤ L 0, với |k| > L được giới thiệu bởi Politis và Romano(1995), trong đó[x] là phần nguyên của x.

Tiếp theo, ta xây dựng các giả thiết để xác định hàm phân phối của giả thuyết thống kê T n

Tính chất phương pháp GCT

Trước tiên, ta nhắc lại một số ký hiệu và định nghĩa Cho hai dãy số thực {a n } và {b n }, viết a n = O(b n ) nếu n đủ lớn và tồn tại hằng số C sao cho |a n | ≤ C|b n |, a n = o(b n ) nếu giới hạn lim n→∞ a n b n = 0 Giả sử (Ω, F , P ) là không gian xác suất và G 1 , G 2 là cácσ− đại số con của F Hệ sốα−mixing giữa G 1 và G 2 được xác định bởi α(G 1 , G 2 ) ≡ sup n

Hệ số α−mixing của {t 2 nj ; a ≤ j ≤ b} được xác định bởi α(r) = sup n α(F 1 k , F k+r p ) : 1 ≤ k ≤ p − r o , trong đó F a b ≡ F a,n b = σ t 2 nj : a ≤ j ≤ b Ta xây dựng các giả thiết sau để xác định hàm phân phối của giả thuyết thống kê T n , từ đó tìm ra phép kiểm định phù hợp.

C.1 Với mọi j = 1, , p; r ≥ 1 và δ ∈ (0, ∞) Ta có

C.2 Với mọi k > 0, giới hạn lim n→∞

C.3 max E|X 1j | 16 , E|Y 1j | 16 , j = 1, , p = O(1) và min V ar(X 1j ), V ar(Y 1j ) > c > 0.

Bổ đề 3.3.1 (xem [7], trang 21, bổ đề 1) Cho X 1j , , X nj và Y 1j , , Y mj là các các biến ngẫu nhiên độc lập cùng phân phối với E(X 1j ) = E(Y 1j ) và V ar(X 1j ) = σ 1j 2 , V ar(Y 1j ) = σ 2 2j , với tất cả j = 1, , p.

Giả sử max E|X 1j | 16 , E|Y 1j | 16 = O(1) và min σ 1j 2 , σ 2j 2 > c > 0, trong đó 1 ≤ j ≤ p. Đặt t 2 nj = n X nj − Y mj 2 s 2 nj + n m ϑ 2 mj −1

, trong đó s 2 nj , ϑ 2 mj thứ tự là các phương sai mẫu đã cho và m ∼ n khi n → ∞. Khi đó

= 1 + n −1 c nj + n −2 d nj + O(n −3 ), với c nj = τ nj −2 h σ 1j 2 + n m

; à 0 kj và η 0 kj lần lượt là moment trung tõm bậc k củaX 1j và Y 1j

Chứng minh Không mất tính tổng quát, giả sử E(X 1j ) = E(Y 1j ) = 0. Đặt t n ≡ t nj , s n ≡ s nj , ϑ n ≡ ϑ mj , σ 1 ≡ σ 1j , σ 2 ≡ σ 2j , X n ≡ X nj , Y m ≡ Y mj , τ n ≡ τ nj và

Áp dụng khai triển Maclaurin cho hàm 1

(3.6) Đặt ∆ ≡ ∆ n , X ≡ X n và Y ≡ Y m Sử dụng định lý (1.2) để tính E(X n − Y m ) 2 ∆ k−1 n ở trong xấp xỉ O(n −4 ) với k = 1, , 5 thì các cumulant đồng thời được cho ở bảng sau.

Gọi k(i, j) là các giá trị tương ứng dòng thứ i và cột thứ j của bảng trên Từ định lý (1.2), ta có chú ý sau.

+ χ 1 (X 1 )χ 1 (X 2 )χ 1 (X 3 )χ 1 (X 4 ). Áp dụng chú ý trên và định lý (1.2) , ta tính được các giá trị

E(X n − Y m ) 2 ∆ k−1 n ở trong xấp xỉ O(n −4 ) với k = 1, , 5 như sau:

Từ định lý (1.1), ta suy ra χ 1 (X) = E(X), (3.12) χ 2 (X, X ) = E(X 2 ) − [E(X)] 2 = V ar(X), (3.13) χ 3 (X, X, X ) = E(X 3 ) − 3E(X)E(X 2 ) + 2[E(X)] 3 , (3.14) χ 2 (X 1 , X 2 ) = E(X 1 X 2 ) − E(X 1 )E(X 2 ), (3.15) χ 3 (X 1 , X 2 , X 3 ) = E(X 1 X 2 X 3 ) −

Từ (3.12)–(3.17) và định lý (1.1), ta tính được các k(i, j) trong (3.7)–(3.11) như sau. k(0, 1) = χ 1 X − Y

Thay các cumulants k(i, j) vừa tính từ các phương trình (3.18)–(3.29) vào (3.7)–(3.11), ta được

2 n ) gồm các đại lượng nτ n −2k E(X n − Y m ) 2 ∆ k−1 m , với k = 1, , 5. Khi đó, từ (3.30)–(3.34), ta được nτ n −2 E(X − Y 2

Ta thay các giá trị vừa tính từ phương trình (3.35)–(3.39) vào (3.6) và tìm được các giá trị E t 2 nj

E (t 2 nj ) = 1 + n −1 c nj + n −2 d nj + O p (n −3 ), trong đó c nj = τ nj −2 h σ 1j 2 + n m 2 σ 2 2j i + 2τ nj −6 h à 0 3j + n m 2 η 3j 0 i 2

Tiếp theo, ta sẽ xấp xỉ phân phối của thống kê G n trong định lý sau. Định lý 3.3.2 (xem [7], trang 5, định lý 1) Giả sử p ≡ p n = o(n 6 ), các giả thiết (C.1)–(C.3) thỏa và cho r = 1 trong giả thiết (C.1) Khi đó, sup x∈R

X k=1 γ(k), a n = c n1 + + c np p và b n = d n1 + + d np p , với c nj , d nj (j = 1, , p) đã được giới thiệu trong bổ đề (3.3.1) và γ(k) thỏa giả thiết (C.2).

Chứng minh Với mọi M ≥ 1 Áp dụng hệ quả (1.7.2), sử dụng moment và các giả thiết α-mixing, ta có

Theo phương pháp “khối-lớn–khối-nhỏ“ mục (1.7) và định lý Linderberg (1.6.2), ta có

Nhận xét Từ định lý (3.3.2), suy ra G n ≡ √ p T n − ξ ˆ n ζ ˆ n → N(0, 1) theo phân phối,khi n → ∞.

Hiệu quả của phương pháp GCT

Thực tế, t nj hội tụ về phân phối Z trong đó Z ∼ N (0, 1) khi n → ∞ cho tất cả j = 1, , p và E(Z 2 ) = 1 nênE(T n ) = 1 + O(n −1 ) khi n → ∞.

= √ pO(n −1 ) Giá trị kỳ vọng của kiểm định cách 0 một khoảng là √ pO(n −1 ) nên ta hạn chế giá trị p sao cho p = o(n 2 ).

Tương tự, khi chọn ξ ˆ n ≡ 1 + n −1 a n + n −2 b n thì Eh √ p T n − ξ ˆ n i

= √ pO(n −3 ) và p = o(n 6 ). Để thống kê GCT đạt hiệu quả cao thì giá trị kì vọng của

T n = p −1 (t 2 n1 + ã ã ã + t 2 np ) phải được tớnh dựa trờn đối thuyết H 1 : à 1j − à 2j = δ j khiδ j 6= 0 cho ớt nhất một chỉ số j với j = 1, , p. Đặt E T n

= ζ 2 Khi đó, hàm khả năng của kiểm định GCT được tính như sau:

Từ nhận xét của định lý (3.3.2), ta được p 1/2 T n − ξ n (1) ζ ˆ n → N (0, 1) theo phân phối, khi n → ∞.

Suy ra hàm khả năng của kiểm định GCT được xấp xỉ bởi

(3.44) Áp dụng tương tự bổ đề (3.3.1), ta có ξ (1) n = E h p −1 p

, các giá trị gần đúng đến O(n −3 ) Sau đó, ta thay s 2 nj , ϑ 2 mj bởi σ 2 1j , σ 2 2j và ta có ξ n (1) ≈ 1 + n (à 1j − à 2j ) 2 σ 1j 2 + m n σ 2j 2

Nếu ta thay p 1/2 ξ n (1) − ξ ˆ n ζ bởi np

X j=1 δ 2 j σ 2 1j + n m σ 2j 2 thì hàm khả năng được viết lại như sau

Từ (3.45) và p = o(n 2 ) ta viết lại p→∞ lim Power=

Để ta hiểu sâu sắc hơn về hiệu quả phương pháp GCT thì phương pháp này được ứng dụng mô phỏng trên dữ liệu thực tế và sẽ trình bày trong mục tiếp theo.

Một số kết quả mô phỏng

Ta bắt đầu mục này với việc mô phỏng phương pháp GCT trên dữ liệu thực tế Sau đó, ta sẽ mô phỏng phương pháp này 500 lần,5000 lần với hai mẫu được tạo ra từ phần mềm R, phân tích hiệu quả của phương pháp trên và so sánh phương pháp này đối với phương pháp CLX. Để mô phỏng các kết quả đã được trình bày trong chương này, ta tiếp tục sử dụng dữ liệu đã được giới thiệu ở chương II, mục (2.4) Bài toán đặt ra là so sánh số bản sao tại 400 vị trí đo trên nhánh nhiễm sắc thể dài giữa hai nhóm bệnh nhân X và Y? Giả sử X 1 , X 2 , , X n ∈ R p và Y 1 , Y 2 , , Y m ∈ R p lần lượt là cỏc mẫu độc lập cựng phõn phối, trong đú à 1 , à 2 lần lượt là cỏc vectơ trung bình kích thước p × 1 của hai mẫu và các ma trận hiệp phương sai Σ 1 , Σ 2 của hai mẫu là như nhau; nghĩa là Σ 1 = Σ 2 Ta kiểm định giả thuyết

H 0 : à 1 = à 2 ; đối thuyết H 1 : à 1 6= à 2 , trong đó n = 92, m = 138 và p = 400. Ta nhắc lại kiểm định thống kê GCT Ta có T n = p −1 t 2 n1 + t 2 n2 + + t 2 np

, trong đó t 2 nj = (X nj − Y mj ) 2 s 2 nj n + ϑ 2 mj m , j = 1, , p, (3.46) với X nj , Y mj và s 2 nj , ϑ 2 mj lần lượt là các trung bình mẫu và phương sai mẫu của vectơ nhân tố thứ j trong hai mẫu trên.

Từ nhận xét của định lý (3.3.2), ta có giá trị thống kê GCT

T n − ξ ˆ n ˆ ζ n → N (0, 1)theo phân phối, khi n → ∞, trong đó ξ ˆ n = 1 + n −1 ˆ a n + n −2 ˆ b n là kỳ vọng của thống kê T n sao cho ˆ a n ≡ ˆ c n1 + + ˆ c np p , ˆ b n ≡ d ˆ n1 + + ˆ d np p , với ˆ c nj và d ˆ nj lần lượt là các ước lượng c nj và d nj được mô tả trong bổ đề (3.3.1),cho tất cả các j = 1, , p c nj = τ nj −2 h σ 1j 2 + n m

X j=1 t 2 nj − T n t 2 n(j+k) − T n là hàm tự hiệp phương sai mẫu của cỏc thống kờt 2 , hàm w(ã)ta cú thể chọn hàm

“Paren window” hay “trapezoid window” và giá trị L có thể chọn các kích thước L = {10, 15, 20} Khi đó, ta bác bỏ giả thuyếtH 0 tại mức ý nghĩa α = 0.05 khi và chỉ khi |G n | > Φ −1 (1 − α/2)với Φ(ã) là hàm phõn phối của phõn phối chuẩn tắc.

Từ phương pháp GCT vừa nêu trên, ta xây dựng 2 mô hình của phương pháp này, mỗi mô hình được viết chương trình ứng dụng trên phần mềm R và các kết quả được thể hiện ở các bảng (3.1) và (3.2).

(a) Mô hình 1: ξ ˆ n ≡ 1 + n −1 ˆ a n + n −2 ˆ b n Giá trị thống kê GCT trở thành

(b) Mô hình 2: ξ ˆ n ≡ 1 Giá trị thống kê GCT trở thành G (M) n ≡ p 1/2 T n − 1

Hình 3.1: Biểu đồ phân tán của các cặp nhân tố.

Hình 3.2: Một phần bảng số liệu của nhóm bệnh nhân X.

Hình 3.3: Một phần bảng số liệu của nhóm bệnh nhân Y. ξ ˆ n ≡ 1 + n −1 a ˆ n + n −2 ˆ b n , Σ 1 = Σ 2 , N (0, 1) p = 400 Parzen window Trapezoid window n = 92, m = 138 L = 10 L = 15 L = 20 L = 10 L = 15 L = 20

Bảng 3.1: Các kết quả kiểm định thống kê GCT dưới mô hình 1 về sự so sánh số bản sao tại 400 vị trí đo trên nhánh nhiễm sắc thể dài giữa hai nhóm bệnh nhân X và Y.

Dưới mô hình 1 và các kết quả bảng (3.1), ta thấy rằng khi chọn “Parzen window” hay “trapezoid window” với các lựa chọn L ∈ {10, 15, 20} thì các giá trị p-value gần bằng 0 Do đó, ta bác bỏ giả thuyết H 0 tại mức ý nghĩa α = 0.05 Nói cách khác, số bản sao tại 400 vị trí đo trên nhánh nhiễm sắc thể dài giữa hai nhóm bệnh nhân X và Y có sự khác biệt. ξ ˆ n ≡ 1, Σ 1 = Σ 2 , N (0, 1) p = 400 Parzen window Trapezoid window n = 92, m = 138 L = 10 L = 15 L = 20 L = 10 L = 15 L = 20

Bảng 3.2: Các kết quả kiểm định thống kê GCT dưới mô hình 2 về sự so sánh số bản sao tại 400 vị trí đo trên nhánh nhiễm sắc thể dài giữa hai nhóm bệnh nhân X và Y.

Dưới mô hình 2 và các kết quả bảng (3.2), ta thấy rằng khi chọn “Parzen window” hay “trapezoid window” với các lựa chọn L ∈ {10, 15, 20} thì các giá trị p-value gần bằng 0 Do đó, ta bác bỏ giả thuyết H 0 tại mức ý nghĩa α = 0.05 Nói cách khác, số bản sao tại 400 vị trí đo trên nhánh nhiễm sắc thể dài giữa hai nhóm bệnh nhân X và Y có sự khác biệt có sự khác biệt.

Tiếp theo, ta tạo ra hai mẫu ngẫu nhiên độc lập trên phần mềm R với các phõn phối chuẩn nhiều chiều lần lượt là N 400 (à 1 , σ 2 1 ) và N 400 (à 2 , σ 2 2 ), trong đú à 1 , à 2 lần lượt là kỳ vọng đó biết của hai mẫu trờn và σ 1 2 , σ 2 2 lần lượt là phương sai đã biết của hai mẫu trên Giả sử hai mẫu này có kích thước lần lượt là n × p = 40 × 400 và m × p = 60 × 400; và các ma trận hiệp phương sai là như nhau

(Σ 1 = Σ 2) Áp dụng phương phỏp GCT với mụ hỡnh 2, hàm w(ã) ta cú thể chọn hàm “Parzen window” hay “trapezoid window”, giá trị L = 15 và mức ý nghĩa α = 0.05 Với 500 lần và 5000 lần mô phỏng, ta kiểm tra xem kiểm định GCT phỏt hiện được bao nhiờu trường hợp à 1 = à 2 và à 1 6= à 2. ξ ˆ n ≡ 1 + n −1 a ˆ n + n −2 ˆ b n , Σ 1 = Σ 2 , N (à 1 , σ 1 2 ), N (à 2 , σ 2 2 )

Bảng 3.3: Tỉ lệ giá trị p-value với 500 lần mô phỏng và hai kỳ vọng bằng nhau. ξ ˆ n ≡ 1 + n −1 a ˆ n + n −2 ˆ b n , Σ 1 = Σ 2 , N (à 1 , σ 1 2 ), N (à 2 , σ 2 2 )

Bảng 3.4: Tỉ lệ giá trị p-value với 500 lần mô phỏng và hai kỳ vọng khác nhau. ξ ˆ n ≡ 1 + n −1 a ˆ n + n −2 ˆ b n , Σ 1 = Σ 2 , N (à 1 , σ 1 2 ), N (à 2 , σ 2 2 )

Bảng 3.5: Tỉ lệ giá trị p-value với 5000 lần mô phỏng và hai kỳ vọng bằng nhau. ξ ˆ n ≡ 1 + n −1 a ˆ n + n −2 ˆ b n , Σ 1 = Σ 2 , N (à 1 , σ 1 2 ), N (à 2 , σ 2 2 )

Bảng 3.6: Tỉ lệ giá trị p-value với 5000 lần mô phỏng và hai kỳ vọng khác nhau. ξ ˆ n ≡ 1 + n −1 a ˆ n + n −2 ˆ b n , Σ 1 = Σ 2 , N (à 1 , σ 1 2 ), N (à 2 , σ 2 2 )

Bảng 3.7: Tỉ lệ giá trị p-value với 5000 lần mô phỏng.

Ta so sánh hai phương pháp GCT và CLX

• Cả hai phương pháp GCT và CLX đều phát hiện được sự khác biệt giữa các kỳ vọng của hai quần thể với xác suất rất cao.

• Thời gian tính toán của phương pháp GCT khoảng 15phút với 500 lần mô phỏng Ngược lại, thời gian tính toán của phương pháp CLX khoảng 8 giờ.

• Nhìn chung, phương pháp GCT tốt hơn phương pháp CLX vì số lần tính toán nhanh hơn, phương pháp GCT không yêu cầu các mẫu có phân phối chuẩn nhiều chiều và không cần ước lượng ma trận hiệp phương sai cấp p Tuy nhiên, trong một số trường hợp phương pháp GCT không tốt như pháp pháp CLX.

Tiêu đề	So sánh trung bình hai mẫu với số chiều lớn
Tác giả	Trần Văn Trí
Người hướng dẫn	TS. Nguyễn Tiến Dũng
Trường học	Đại học Quốc gia TP. Hồ Chí Minh
Chuyên ngành	Toán Ứng Dụng
Thể loại	Luận Văn Thạc Sĩ
Năm xuất bản	2016
Thành phố	TP. Hồ Chí Minh

Định dạng
Số trang	80
Dung lượng	763,88 KB

Tài liệu tham khảo	Loại	Chi tiết
[1] Alvin C. Rencher,Methods of Multivariate Analysis, 2002	Khác
[2] Bai, Zhidong, and Hewa Saranadasa, Effect of high dimension: By an ex- ample of a two sample problem. Statistica Sinica 6, 311–329, 1996	Khác
[3] Boaz Porat, Digital processing of random signals theory and methods, New York, 2008	Khác
[4] Chen, Song Xi, and Ying-Li Qin, A two-sample test for high-dimensional data with applications to gene-set testing. The Annals of Statistics 38, 808–835, 2010	Khác
[5] Christian Walck, Hand book on statistical distributions for experimental- ists,University of Stockholm	Khác
[6] Jason J. Molitierno, Applications of Combinatorial Matrix Theory to Lapla- cian Matrices of Graphs, CRC Press, 2012	Khác
[7] Gregory, Karl Bruce, et al., A two-sample test for equality of means in high dimension. J. R. Statist. Soc., 2015	Khác
[8] Krishna B. Athreya Soumendra N. Lahiri, Measure Theory and Probability Theory, New York: Springer, 2006	Khác
[9] Leonov, V. P., and Shiryaev, A. N., On a Method of Calculation of Semi- Invariants, Theory of Probability and Its Applications, 4, 319–329, 1959	Khác
[10] Parimal Mukhopadhyay, Multivariate Statistical Analysis, India Statistical Institute, 2008	Khác
[11] Peter J. Brockwell Richard A. Davis, Introduction to Time Series and Fore- casting, Second Edition, Springer Texts in Statistics, 2002	Khác
[12] Sheldon M. Ross, Introduction to probality and statistics for engineers and scientists, fourth edition, 2009	Khác
[14] Srivastava, M. , Multivariate theory for analyzing high dimensional data. J.Japan Statist. Soc. 37, 53–86, 2007	Khác
[15] Srivastava, Muni S., and Tatsuya Kubokawa, Tests for multivariate analysis of variance in high dimension under non-normality. Journal of Multivariate Analysis 115, 204–216, 2013	Khác
[16] Timm, Neil H., Applied Multivariate Analysis, Springer Texts in Statistics, 2002	Khác
[17] Tony Cai, Weidong Liu, and Yin Xia, Two-sample test of high dimensional means under dependence. J. R. Statist. Soc. B 76, 349–372, 2014	Khác
[18] Tony Cai, Weidong Liu, and Xi Luo. , A constrained l1 minimization ap- proach to sparse precision matrix estimation , J. Am. Statist. Ass. , 106, 594–607, 2011	Khác
[19] Tony Cai, Weidong Liu, and Yin Xia., Two-sample covariance matrix testing and support recovery in high-dimensional and sparse settings, Journal of the American Statistical Association 108.501 : 265-277, 2013	Khác
[20] Wu, Yujun, Marc G. Genton, and Leonard A. Stefanski, A Multivariate Two-Sample Mean Test for Small Sample Size and Missing Data, Biometrics 62.3: 877-885, 2006	Khác