1. Trang chủ
  2. » Luận Văn - Báo Cáo

Thống kê robust và ứng dụng

52 420 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Nội dung

Lời cảm ơn 1 Lời cảm ơn Bản luận văn này được hoàn thành dưới sự hướng dẫn và chỉ bảo nhiệt tình của TS. Trần Mạnh Cường. Trong quá trình làm việc, em đã học hỏi ở Thầy một tinh thần làm việc đầy tâm huyết và yêu khoa học. Chính vì thế, qua đây em xin bày tỏ lòng biết ơn chân thành tới Thầy. Em muốn bày tỏ sự cảm ơn chân thành đến tất cả các thầy cô trong khoa Toán - Cơ - Tin học, trường Đại học khoa học tự nhiên, Đại học Quốc gia Hà Nội đã chỉ bảo tận tình trong suốt thời gian em học tập tại trường. Nhân dịp này, em cũng xin gửi lời cảm ơn đến gia đình, bạn bè đã cổ vũ, động viên, giúp đỡ và tạo điều kiện tốt nhất cho em trong suốt quá trình học tập và thực hiện luận văn này. Do thời gian có hạn và trình độ còn hạn chế nên luận văn của em không thể tránh khỏi những thiếu sót. Em rất mong nhận được sự đóng góp ý kiến của các thầy cô và các bạn để luận văn của em được hoàn thiện hơn. Em xin chân thành cảm ơn. Hà Nội, ngày 28 tháng 10 năm 2014 Học viên Nguyễn Thị Huyền Danh mục các kí hiệu 2 Danh mục các kí hiệu N : Tập số tự nhiên Z : Tập số nguyên Q : Tập số hữu tỷ R : Tập số thực E : Kỳ vọng p − lim : Hội tụ theo xác suất. C[a, b] : Liên tục trên [a, b] X n P −→ X : X n Hội tụ theo xác suất tới X X n d −→ X : X n Hội tụ theo phân bố tới X  kết thúc chứng minh. Mục lục Lời cảm ơn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 Danh mục các kí hiệu . . . . . . . . . . . . . . . . . . . . . . . . . 2 Lời nói đầu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 1 Ước lượng M 8 1.1 Định nghĩa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 1.2 Tính chất tiệm cận của ước lượng M . . . . . . . . . . . . . . . 10 1.3 Ước lượng M cho tham số vị trí . . . . . . . . . . . . . . . . . . 15 1.3.1 Định nghĩa và ví dụ . . . . . . . . . . . . . . . . . . . . . 15 1.3.2 Phân bố của ước lượng M cho tham số vị trí . . . . . . . 18 1.3.3 Một cách nhìn trực quan của ước lượng M cho tham số vị trí . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 1.4 Ước lượng M cho tham số tỷ lệ . . . . . . . . . . . . . . . . . . 22 1.5 Tính Robust định lượng và định tính của ước lượng M . . . . . 25 2 Ước lượng M cho mô hình hồi quy tuyến tính 31 2.1 Giới thiệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 2.2 Phương pháp bình phương cực tiểu cho mô hình hồi quy . . . . 34 2.3 Các phương pháp tìm ra các ngoại lệ . . . . . . . . . . . . . . . 36 2.4 Ước lượng M cho mô hình hồi quy . . . . . . . . . . . . . . . . . 38 2.5 Các tính chất tiệm cận . . . . . . . . . . . . . . . . . . . . . . . 40 3 Ứng dụng 42 3.1 Dữ liệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42 3 Mục lục 4 3.2 Giới thiệu phần mềm R . . . . . . . . . . . . . . . . . . . . . . 42 3.3 Các kết quả và phân tích . . . . . . . . . . . . . . . . . . . . . . 46 Kết luận . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51 Tài liệu tham khảo . . . . . . . . . . . . . . . . . . . . . . . . . . . 52 Lời nói đầu 5 Lời nói đầu Thống kê toán học là một phương pháp khoa học phân tích và xử lý dữ liệu có được nhờ các thí nghiệm, các cuộc điều tra nghiên cứu các hiện tượng tự nhiên, các vấn đề kỹ thuật cũng như các vấn đề xã hội. Tất cả các phương pháp thống kê đều dựa trên một số giả thiết và giả thiết được sử dụng nhiều nhất trong thống kê cổ điển là giả sử rằng các dữ liệu quan sát được biểu diễn bởi một phân bố chuẩn. Tuy nhiên, các dữ liệu thu được trong thực tế thường gồm một hoặc một số các quan sát có sự khác biệt khá lớn với phần lớn các quan sát của tập dữ liệu được gọi là các giá trị ngoại lệ (outliers). Khi đó phân bố biểu diễn của các quan sát này chỉ xấp xỉ chuẩn. Chúng ta xét ví dụ sau : Cho 24 số liệu về hàm lượng đồng có trong bột mỳ (đơn vị phần triệu), được sắp xếp theo thứ tự tăng dần trong bảng sau : 2.20 2.20 2.40 2.40 2.50 2.70 2.80 2.90 3.03 3.03 3.10 3.37 3.40 3.40 3.40 3.50 3.60 3.70 3.70 3.70 3.70 3.77 5.28 28.95 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● −2 −1 0 1 2 5 10 15 20 25 30 Normal Q−Q Plot Theoretical Quantiles Sample Quantiles Lời nói đầu 6 Từ hình vẽ ta có thể nhận thấy rằng phần lớn các dữ liệu có thể được mô tả bởi một phân bố chuẩn, nhưng không phải là tất cả. Giá trị 28.95 chênh lệch khá lớn với các giá trị còn lại và nó được xem như một giá trị ngoại lệ. Trong trường hợp này, chúng ta có thể đoán rằng 2.895 là giá trị đúng. Qua tính toán ta được ¯x = 4.28 và s = 5.3, giá trị của ¯x lớn hơn hầu hết tất cả các số liệu trừ hai giá trị 5.28 và 28.95, do đó nó không thể là một ước lượng tốt cho giá trị trung tâm của tập dữ liệu(giá trị ở giữa của tập dữ liệu). Nếu chúng ta xóa số liệu 28.95, bây giờ kích thước mẫu n = 23, ta có ¯x = 3.21, s = 0.69. Lúc này, trung bình mẫu cung cấp một ước lượng tốt cho giá trị trung tâm của dữ liệu và giá trị SD nhỏ hơn 7 lần so với khi xét cả giá trị ngoại lệ 28.95. Giá trị ngoại lệ cũng có những ảnh hưởng bất lợi nghiêm trọng đến các khoảng tin cậy. Sử dụng các số liệu trong ví dụ trên ta có khoảng tin cậy dựa trên phân bố Student với độ tin cậy 0.95 là (2.05; 6.51), nếu xóa bỏ giá trị ngoại lệ thì khoảng tin cậy là (2.91; 3.51). Qua ví dụ trên có thể thấy rằng các ước lượng cổ điển như trung bình mẫu, phương sai mẫu, có thể bị ảnh hưởng nhiều bởi các giá trị ngoại lệ. Khi đó chúng không phải là các ước lượng tốt nhất chúng ta cần. Để khắc phục vấn đề này, các nhà nghiên cứu thống kê đã tìm ra các ước lượng tham số Robust sẽ cung cấp ước lượng phù hợp với phần lớn các dữ liệu khi tập dữ liệu chứa các giá trị ngoại lệ cũng như khi dữ liệu không chứa các giá trị này. Tuy nhiên, chúng ta có cần thiết phải sử dụng thống kê Robust trong tất cả các trường hợp không hay chỉ cần thực hiện bài toán qua hai bước sau : (1) : Loại bỏ các giá trị ngoại lệ khỏi tập dữ liệu bằng cách sử dụng các quy tắc xóa bỏ các ngoại lệ. (2) : Sử dụng các phương pháp thống kê cổ điển Câu trả lời là không vì những lý do sau đây : • Thứ nhất, chúng ta rất khó để có thể tách biệt hai bước trên một cách rõ ràng, ví dụ trong các bài toán hồi quy nhiều tham số rất khó để có thể Mục lục 7 nhận ra các giá trị ngoại lệ trừ khi chúng ta chắc chắn đó là các giá trị ngoại lệ. • Thứ hai, thực nghiệm đã chỉ ra rằng những phương pháp loại bỏ tốt nhất không hoàn toàn đạt được các ước lượng tốt khi sử dụng thống kê Robust. • Thứ ba, các nghiên cứu thực nghiệm cũng chỉ ra rằng rất nhiều các quy tắc xóa bỏ cổ điển không thể đối với với các giá trị ngoại lệ bội : tình huống có thể xảy ra là giá trị ngoại lệ thứ hai ẩn đi giá trị ngoại lệ thứ nhất, do đó việc xóa bỏ không thể thực hiện. Vì những lý do này nên trong luận văn, em trình bày về các ước lượng Robust qua ba chương sau : • Chương 1 : Trình bày các khái niệm, tính chất nền tảng trong ước lượng Robust và hồi quy tuyến tính như : Định nghĩa và các tính chất của ước lượng M, ước lượng M cho tham số vị trí và tham số tỷ lệ. • Chương 2 : Trình bày ước lượng M cho các hệ số trong mô hình hồi quy : Giới thiệu phương pháp bình phương cực tiểu cho mô hình hồi quy, định nghĩa và các tính chất của ước lượng M cho các hệ số của mô hình hồi quy. • Chương 3 : Trình bày một ứng dụng của ước lượng M cho một mô hình hồi quy với bộ dữ liệu cụ thể sử dụng phần mềm R. Chương 1 Ước lượng M 1.1 Định nghĩa Cho X là đại lượng ngẫu nhiên có phân phối chuẩn N(µ, σ 2 o ) trong đó µ là tham số chưa biết, σ 2 o đã biết. Ta có mẫu X 1 , X 2 , . . . , X n về X. Khi đó hàm mật độ đồng thời của X 1 , X 2 , . . . , X n là f(x 1 , x 2 , . . . , x n , µ) = n  i=1 f(x i ; µ), Hàm hợp lý L(µ) = 1 σ n o (2π) n/2 exp  − 1 2σ 2 o n  i=1 (x i − µ) 2  . Ước lượng hợp lý cực đại cho µ là giá trị µ cực đại L(µ) hay µ cực tiểu  n i=1 (x i − µ) 2 . Nếu ta đặt ρ(x, µ) = (x − µ) 2 thì µ cực tiểu  n i=1 ρ(x i , µ). Tổng quát hơn ta có định nghĩa sau về ước lượng M : Định nghĩa 1.1.1. Giả sử x 1 , x 2 , . . . , x n là các quan sát độc lập và có cùng phân phối với hàm mật độ f(x, θ). Một ước lượng M của θ là : T n = arg min θ n  i=1 ρ(x i ; θ), (1.1) hoặc bởi phương trình ẩn n  i=1 ψ(x i ; T n ) = 0, (1.2) với ρ là hàm bất kỳ, ψ(x; θ) = (∂/∂θ)ρ(x; θ). 8 1.1. Định nghĩa 9 Nếu chúng ta chọn ρ(x; θ) = −log f(x; θ) thì ước lượng thu được chính là ước lượng hợp lý cực đại quen thuộc. Ví dụ 1.1.1. Ước lượng hợp cực đại của θ với giả thiết họ hàm mật độ xác suất f(x, θ) là nghiệm của  ψ(x; θ)F n (dx) = 0, với ψ(x; θ) = ∂ ∂θ log f(x; θ). Ví dụ 1.1.2. Ước lượng hợp lý cực đại cho ν của phân bố Student với hàm mật độ f ν (x) = c ν  1 + x 2 ν  −(ν+1)/2 , trong đó c ν = Γ((v + 1)/2) √ vπΓ(v/2) . là ước lượng M với ψ(x) = x x 2 + ν . Như vậy trong thống kê, các ước lượng và thống kê kiểm định đều phụ thuộc vào mẫu (x 1 , . . . , x n ) thông qua hàm phân phối mẫu F n (x) = 1 n  I ( x i < x), Nghĩa là, với ước lượng T n = T n (x 1 , x 2 , . . . , x n ) ta có thể viết : T n (x 1 , . . . , x n ) = T (F n ) với hàm T nào đó được định nghĩa trên không gian độ đo thực. Cho x i là các quan sát độc lập có cùng hàm phân bố F , nếu một hàm T thỏa mãn giới hạn theo xác suất T (F) = lim n→∞ T (F n ). được gọi là vững theo nghĩa Fisher tại F . 1.2. Tính chất tiệm cận của ước lượng M 10 Nhận xét 1.1.1. Trong trường hợp tổng quát chúng ta không thể định nghĩa T (F) là một giá trị của t làm nhỏ nhất  ρ(x; t)F (dx). (1.3) Ví dụ, ρ(x; t) = |x − t|, nhưng  |x − t|F (dx) ≡ ∞ (1.4) đồng nhất theo t trừ khi F có một mô men tuyệt đối hữu hạn. Có một biện pháp khắc phục đơn giản : thay thế ρ(x; t) bằng ρ(x; t) − ρ(x; t o ) với giá trị không đổi t o , nghĩa là trong trường hợp của median, làm nhỏ nhất  (|x − t| − |x|)F (dx) thay cho (1.4) Từ phương trình (1.2), chúng ta định nghĩa T (F) bởi :  ψ(x; T(F ))F (dx) = 0. (1.5) 1.2 Tính chất tiệm cận của ước lượng M Giả sử ψ(x; θ) đo được đối với x và là hàm giảm theo θ, . Đặt T ∗ n = sup{t| n  1 ψ(x i ; t) > 0}, (1.6) T ∗∗ n = inf{t| n  1 ψ(x i ; t) < 0}. (1.7) Rõ ràng, −∞ < T ∗ n ≤ T ∗∗ n < ∞ và giá trị T n bất kỳ thỏa mãn T ∗ n ≤ T n ≤ T ∗∗ n có thể là ước lượng cần tìm. Chú ý rằng : {T ∗ n < t} ⊂ {  ψ(x i ; t) ≤ 0} ⊂ {T ∗ n ≤ t}, {T ∗∗ n < t} ⊂ {  ψ(x i ; t) < 0} ⊂ {T ∗∗ n ≤ t}. (1.8) [...]... xi(p−1) )T và β1 ∈ Rp−1 và     1 βo xi =   , β =   xi β1 ở đây βo được gọi là hệ số tự do, β1 được gọi là hệ số dốc Gọi Xn×p là ma trận có các phần tử xij và cho y và u là các véc tơ có các thành phần tương ứng là yi và ui (i = 1, 2, , n) Khi đó mô hình tuyến tính (2.3) có thể viết : y = Xβ + u (2.5) Giá trị thích hợp yi và phần dư ri tương ứng với véc tơ β được định nghĩa tương ứng yi (β)... liên tục yếu tại Fo khi và chỉ khi ψ bị chặn và T (Fo ) là duy nhất Điểm breakdown ε∗ được cho bởi (1.46), (1.47) và đạt được giá trị lớn nhất ε∗ = 1 2 khi ψ(−∞) = ψ(+∞) 1.5 Tính Robust định lượng và định tính của ước lượng M 30 Ví dụ 1.5.1 Median, tương ứng ψ(x) = sign(x), là một phiếm hàm liên tục tại Fo mà median của nó xác định duy nhất Ví dụ 1.5.2 Nếu ψ là hàm bị chặn và chặt đơn điệu thì ước... (1.35) và khi đó (1.33) tương đương với 1 σ = nσ n 2 W i=1 xi 2 xi σ (1.36) Từ đó σ có thể được xem như một ước lượng trọng số RMS Đối với ước lượng hợp lý cực đại cho tham số tỷ lệ của phân bố Student, W (x) = 1 , v + x2 (1.37) 1.5 Tính Robust định lượng và định tính của ước lượng M 25 và đối với hàm ρ(x) cho bởi (1.34) thì W (x) = min{3 − 3x2 + x4 , 1/x2 } 1.5 (1.38) Tính Robust định lượng và định... vậy ∞ λ(t; F ) ≤ λ(t; F1 ) = ψ(x − t + ε)Fo (dx) + εψ(∞) xo và b+ (ε) = inf{t| λ(t; F1 )} (1.46) 1.5 Tính Robust định lượng và định tính của ước lượng M 29 b− (ε) được tính tương tự Trường hợp đặc biệt quan trọng với Fo là đối xứng và ψ là hàm lẻ, ta có b1 (ε) = b+ (ε) = b− (ε) Chúng ta kết luận rằng b+ (ε) < b+ (1) = ∞, với điều kiện ψ(+∞) < ∞ và lim λ(t; F1 ) = (1 − ε)ψ(−∞) + εψ(+∞) < 0 t→∞ tức là ε(1... giải của biểu thức (1.20) và (1.21) tương ứng chính là trung bình mẫu và median mẫu 1.3 Ước lượng M cho tham số vị trí 17 Định nghĩa 1.3.4 Nếu ρ là hàm khả vi, đạo hàm biểu thức (1.19) theo µ thì µ là nghiệm của phương trình : n ψ(xi − µ) = 0 (1.22) i=1 với ψ = ρ Chú ý : Nếu fo là hàm đối xứng thì ρ là hàm lẻ và ψ là hàm chẵn Ví dụ 1.3.3 Nếu ρ(x) = x2 2 thì ψ(x) = ρ (x) = x và (1.19) trở thành n (xi... → Chứng minh Đặt 1 λn (s) = n λ(s) = Eψ(X − s); n ψ(xi − s) i=1 Do đó µ và µo tương ứng thỏa mãn các phương trình λn (µ) = 0; λ(µo ) = 0 Với mỗi giá trị của s, các biến ngẫu nhiên ψ(xi − s) là độc lập và cùng phân bố và có kỳ vọng là λ(s) Vì vậy, theo luật số lớn ta có P λn (s) − − λ(s), −→ n→∞ ∀s Hệ quả 1.3.1 Cho hai dãy biến ngẫu nhiên un , vn sao cho un hội tụ theo xác d suất đến hằng số u và vn... vọng 0 và phương sai σo /(λ (to ))2 Chứng minh Trong trường hợp này, tn = to − √ y 1 + o( √ ), nλ (to ) n So sánh (1.14), (1.15) suy ra điều phải chứng minh Trong phần tiếp theo chúng ta sẽ xét hai trường hợp đặc biệt của ước lượng M là ước lượng M cho tham số vị trí và ước lượng M cho tham số tỷ lệ 1.3 Ước lượng M cho tham số vị trí 15 1.3 Ước lượng M cho tham số vị trí 1.3.1 Định nghĩa và ví dụ... T Trong hầu hết các trường hợp, Tn là vững, tức là Tn → T (F ) theo xác suất, và tiệm cận chuẩn, tức là √ L{ n[Tn − T (F )]} → N (0, A(F, T )) 1.5 Tính Robust định lượng và định tính của ước lượng M 26 Chúng ta sẽ xét tính Robust định tính của T khi cỡ mẫu lớn thông qua dáng điệu của độ lệch tiệm cận T (F ) − T (Fo ) và phương sai tiệm cận A(F, T ) trong lân cận Pε (Fo ) nào đó của phân phối Fo ... sup |M (F, Tn )|, (1.43) v(ε) = lim sup Qt (F, Tn )2 (1.44) n F ∈Pε n F ∈Pε Định lý 1.5.1 Nếu b1 và v1 được định nghĩa tốt, chúng ta có b(ε) ≥ b1 (ε) và v(ε) ≥ v1 (ε) 1.5 Tính Robust định lượng và định tính của ước lượng M 27 Chứng minh Cho T (Fo ) = 0 và giả sử Tn thỏa mãn : T (Fn ) → T (F ) Khi đó limn M (T, Fn ) = T (F ), với bất kỳ F ∈ Pε ta có b(ε) = lim sup |M (F, Tn )| ≤ lim |M (F, Tn )| = |T... phụ thuộc vào Fo và giá trị này thường không đổi với tất cả cách chọn thông thường của Pε Áp dụng cho ước lượng M của tham số vị trí Bây giờ, chúng ta sẽ tính độ lệch lớn nhất b1 của ước lượng M Ta sẽ xét trường hợp cho tham số vị trí, ψ(x; t) = ψ(x − t), với ψ là hàm đơn điệu tăng, và Pε là một lân cận Levy Để đơn giản, chúng ta giả sử T (Fo ) = 0 Đặt b+ (ε) = sup{T (F )|dL (Fo , F ) ≤ ε} và b− (ε) . cũng như các vấn đề xã hội. Tất cả các phương pháp thống kê đều dựa trên một số giả thiết và giả thiết được sử dụng nhiều nhất trong thống kê cổ điển là giả sử rằng các dữ liệu quan sát được. 1)/2) √ vπΓ(v/2) . là ước lượng M với ψ(x) = x x 2 + ν . Như vậy trong thống kê, các ước lượng và thống kê kiểm định đều phụ thuộc vào mẫu (x 1 , . . . , x n ) thông qua hàm phân phối mẫu F n (x) = 1 n  I ( x i <. thiết phải sử dụng thống kê Robust trong tất cả các trường hợp không hay chỉ cần thực hiện bài toán qua hai bước sau : (1) : Loại bỏ các giá trị ngoại lệ khỏi tập dữ liệu bằng cách sử dụng các quy tắc

Ngày đăng: 11/06/2015, 16:35

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w