Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 54 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
54
Dung lượng
419,55 KB
Nội dung
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN NGUYỄN THỊ HUYỀN THỐNG KÊ ROBUST VÀ ỨNG DỤNG LUẬN VĂN THẠC SĨ KHOA HỌC Hà Nội - Năm 2014 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN NGUYỄN THỊ HUYỀN THỐNG KÊ ROBUST VÀ ỨNG DỤNG Chuyên ngành: LÝ THUYẾT XÁC SUẤT VÀ THỐNG KÊ TOÁN HỌC Mã số : 60 46 01 06 LUẬN VĂN THẠC SĨ KHOA HỌC NGƯỜI HƯỚNG DẪN KHOA HỌC TS TRẦN MẠNH CƯỜNG Hà Nội - 2014 Lời cảm ơn Lời cảm ơn Bản luận văn hoàn thành hướng dẫn bảo nhiệt tình TS Trần Mạnh Cường Trong trình làm việc, em học hỏi Thầy tinh thần làm việc đầy tâm huyết u khoa học Chính thế, qua em xin bày tỏ lòng biết ơn chân thành tới Thầy Em muốn bày tỏ cảm ơn chân thành đến tất thầy khoa Tốn - Cơ - Tin học, trường Đại học khoa học tự nhiên, Đại học Quốc gia Hà Nội bảo tận tình suốt thời gian em học tập trường Nhân dịp này, em xin gửi lời cảm ơn đến gia đình, bạn bè cổ vũ, động viên, giúp đỡ tạo điều kiện tốt cho em suốt trình học tập thực luận văn Do thời gian có hạn trình độ cịn hạn chế nên luận văn em tránh khỏi thiếu sót Em mong nhận đóng góp ý kiến thầy bạn để luận văn em hoàn thiện Em xin chân thành cảm ơn Hà Nội, ngày 28 tháng 10 năm 2014 Học viên Nguyễn Thị Huyền Danh mục kí hiệu Danh mục kí hiệu N : Tập số tự nhiên Z : Tập số nguyên Q : Tập số hữu tỷ R : Tập số thực E : Kỳ vọng p − lim : Hội tụ theo xác suất C[a, b] : Liên tục [a, b] P Xn − →X : Xn Hội tụ theo xác suất tới X d : Xn Hội tụ theo phân bố tới X − X Xn → kết thúc chứng minh Mục lục Lời cảm ơn Danh mục kí hiệu Lời nói đầu Ước lượng M 1.1 Định nghĩa 1.2 Tính chất tiệm cận ước lượng M 10 1.3 Ước lượng M cho tham số vị trí 15 1.3.1 Định nghĩa ví dụ 15 1.3.2 Phân bố ước lượng M cho tham số vị trí 18 1.3.3 Một cách nhìn trực quan ước lượng M cho tham số vị trí 21 1.4 Ước lượng M cho tham số tỷ lệ 22 1.5 Tính Robust định lượng định tính ước lượng M 25 Ước lượng M cho mơ hình hồi quy tuyến tính 31 2.1 Giới thiệu 31 2.2 Phương pháp bình phương cực tiểu cho mơ hình hồi quy 34 2.3 Các phương pháp tìm ngoại lệ 36 2.4 Ước lượng M cho mơ hình hồi quy 38 2.5 Các tính chất tiệm cận 40 Ứng dụng 3.1 42 Dữ liệu 42 Mục lục 3.2 Giới thiệu phần mềm R 42 3.3 Các kết phân tích 46 Kết luận 51 Tài liệu tham khảo 52 Lời nói đầu Lời nói đầu Thống kê tốn học phương pháp khoa học phân tích xử lý liệu có nhờ thí nghiệm, điều tra nghiên cứu tượng tự nhiên, vấn đề kỹ thuật vấn đề xã hội Tất phương pháp thống kê dựa số giả thiết giả thiết sử dụng nhiều thống kê cổ điển giả sử liệu quan sát biểu diễn phân bố chuẩn Tuy nhiên, liệu thu thực tế thường gồm quan sát có khác biệt lớn với phần lớn quan sát tập liệu gọi giá trị ngoại lệ (outliers) Khi phân bố biểu diễn quan sát xấp xỉ chuẩn Chúng ta xét ví dụ sau : Cho 24 số liệu hàm lượng đồng có bột mỳ (đơn vị phần triệu), xếp theo thứ tự tăng dần bảng sau : 2.20 2.20 2.40 2.40 2.50 2.70 2.80 2.90 3.03 3.03 3.10 3.37 3.40 3.40 3.40 3.50 3.60 3.70 3.70 3.70 3.70 3.77 5.28 28.95 30 Normal Q−Q Plot 15 10 ● Sample Quantiles 20 25 ● ● −2 ● ● ● −1 ● ● ● ● ● ● ● ● ● ● Theoretical Quantiles ● ● ● ● ● ● ● Lời nói đầu Từ hình vẽ ta nhận thấy phần lớn liệu mơ tả phân bố chuẩn, tất Giá trị 28.95 chênh lệch lớn với giá trị lại xem giá trị ngoại lệ Trong trường hợp này, đốn 2.895 giá trị Qua tính tốn ta x¯ = 4.28 s = 5.3, giá trị x¯ lớn hầu hết tất số liệu trừ hai giá trị 5.28 28.95, khơng thể ước lượng tốt cho giá trị trung tâm tập liệu(giá trị tập liệu) Nếu xóa số liệu 28.95, kích thước mẫu n = 23, ta có x¯ = 3.21, s = 0.69 Lúc này, trung bình mẫu cung cấp ước lượng tốt cho giá trị trung tâm liệu giá trị SD nhỏ lần so với xét giá trị ngoại lệ 28.95 Giá trị ngoại lệ có ảnh hưởng bất lợi nghiêm trọng đến khoảng tin cậy Sử dụng số liệu ví dụ ta có khoảng tin cậy dựa phân bố Student với độ tin cậy 0.95 (2.05; 6.51), xóa bỏ giá trị ngoại lệ khoảng tin cậy (2.91; 3.51) Qua ví dụ thấy ước lượng cổ điển trung bình mẫu, phương sai mẫu, bị ảnh hưởng nhiều giá trị ngoại lệ Khi chúng khơng phải ước lượng tốt cần Để khắc phục vấn đề này, nhà nghiên cứu thống kê tìm ước lượng tham số Robust cung cấp ước lượng phù hợp với phần lớn liệu tập liệu chứa giá trị ngoại lệ liệu không chứa giá trị Tuy nhiên, có cần thiết phải sử dụng thống kê Robust tất trường hợp khơng hay cần thực tốn qua hai bước sau : (1) : Loại bỏ giá trị ngoại lệ khỏi tập liệu cách sử dụng quy tắc xóa bỏ ngoại lệ (2) : Sử dụng phương pháp thống kê cổ điển Câu trả lời khơng lý sau : • Thứ nhất, khó để tách biệt hai bước cách rõ ràng, ví dụ tốn hồi quy nhiều tham số khó để Mục lục nhận giá trị ngoại lệ trừ chắn giá trị ngoại lệ • Thứ hai, thực nghiệm phương pháp loại bỏ tốt khơng hồn tồn đạt ước lượng tốt sử dụng thống kê Robust • Thứ ba, nghiên cứu thực nghiệm nhiều quy tắc xóa bỏ cổ điển với giá trị ngoại lệ bội : tình xảy giá trị ngoại lệ thứ hai ẩn giá trị ngoại lệ thứ nhất, việc xóa bỏ khơng thể thực Vì lý nên luận văn, em trình bày ước lượng Robust qua ba chương sau : • Chương : Trình bày khái niệm, tính chất tảng ước lượng Robust hồi quy tuyến tính : Định nghĩa tính chất ước lượng M, ước lượng M cho tham số vị trí tham số tỷ lệ • Chương : Trình bày ước lượng M cho hệ số mơ hình hồi quy : Giới thiệu phương pháp bình phương cực tiểu cho mơ hình hồi quy, định nghĩa tính chất ước lượng M cho hệ số mơ hình hồi quy • Chương : Trình bày ứng dụng ước lượng M cho mơ hình hồi quy với liệu cụ thể sử dụng phần mềm R Chương Ước lượng M 1.1 Định nghĩa Cho X đại lượng ngẫu nhiên có phân phối chuẩn N (µ, σo2 ) µ tham số chưa biết, σo2 biết Ta có mẫu X1 , X2 , , Xn X Khi hàm mật độ đồng thời X1 , X2 , , Xn n f (xi ; µ), f (x1 , x2 , , xn , µ) = i=1 Hàm hợp lý 1 exp − L(µ) = n 2σo2 σo (2π)n/2 n (xi − µ)2 i=1 Ước lượng hợp lý cực đại cho µ giá trị µ cực đại L(µ) hay µ cực tiểu n i=1 (xi − µ)2 Nếu ta đặt ρ(x, µ) = (x − µ)2 µ cực tiểu n i=1 ρ(xi , µ) Tổng qt ta có định nghĩa sau ước lượng M : Định nghĩa 1.1.1 Giả sử x1 , x2 , , xn quan sát độc lập có phân phối với hàm mật độ f (x, θ) Một ước lượng M θ : n Tn = arg θ phương trình ẩn ρ(xi ; θ), (1.1) i=1 n ψ(xi ; Tn ) = 0, i=1 với ρ hàm bất kỳ, ψ(x; θ) = (∂/∂θ)ρ(x; θ) (1.2) 2.4 Ước lượng M cho mơ hình hồi quy 38 H1 : Quan sát thứ i ngoại lệ bác bỏ H1 |t(i) | > tn−1,(1−α)/2 r(i) ri t(i) = − hi =√ s(i) − hi s(i) Dưới mơ hình phân phối chuẩn, t(i) có phân phối Student với n − bậc tự Khi tốn kiểm định với mức ý nghĩa α để định quan sát thứ i ngoại lệ |t(i) | > tn−1,(1−α)/2 2.4 Ước lượng M cho mơ hình hồi quy Giả sử mơ hình (2.4) với ma trận X cố định ui có hàm mật độ u f σ σ với σ tham số tỉ lệ Đối với mô hình (2.4) Đặt xi = [xi1 , xi2 , , xik ]T , ta có yi = xTi β + ui yi biến ngẫu nhiên độc lập không phân bố, yi có hàm mật độ fo σ yi − xTi β σ hàm hợp lý β(giả sử giá trị σ cho trước) L(β) = n σ n fo i=1 yi − xTi β σ Ước lượng MLE có nghĩa làm cho L(β) lớn nhất, tức tìm β cho : n n ρ i=1 ri (β) σ + log σ = (2.13) với ρo = − log fo Chúng ta xét ước lượng định nghĩa (2.10).Tiếp tục giả sử σ biết đạo hàm theo β, ta có : n ψo i=1 với ψo = ρo = −fo /fo ri (β) σ xi = (2.14) 2.4 Ước lượng M cho mơ hình hồi quy 39 Nhận xét 2.4.1 - Nếu fo hàm mật độ phân phối chuẩn tắc N(0,1) β ước lượng bình phương tối thiểu - Nếu fo (x) = 21 e−|x| β thoả mãn n |ri (β)| = i=1 β gọi ước lượng L1, mơ hình hồi quy tương ứng median Đạo hàm hàm hợp lý trường hợp này, ta có: n sgn(ri (β))xi = i=1 Giả thiết ρ : Giả sử ρ hàm lồi, không đơn điệu, có đạo hàm bị chặn với cấp đủ lớn Nói riêng ψ(x) = d ρ(x) dx liên tục, bị chặn Giả thiết sai số : Giả sử biến ngẫu nhiên ui độc lập phân bố với Eψ(ui ) = Ta có định nghĩa ước lượng M cho hệ số mơ hình hồi quy sau : Định nghĩa 2.4.1 Ước lượng M cho hệ số mơ hình hồi quy tìm β cho n ρ i=1 ri (β) σ = min, (2.15) xi = (2.16) với σ sai số tỷ lệ ước lượng Đạo hàm (2.11) ta có phương trình n ψ i=1 ri (β) σ với ψ = ρ Chú ý : Khi σ chưa biết β thỏa mãn phương trình n ρ ri (β) σ = min, ψ ri (β) σ xi = i=1 hay n i=1 với σ ước lượng M cho tham số tỷ lệ σ 2.5 Các tính chất tiệm cận 2.5 40 Các tính chất tiệm cận a) Trường hợp σ biết Trong mơ hình (2.1) với u cho Eψ u =0 σ (2.17) với u đối xứng người ta chứng minh β ước lượng vững cho β nghĩa P β− → β n → ∞, với n lớn D(β) ≈ Np (β, v(XT X)−1 ) (2.18) Eψ(u/σ)2 v=σ (Eψ (u/σ))2 (2.19) Như vậy, ma trận covariance ước lượng M cho β khác ước lượng theo phương pháp bình phương tối thiểu số Do độ hiệu không phụ thuộc vào X tức Ef f (β) = σo2 v v cho phương trình (2.15) với u đại lượng ngẫu nhiên có phân bố chuẩn N (0, σo2 ) Ef f (β) khơng phụ thuộc vào σo2 b) Trường hợp σ chưa biết Nhắc lại trường hợp ước lượng M cho β β thỏa mãn n ρ ri (β) = min, σ ψ ri (β) xi = σ i=1 n i=1 2.5 Các tính chất tiệm cận P 41 Giả sử σ − → σ Eψ u σ = Theo (2.4) với n lớn phân bố β xấp xỉ (2.14), (2.15), nghĩa σ thay σ Vì ψ hàm lẻ nên trường hợp tổng quát phân bố ui đối xứng Khi tính hiệu ước lượng không phụ thuộc vào ma trận X Chúng ta ước lượng v (2.15) v = σ2 avei {ψ(ri /σ)2 } n , [avei {ψ(ri /σ)}]2 n − p Do với n lớn β xấp xỉ phân phối chuẩn D(β) ≈ Np (β, v(XT X)−1 ) Chương Ứng dụng 3.1 Dữ liệu Bằng cách sử dụng vấn đề trình bày chương trước, xét mơ hình tuyến tính sống thực Cho n = 24 quan sát số gọi điện thoại thực Bỉ hàng năm (năm lấy hai số cuối); xem Venables Ripley (2002) Dựa vào số liệu bảng 3.1 thấy số Bảng 3.1: Số gọi điện thoại thực Bỉ hàng năm Năm 50 51 52 53 54 55 56 57 58 59 60 61 Các gọi 0.44 0.47 0.47 0.59 0.66 0.73 0.81 0.88 1.06 1.2 1.35 1.49 Năm 62 63 64 65 66 67 68 69 70 71 72 73 Các gọi 1.61 2.12 11.9 12.4 14.2 15.9 18.2 21.2 4.30 2.40 2.70 2.90 gọi năm 64, 65, 66, 67, 68, 69 ngoại lệ 3.2 Giới thiệu phần mềm R R ngơn ngữ tính tốn thiết kế RossIhaka Robert Gentlenman vào năm 1996 Cho đến nay, có nhiều nhà thống kê 42 3.2 Giới thiệu phần mềm R 43 20 ● ● 15 ● ● ● calls 10 ● ● ● ● ● 50 ● ● ● ● ● 55 ● ● ● ● ● ● ● ● ● 60 65 70 year Hình 3.1: Đồ thị LS mơ hình học, tốn học người nghiên cứu lĩnh vực sử dụng R để phân tích liệu khoa học Trên tồn cầu, có mạng lưới triệu người sử dụng R, số tăng nhanh Có thể nói vòng 10 năm nữa, vai trò phần mềm thống kê thương mại khơng cịn lớn thời gian qua Đặc biệt, R gói phần mềm phù hợp để phân tích liệu biểu diễn đồ họa Các hàm kết phân tích lưu trữ đối tượng, cho phép sửa đổi hàm dễ dàng xây dựng mơ hình R cung cấp ngơn ngữ, cơng cụ, mơi trường gói thuận tiện Nó linh hoạt tùy biến cao Công cụ đồ họa tuyệt vời tạo cho R môi trường lý tưởng để EDA (phân tích liệu thăm dị) Vì hầu hết hàm bậc cao viết ngôn ngữ riêng R, bạn học ngơn ngữ cách nghiên cứu mã hàm R sử dụng cho nhiều mục tiêu khác toán học giải trí (recreational mathematics), tính tốn ma trận (matrix), đến phân tích thống kê phức 3.2 Giới thiệu phần mềm R 44 tạp Vì ngơn ngữ, người ta sử dụng R để phát triển thành phần mềm chuyên môn cho vấn đề tính tốn cá biệt Để sử dụng R, việc phải cài đặt R máy tính Để làm việc này, ta phải truy nhập vào mạng vào website có tên "Comprehensive R Archive Network" (CRAN) sau đây: http://cran.R-project.org để dowload cài đặt cho máy tính Tuy nhiên, R có vài điểm yếu Ví dụ, R khơng có hiệu đặc biệt việc xử lý tập số liệu lớn Ngoài ra, R chậm việc thực số lượng lớn vịng, so với ngơn ngữ biên dịch C, C++ Có nhiều phần mềm phổ biến dùng để phân tích liệu SAS, SPSS, Stata Statistica S - Plus chi phí để sử dụng phần mềm tuơng đối đắt tiền (có lên đến hàng trăm ngàn đơ-la năm), số trường đại học nước phát triển (và số nước phát triển) khơng có khả tài để sử dụng chúng cách lâu dài Vì lý tơi chọn R cho chương để phân tích liệu Để sử dụng phần mềm R cho số liệu số hàng năm gọi điện thoại thực Bỉ cần sử dụng số hàm R plot • Mô tả : Hàm tổng quát cho đồ thị đối tượng R Đối với biểu đồ phân tán đơn giản, plot.default sử dụng Tuy nhiên, có nhiều phương pháp vẽ đồ thị cho nhiều đối tượng R, bao gồm hàm, data.frames, density objects, • Sử dụng : Plot(x, y, ) • Đối số main: Tiêu đề chung đồ thị sub : Tiêu đề phụ đồ thị 3.2 Giới thiệu phần mềm R 45 xlab : Tiêu đề cho trục x ylab : Tiêu đề cho trục y summary • Mơ tả : summary hàm khái quát sử dụng để cung cấp kết tóm tắt kết mơ hình khác phù hợp với hàm số Hàm số dẫn chứng phương pháp cụ thể dựa tập hợp đối số • Sử dụng : summary(object, ) Phương pháp mặc định : summary(object, , digits = max(3, getoption("digits")-3)); Phương pháp cho lớp "data.frame" : summary(object, maxsum = 7, digits = max(3, getoption("digits")-3)); Phương pháp cho lớp "factor" : summary(object, maxsum = 100, ); Phương pháp cho lớp "matrix" : summary(object, ) • Đối số object : đối tượng mà tóm tắt mong muốn maxsum : số nguyên, cho biết cấp cần cho nhân tố digits : số nguyên, dùng để định dạng số với signif() (cho summary.default) format() (cho summary.data.frame) rlm • Sử dụng : rlm(formula, data, psi = psi.huber, scale.est, k2 =1.345, ) • Đối số : Các đối số hàm rlm : • formula : cơng thức giống hàm lm (linear model); 3.3 Các kết phân tích 46 • Data : (tùy chọn) khung liệu mà từ biến quy định cơng thức thực hiện; • psi : hàm ước lượng ước lượng µ xác định đối số này; • scale.est : phương pháp sử dụng cho ước lượng cho tham số tỷ lệ; • k2 : số điều chỉnh sử dụng cho Hubers Proposal Một số hàm ψ cung cấp cho hàm Huber, Tukeys bisquare Hampel proposals psi.huber, psi.bisquare, psi.hample Chú ý Hubers proposals có hạn chế giá trị ngoại lệ lớn điều chỉnh xuống tới Điều đạt với Tukeys bisquare proposal với ψ(x) → với x → ∞, cụ thể ψk (x) = x(k − x2 )2 (3.1) với −k ≥ x ≥ k Giá trị thường dùng k 4.685 Nói chung, sai số chuẩn ước lượng nhỏ không đáng kể so với Huber kết định tính Hàm rlm cung cấp đối tượng lớp lm Các thành phần khơng có đối tượng lm : • s : Ước lượng Robust cho tham số tỷ lệ sử dụng; • w : trọng số sử dụng trình IW LS; • psi : hàm ψ với tham số thay 3.3 Các kết phân tích • OLS(Dựa bình phương cực tiểu) > x < −c(50, 51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67, 68, 69, 70, 71, 72, 73) > y < −c(0.44, 0.47, 0.47, 0.59, 0.66, 0.73, 0.81, 0.88, 1.06, 1.20, 1.35, 1.49, 1, 61, 2.12, 11.90, 12.40, 14.20, 15.90, 18.20, 21.20, 4.30, 2.40, 2.70, 2.90) 3.3 Các kết phân tích 47 > plot(x, y) > plot(x, y, xlab = ”year”, ylab = ”calls”) > fit.ols < −lm(y ∼ x) > summary(fit.ols, cor = F) Coefficients: Estimate Std Error t value (Intercept) −260.059 x 5.041 Pr(>|t|) 10.2607 −2.535 0.0189∗ 0.1658 3.041 0.0060 ∗ ∗ Signif codes: *** 0.001 ** 0.01 * 0.05 0.1 Residual standard error: 5.622 on 22 degrees of freedom Multiple R-squared: 0.2959, Adjusted R-squared: 0.2639 F-statistic: 9.247 on and 22 DF, p-value: 0.005998 > abline(fit.olscoef) > par(mfrow = c(1, 4)) > plot(fit.ols, : 2) > plot(fit.ols, 4) > hmat.p < −hat(model.matrix(fit.ols)) > h.phone < −hat(hmat.p) > cook.d < −cooks.distance(fit.ols) > plot(h.phone/(1 − h.phone), cook.d, xlab = ”h/(1 − h)”, ylab = ”Cookdistance”) Hình 3.2 cho bốn đồ thị chuẩn đốn dựa OLS thích hợp : đồ thị phần dư so với giá trị thích hợp, đồ thị chuẩn Q- Q phần dư, đồ thị khoảng cách Cooks khoảng cách thống kê Cooks so với hii /(1 − hii ) Điều quan trọng phải nhớ đồ thị cho thông tin khác quan sát Cụ thể, có quan sát có ảnh hưởng lớn (như hai quan sát cuối), mà không liên quan nhiều tới phần dư, nguồn gốc điểm ảnh hưởng 3.3 Các kết phân tích Residuals vs Fitted 48 Normal Q−Q Cook's distance 20 0.25 20 ● 10 0.25 ● 20 ● 19 ● 19 ● ● 0.20 24 ● 18 0.20 ● ● ● ● ● ● 0.15 Cook distance 0.15 Cook's distance ● ● ● ● ● ● 0.10 ● 23 ● 0.10 ● ● ● ● Standardized residuals Residuals ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 0.05 0.05 −5 ● ● ● ●● −1 ● ● ● ● ● ● ● −10 ● 24 10 −2 −1 Fitted values 0.00 0.00 ● Theoretical Quantiles 10 15 20 ● ● ● ● ● 0.05 Obs number ● ●● ● ● ● ● 0.10 ● ● 0.15 0.20 0.25 h/(1−h) Hình 3.2: Các đồ thị dự đốn cho ước lượng OLS • Tìm ước lượng cho hệ số hồi quy sử dụng hàm Huber x2 |x| ≤ k ρk (x) = 2k|x| − k |x| > k (3.2) đạo hàm 2ψk (x) : ψk (x) = x |x| ≤ k sgn(x)k |x| > k (3.3) với M AD(X) = M ed(|X − M ed(X)|) > fit.hub < −rlm(y ∼ x, maxit = 50) > summary(fit.hub, cor = F) Coefficients: Estimate (Intercept) −102.6222 x 2.0414 Std Error t value 2.6608 −3.8568 0.4299 4.7480 Residual standard error: 9.032 on 22 degrees of freedom 3.3 Các kết phân tích 49 • Tìm ước lượng cho hệ số hồi quy sử dụng hàm Huber2 > fit.hub2 < −rlm(y ∼ x, scale.est = ”proposal2”) > summary(fit.hub2, cor = F) Coefficients: Estimate (Intercept) −227.9250 x Std Error t value 101.8740 −2.2373 1.6461 2.7052 4.4530 Residual standard error: 57.25 on 22 degrees of freedom > abline(fit.hubcoef, lty = 2) > abline(fit.hub2coef, lty = 2) đồ thị chuẩn đoán ước lượng Huber với MAD thể hình vẽ : res vs fitted residuals weights ● 1.0 obs vs fitted ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 15 15 ● ● ● 0.8 ● ● ● ● ● ● ● ● ● ● ● 10 ● ● fit weight residuals fitted ● ● ● Sample Quantiles ● ● 0.6 10 ● ● ● 0.4 ● 5 ● ● ● ● ● ● ● ● ● ● 0 ● ● ● ● ● ● ● ● ● ● ● ●●● ● ● ● ●● ● ●● ●● 0.2 ● ● ● ● ● ● ● ● ● ● 10 response 15 20 fitted ● ● ● −2 ● ● ● ● −1 Theoretical Quantiles 10 15 20 Index Hình 3.3: Các đồ thị dự đốn cho ước lượng hàm Huber với MAD Từ kết từ hình vẽ (3.4), cần ý có số khác biệt với ước lượng OLS, cụ thể điều cho ước lượng Huber - type với M AD Xem lại lớp đồ thị dự đốn (xem hình vẽ 3.3 cho ước lượng Huber - type với M AD) Robust thích hợp: đồ thị giá trị quan sát so với giá trị thích hợp, đồ thị phần dư so với giá trị thích hợp, đồ thị chuẩn QQ phần dư trọng lượng thích hợp 3.3 Các kết phân tích 50 ước lượng robust Chú ý có số quan sát với trọng số Huber - type thấp không nhận biết lớp thống kê Cooks Hình 3.4: Một số ước lượng thích hợp Kết luận 51 KẾT LUẬN Trong luận văn này, em tìm hiểu • Ước lượng M tính chất Đưa ước lượng M cho tham số vị trí tham số tỷ lệ • Tìm hiểu ước lượng M cho hệ số mô hình hồi quy với biến dự báo tất định • Áp dụng để tìm ước lượng M cho mơ hình hồi quy với liệu cụ thể sử dụng phần mềm R Tài liệu tham khảo [1] Đào Hữu Hồ (2007), Xác suất thống kê, NXB Đại học Quốc gia Hà Nội [2] Nguyễn Duy Tiến, Đỗ Việt Yến (2000), Lý thuyết xác suất, NXB Đại học Quốc gia Hà Nội [3] Nguyễn Văn Hữu, Nguyễn Hữu Dư (2003), Phân tích thống kê dự báo, NXB Đại học Quốc gia Hà Nội [4] Đặng Hùng Thắng (2000), Thống kê ứng dụng, Nhà xuất giáo dục [5] Huber, P.J.(1981), Robust Statistics, New York: John Wiley & Sons, Inc [6] Montgomery, D.C, Peck, E.A and Vinning, G.G (2001), Introduction to Linear Regression Analysis, 3rd Edition, New York: John Wiley & Sons, Inc [7] Ricardo A Maronna, R Douglas Martin, Vctor J Yohai (2006), Robust Statistics Theory and Methods, New York: John Wiley & Sons, Ltd [8] Ruggero Bellio, Laura Ventura (2005), An Introduction to Robust Estimation with R Functions, Department of Statistics, University of Udine [9] W N Venables, B D Ripley (2002), Modern Applied Statistics with S Fourth Edition, Springer ... GIA HÀ NỘI TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN NGUYỄN THỊ HUYỀN THỐNG KÊ ROBUST VÀ ỨNG DỤNG Chuyên ngành: LÝ THUYẾT XÁC SUẤT VÀ THỐNG KÊ TOÁN HỌC Mã số : 60 46 01 06 LUẬN VĂN THẠC SĨ KHOA HỌC NGƯỜI... cứu thống kê tìm ước lượng tham số Robust cung cấp ước lượng phù hợp với phần lớn liệu tập liệu chứa giá trị ngoại lệ liệu không chứa giá trị Tuy nhiên, có cần thiết phải sử dụng thống kê Robust. .. −(ν+1)/2 , Γ((v + 1)/2) cν = √ vπΓ(v/2) ước lượng M với ψ(x) = x +ν x2 Như thống kê, ước lượng thống kê kiểm định phụ thuộc vào mẫu (x1 , , xn ) thông qua hàm phân phối mẫu Fn (x) = n I( xi