Hcmute mô phỏng hồi quy bằng phương pháp bootstrap

55 2 0
Hcmute mô phỏng hồi quy bằng phương pháp bootstrap

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT THÀNH PHỐ HỒ CHÍ MINH BÁO CÁO TỔNG KẾT ÐỀ TÀI KH&CN CẤP TRƯỜNG TRỌNG ÐIỂM MÔ PHỎNG HỒI QUY BẰNG PHƯƠNG PHÁP BOOTSTRAP Mã số: T2013-158 Chủ nhiệm đề tài: Ths Nguyễn Ngọc Tứ S K C0 Tp Hồ Chí Minh, tháng 02/2014 Luan van TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT THÀNH PHỐ HỒ CHÍ MINH KHOA KHOA HỌC CƠ BẢN BÁO CÁO TỔNG KẾT ĐỀ TÀI KH&CN CẤP TRƯỜNG MÔ PHỎNG HỒI QUY BẰNG PHƯƠNG PHÁP BOOTSTRAP Mã số: T2013-158 Chủ nhiệm đề tài: Ths Nguyễn Ngọc Tứ TP HCM, 02/2014 Luan van Mục lục Thông tin kết nghiên cứu Mở đầu 0.1.Kết nghiên cứu nước liên quan tới đề tài 0.2.Tính cấp thiết đề tài 0.3.Mục tiêu đề tài 0.4.Cách tiếp cận 0.5.Phương pháp nghiên cứu 0.6.Tóm tắt nội dung đề tài Chương Kiến thức 1.1.Sự hội tụ biến ngẫu nhiên 1.1.1 Hội tụ theo xác suất 1.1.2 Hội tụ hầu chắn 1.1.3 Hội tụ yếu 1.2.Sự hội tụ chuỗi biến ngẫu nhiên 10 10 1.2.1 Định lý Kolmogorov 10 1.2.2 Bất đẳng thức Kolmogorov 11 1.3.Luật số lớn 13 1.3.1 Luật yếu số lớn 13 1.3.2 Luật mạnh số lớn 13 Luan van 1.4.Định lý giới hạn trung tâm 14 1.4.1 Định lý giới hạn trung tâm với thành phần phân phối 14 1.4.2 Định lý giới hạn trung tâm Lindeberg 14 1.4.3 Định lý giới hạn tích phân Moivre - Laplace 15 1.5.Metric Mallow 15 1.6.Phân phối bootstrap 17 1.6.1 Đặt vấn đề 17 1.6.2 Phân phối bootstrap 18 Chương Mơ hình hồi quy nhiều chiều 19 2.1.Giới thiệu 19 2.2.Độ lệch tiêu chuẩn 23 2.3.Ba định lý lý thuyết bình phương bé 25 2.3.1 Định lý I 26 2.3.2 Định lý II 27 2.3.3 Định lý III 29 Chương Mơ hình hồi quy bootstrap 30 3.1.Giới thiệu 30 3.2.Mơ hình hồi quy bootstrap 31 3.3.Mơ mơ hình hồi quy bootstrap 39 3.3.1 Khoảng tin cậy Bootstrap BCa 39 3.3.2 Thuật toán 40 3.3.3 Ví dụ 41 Luan van TRƢỜNG ĐẠI HỌC SƢ PHẠM KỸ THUẬT CỘNG HOÀ XÃ HỘI CHỦ NGHĨA VIỆT NAM THÀNH PHỐ HỒ CHÍ MINH Độc lập - Tự - Hạnh phúc KHOA KHOA HỌC CƠ BẢN Tp HCM, ngày 25 tháng 01 năm 2014 THÔNG TIN KẾT QUẢ NGHIÊN CỨU Thông tin chung: - Tên đề tài: Mô hồi quy phương pháp bootstrap - Mã số: T2013-158 - Chủ nhiệm: Nguyễn Ngọc Tứ - Cơ quan chủ trì: Đại học Sƣ phạm Kỹ thuật Thành phố Hồ Chí Minh - Thời gian thực hiện: từ tháng 11/2012 đến tháng 02/2014 Mục tiêu: N h ên cứu định lý giới hạn trung tâm áp dụng cho mơ hình hồi quy bootstrap với cỡ mẫu lặp lại tùy ý mô phần mềm R Tính sáng tạo: Áp dụn định lý giới hạn trung tâm mơ hình hồi quy bootstrap với cỡ mẫu ngẫu nhiên mơ mơ hình Kết nghiên cứu: Mơ đƣợc mơ hình hồ quy bootstrap trình bày định lý hội tụ, đ ều kiện để sử dụn ƣớc lƣợng bootstrap với cỡ mẫu tùy ý phân phối ƣớc lƣợn bình phƣơn bé Sản phẩm: Tà l ệu tha hảo chuyên n ành Hiệu quả, phương thức chuyển giao kết nghiên cứu khả áp dụng: - Các kết đạt đƣợc ứng dụng vào việc xử lý số liệu thống kê Luan van - Kết nghiên cứu tà l ệu tha hảo tốt cho s nh v ên đạ học n ành Toán học v ên sau đạ học chuyên n ành Xác suất Trưởng Đơn vị Chủ nhiệm đề tài (ký, họ tên, đóng dấu) (ký, họ tên) Luan van INFORMATION ON RESEARCH RESULTS General information: Project title: Simulating bootstrapping regression model Code number: T2013-158 Coordinator: ME Nguyễn Ngọc Tứ –HCMC University of Technical Education Implementing institution: HCMC University of Technical Education Duration: from 2/2013 to 02/2014 Objective(s): Study the central limit theorem to apply for bootstrapping regression model with random resample sizes and simulated by R software Creativeness and innovativeness: Applying the central limit theorem for bootstrapping regression model with random resample sizes and simulating this model Research results: Simulating the bootstrapping regression model and displaying convergence theorems, some conditions to estimate bootstrap with random sample size in least square estimation Effects, transfer alternatives of reserach results and applicability: References to students, post-graduate students majoring in Statistics and Probability and who using Bootstrap methods in the study Luan van Mở đầu 0.1 Kết nghiên cứu nước liên quan tới đề tài B Efron đề xuất phương pháp lấy mẫu lại tổng quát, gọi bootstrap, để ước lượng phân phối thống kê dựa quan sát độc lập Có thể mô tả tổng quát phương pháp bootstrap sau Giả sử (X1 , X2 , , Xn ) mẫu ngẫu nhiên cỡ n từ tổng thể với hàm phân phối F T(X1 , X2 , , Xn ; F) biến ngẫu nhiên đặc biệt cần quan tâm, phụ thuộc vào phân phối chưa biết F Ký hiệu Fn hàm phân phối thực nghiệm (X1 , X2 , , Xn ), nghĩa phân phối đặt trọng lượng 1/n điểm X1 , X2 , , Xn Phương pháp bootstrap xấp xỉ phân phối T(X1 , X2 , , Xn ; F) F phân phối T(Y1 ,Y2 , ,Yn ; Fn ) Fn , (Y1 ,Y2 , ,Yn ) mẫu ngẫu nhiên cỡ n từ tổng thể với hàm phân phối Fn Như vậy, phương pháp bootstrap sử dụng phép lấy mẫu có hồn lại Khi tất bậc tự giai đoạn xử lý số liệu bảo tồn lợi bootstrap so với phương án khác việc điều khiển phép lấy mẫu Lúc đầu bootstrap sử dụng để khảo sát độ chệch, sau dó sử dụng để ước lượng phương sai mẫu Từ phương sai Luan van tính giới hạn tin cậy kiểm tra giả thuyết Vì vậy, bootstrap thích hợp để giải toán thống kê, kiểm tra giả thiết luật phân phối đại lượng ngẫu nhiên, hồi quy, phân tích phương sai phân loại số liệu nhiều chiều Cụ thể, mơ hình hồi quy tương quan bootstrap Bickel Freedman phát triển số lý thuyết tiệm cận cho trình thực nghiệm bootstrap 0.2 Tính cấp thiết đề tài Phương pháp bootstrap sử dụng rộng rãi thống kê để giải toán như: kiểm định giả thuyết thống kê phân phối đại lượng ngẫu nhiên, ước lượng tham số, hồi quy tương quan, phân tích phương sai va phân loại số liệu nhiều chiều Nghiên cứu áp dụng phương pháp bootstrap vấn đề thời lý thuyết xác suất thống kê toán học Việc nghiên cứu định lý giới hạn trung tâm ước lượng bootstrap với cỡ mẫu ngẫu nhiên nhiều nhà toán học quan tâm vấn đề mơ tốn cần thiết để xem xét áp dụng thực tế, chẳng hạn mơ hình hồi quy.Vì vậy, đề tài thời cấp thiết 0.3 Mục tiêu đề tài Nghiên cứu định lý giới hạn trung tâm với cỡ mẫu tùy ý áp dụng mơ hình hồi quy bootstrap mơ mơ hình thực tế 0.4 Cách tiếp cận Đọc tài liệu liên quan đến đề tài, phân tích để tìm cơng cụ giải đề tài, dùng phần mềm R để mô mô hình Luan van 0.5 Phương pháp nghiên cứu Sử dụng phương pháp kết lý thuyết cổ điển tổng biến ngẫu nhiên độc lập, kết phương pháp lý thuyết phương pháp bootstrap, áp dụng kết cho mơ hình hồi quy 0.6 Tóm tắt nội dung đề tài Nội dung báo cáo gồm phần mở đầu, chương 1, chương 2, chương phần kết luận: • Phần mở đầu trình bày xuất xứ ý nghĩa vấn đề, đối tượng phương pháp nghiên cứu đề tài • Chương trình bày tóm tắt số kết biết xác suất, định lý kết liên quan đến đề tài • Chương tập trung trình bày mơ hình hồi quy nhiều chiều • Chương trình bày mơ hình hồi quy bootstrap mơ Luan van Gọi Fn hàm phân phối thực nghiệm ε1 , ε2 , , εn ; F˜n hàm phân phối thực nghiệm ε˜1 (n), ε˜2 (n), , ε˜n (n) lấy từ mơ hình hồi quy ban đầu, Fˆn F˜n định tâm trung bình c µn = (1/n) ∑ni=1 εˆi (n) Bởi εˆ (n) = Y (n) − X(n)βˆ (n) nên εˆ (n) − ε (n) = −P(n)ε (n) (3.2.2) { }−1 T với P (n) = X(n) X(n) X(n) X(n)T ma trận trực chuẩn với cột X(n) { } Bổ đề 3.2.1 E d2 (F˜n , Fn ) σ p/n Chứng minh Một số tính tốn từ (3.2.2) cho ta { } E ∥εˆ (n) − ε (n)∥ = σ p Thật vậy, từ (3.2.2), ta có ∥εˆ (n) − ε (n)∥2 = ∥P(n)ε (n)∥2 = ε (n)T P(n)T P(n)ε (n) = ε (n)T P(n)2 ε (n) = ε (n)T P(n)ε (n) (P(n) lũy linh) Do { } { } T ˆ E ∥ε (n) − ε (n)∥ = E ε (n) P(n)ε (n) { } n n = E ∑i=1 ∑ j=1 εi Pi j ε j = ∑i=1 ∑ j=1 Pi j E(εi ε j ) n n Nếu i ̸= j E(εi ε j ) = εi , ε j độc lập với E(εi ) = Nếu i = j E(εi εi ) = σ 33 Luan van (3.2.3) Vì { } n E ∥εˆ (n) − ε (n)∥ = σ ∑i=1 Pii = σ trace(P) Mà trace(P) = trace[{X T X}−1 {X T X}] = trace(I p×p ) = p Vậy (3.2.3) chứng minh Nhưng n d2 (Fen , Fn )2 ∑i=1 {εˆi (n) − εi }2 = ∥εˆ (n) − ε (n)∥2 n n (3.2.4)  Vậy bổ đề chứng minh { } ˆ Bổ đề 3.2.2 E d2 (Fn , Fn ) σ (p + 1)/n Chứng minh Hai lần áp dụng bổ đề 8.8 [9] ta ( )2 [ ]2 1 n n d2 (Fbn , Fn ) = εi − ∑i=1 {εˆi (n) − εi } + d2 (Fen , Fn )2 ∑ i=1 n n (3.2.5) Sau ta sử dụng bổ đề (3.2.1) ta điều phải chứng minh  Mơ mơ hình hồi quy tuyến tính ∗ ∗ (m) Ym×1 (m) = Xm×p (m) βˆ p×1 (n) + εm×1 với ε1∗ , , εm∗ độc lập có phân phối Fbn Fbn phân phối thực nghiệm ε ∗ (m) lấy ngẫu nhiên từ liệu gốc ε (n), mà trung tâm trung vị µn , nghĩa Fbn đặt khối lượng 1/n εˆi (n) − µn với µn = (1/n) ∑ni=1 εˆi (n) Tham số β ∗ (m) tham số ước lượng ∗ (m) = β p×1 { }−1 T X(m) X(m) p×p ∗ X(m)T m×pYm×1 (m) 34 Luan van Phần dư ∗ ∗ ∗ (m) = Ym×1 (m) − Xm×p (m)β p×1 (m) εm×1 Theo lý thuyết phương sai σ = E{εi2 } ước lượng từ n vectơ liệu gốc σˆ n2 = n n 2 ˆ ε µ với µ = εˆi (n) (n) − n n n ∑i=1 i n ∑i=1 (3.2.6) Tương tự, phương sai ước lượng từ m vectơ σˆ ∗m = m ∗2 m ∗ ∗2 ∗ ˆ (m) − với = ε µ µ εˆ (m) ∑ i m m m i=1 m ∑i=1 i (3.2.7) Cho ε (n) vectơ có n thành phần ε1 , , εn , tương tự εˆ (n) vectơ có n thành phần εˆ1 (n), , εˆn (n) Ta có số bổ để sau Bổ đề 3.2.3 1n X(n)T ε (n) → hầu chắn βˆ (n) → β hầu chắn Chứng minh Đặt Sn = X T (n)ε (n) = X1 ε1 + · · · + Xn εn , với E(Xk εk ) = Xk E(εk ) = X(n) ma trận cố định Var(Xk εk ) = Xk 2Var(εk ) < ∞, k = 1, 2, , n Theo bất đẳng thức Kolmogorov, với λ > tùy ý ta có [ ] Var(Sn ) P max |Sn | > λ λ2 k 6n [ ] Var(S ) Vậy ∀λ > 0, 1n P max |Sn | > λ n.λ 2n → Hay nói cách khác Ta có k 6n T n X(n) ε (n) → hầu chắn { } }−1 { 1 X T (n)X(n) X T (n)ε (n) βˆ (n) = β + n n Nhân tố thứ hội tụ V −1 theo điều kiện (iii) mơ hình (3.1.1); nhân tố thứ hai hội tụ hầu chắn theo chứng minh Vậy βˆ (n) → β hầu chắn  35 Luan van Bổ đề 3.2.4 1n ∥εˆ (n) − ε (n)∥2 → hầu chắn Chứng minh Từ (3.2.2) ta có ∥εˆ (n) − ε (n)∥2 = n { }{ }−1 { } T T T ε (n)X(n) X (n)X(n) X (n)ε (n) n n n Nhân tố thứ nhân tố thứ ba hội tụ hầu chắn theo Bổ đề (3.2.3); nhân tố thứ hai hội tụ V −1 theo điều kiện (iii) mơ hình (3.1.1)  Vậy bổ đề chứng minh Bổ đề 3.2.5 d2 (Fˆn , Fn ) → hầu chắn Chứng minh Từ (3.2.4) (3.2.5) ta có ( )2 [ ]2 1 n n d2 (Fbn , Fn ) = εi − ∑i=1 {εˆi (n) − εi } + d2 (Fen , Fn )2 ∑ i=1 n n )2 ( n εi + ∥εˆ (n) − ε (n)∥2 ∑ i=1 n n → hầu chắn theo bổ đề (3.2.4)  Bổ đề 3.2.6 d2 (Fˆn , F) → hầu chắn Chứng minh Vì d2 metric nên d2 (Fbn , F)2 d2 (Fbn , Fn )2 + d2 (Fn , F)2 Theo bổ đề (3.2.5), d2 (Fbn , Fn )2 hội tụ hầu chắn 0; d2 (Fn , F)2 hội tụ hầu chắn theo Bổ đề 8.4 [9] 36 Luan van  Bổ đề 3.2.7 Cho ui vi số thực Đặt u= n n u s = (ui − u)2 i ∑ ∑ u i=1 i=1 n n đặt tượng tự cho v Khi (su − sv )2 n (ui − vi )2 ∑ i=1 n Chứng minh √ √ Rõ ràng su = ∥u − u∥ ¯ / n sv = ∥v − v∥ ¯ / n (su − sv )2 ∥(u − u) ¯ − (v − v)∥2 n ] 1[ 2 = ∥u − v∥ − (u¯ − v) n ∥u − v∥2 n  Định lý 3.2.2 Giả sử ta xét mơ hình hồi quy với (3.1.1) với điều kiện (i)(iii) Trong hầu hết dãy mẫu, cho trước Y1 ,Y2 , ,Yn , m n tiến tới ∞ a) Phân phối có điều kiện √ ˆ∗ m{β (m) − βˆ (n)} hội tụ yếu tới phân phối chuẩn có kì vọng ma trận hiệp phương sai σ 2V −1 b) phân phối có điều kiện σˆ m∗ hội tụ tới σ c) phân phối có điều kiện {X(m)T X(m)}1/2 {βˆ ∗ (m) − βˆ (n)}/σˆ m∗ hội tụ tới phân phối chuẩn R p Chứng minh a) Phát biểu a) suy trực tiếp từ Định lý (3.2.1) bổ đề (3.2.6) Thật 37 Luan van vậy, định lý (3.2.1) ta thay m cho n Fˆn cho G Khi { }2 d2p Ψm (F), Ψm (Fˆn ) m trace[X(m)T X(m)]−1 d2 (F, Fˆn )2 [ ]−1 = trace X(m)T X(m) d2 (F, Fˆn )2 m → hầu chắn (1/m)X(m)T X(m) → V theo điều kiện (iii) mơ hình (3.1.1) d2 (F, Fˆn )2 → theo Bổ đề (3.2.6) b) Xét σˆ n biểu thức (3.2.6), ta σˆ n → σ hầu chắn (3.2.8) Trước tiên ta xét σn2 ( )2 n n = ∑i=1 εi − εi n n ∑i=1 Rõ ràng, σn → σ hầu chắn Theo Bổ đề (3.2.7) (3.2.4) (σˆ n − σn )2 = Đặt n ˆ { ε (n) − ε } → hầu chắn i i ∑ n i=1 ( )2 1 n n σ ∗m = ∑i=1 ε ∗i − εi∗ ∑ i=1 n n Trong biểu thức (3.2.7), ta có σˆ m∗ phương sai phẩn dư mơ hình hồi quy đánh dấu Ta có E(|σˆ m∗ − σm∗ | |Y1 , ,Yn )2 6E ( (σˆ m∗ − σm∗ )2 |Y1 , ,Yn ) ] m ∗ ∗ 6E ε (m) − εi } |Y1 , ,Yn Bổ đề (3.2.6) {b m ∑i=1 i [ = σˆ n2 p/m (3.2.3) → hầu chắn (3.2.8) 38 Luan van Phần lại ta σ ∗m hội tụ σ Điều kết Phần [9] Thật với điều kiện Y1 , ,Yn , theo Bổ đề 8.6 [9] ta có ( ) m ∗2 m d1 ε i , ∑i=1 εi d1 (ε ∗i , εi2 ) ∑ i=1 m m Ta lại có: εi∗ có luật phân phối xác suất Fˆn ; εi có luật phân phối xác suất F d2 (Fˆn , F) → hầu chắn Bổ đề (3.2.6) Vì theo Bổ đề 8.6 [9] ta có d1 (ε ∗i , εi2 ) → hầu chắn với ϕ (ε ) = ε Tóm lại hội tụ hầu chắn tới m m ∑i=1 ε i m ∗2 m ∑i=1 ε i tức hội tụ hầu chắn tới σ  c) Phát biểu c) suy trực tiếp từ a) b) 3.3 Mơ mơ hình hồi quy bootstrap 3.3.1 Khoảng tin cậy Bootstrap BCa Ký hiệu T ∗(α ) giá trị thứ α b giá trị bootstrap T¯ ∗(α ) ; i = 1, , b thỏa mãn ∗ ∗ ∗ T¯(1) ≤ T¯(2) ≤ ≤ T¯(b) Khoảng ước lượng bootstrap BCa với mức ý nghĩa (1 − 2α ) có dạng: ( với T¯ ∗(α1 ) , T¯ ∗(α2 ) ( ) + z(α ) ) zˆ ( ) , − aˆ zˆ + z(α ) ( ) α ) (1− zˆ + z ( ) α2 = Φ zˆ + − aˆ zˆ + z(1−α ) α1 = Φ zˆ + Trong • Φ(.) hàm phân phối tích lũy phân phối chuẩn hóa N(0, 1) 39 Luan van • z(α ) giá trị phân vị mức α phân phối chuẩn hóa z(α ) = Φ−1 (α ) • zˆ độ đo trung vị độ chệch T¯ ∗ , zˆ xác định ( ∗ ) ¯ ¯ −1 {T (b) < T } zˆ = Φ B • aˆ giá trị thể tốc độ thay đổi sai số chuẩn T¯ , se(T¯ ) giá trị thực T, aˆ xác định ∑ni=1 (T¯− − T¯ (−i)) aˆ = { }3 /2 n ¯ ¯ ∑i=1 (T− − T (−i)) với T¯ (−i) giá trị T¯ bỏ qua quan sát thứ i, xi , khỏi mẫu gốc T¯− trung bình cộng T¯ (−i) 3.3.2 Thuật toán Xét mẫu ban đầu zi ′ = [Yi , Xi1 , , Xik ] ′ ′ ′ Từ mẫu này, z′1 , z′2 , , z′n ta tái mẫu đễ mẫu bootstrap z∗b1 , z∗b2 , , z∗bn [ ]′ có hệ số hồi quy tương ứng b∗b = A∗b , B∗b1 , , B∗bk Cụ thể Ước lượng hệ số hồi quy A, B1 , , Bk từ mẫu ban đầu tính tốn phần dư cho quan sát Ybi = A + B1 xi1 + + Bk xik Ei = Yi − Ybi ] [ ∗ ∗ ∗ ′ từ tính , Eb2 , , Ebn Lấy phần dư mẫu bootstrap e∗b = Eb1 ] [ ∗ ∗ ∗ ′ ,Y ∗ = Y bi + E ∗ ,Yb2 , ,Ybn giá trị Y bootstrap với y∗b = Yb1 bi bi 40 Luan van Dựa giá trị Y vừa tính giá trị X, ta hệ số hồi quy bootstrap b∗b = (X ′ X)−1 X ′ y∗b , b = 1, , r [ ]′ Mẫu tái tạo b∗b = A∗b , B∗b1 , , B∗bk cho ta độ lệch chuẩn bootstrap khoảng tin cậy bootstrap cho hệ số hồi quy 3.3.3 Ví dụ Để mơ tả hệ số hồi quy bootstrap, ta sử dụng số liệu có sẵn R (phần mềm thống kê) mức độ tiêu thụ nhiên liệu (mpg) dựa trọng lượng xe (wt) khí thải (disp) với phương trình hồi quy mpg = A + B1 wt + B2 disp Ở mẫu bootstrap ta lập lại r = 5000 lần để ước lượng độ lệch chuẩn bootstrap khoảng tin cậy bootstrap cho hệ số hồi quy biến trọng lượng khí thải với độ tin cậy 95% Bootstrap với độ tin cậy 95% library(boot) (Hàm lấy liệu) bs

Ngày đăng: 02/02/2023, 10:10

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan