(Đề tài NCKH) một số ứng dụng của phương pháp bootstrap trong xử lý số liệu thống kê

62 15 0
(Đề tài NCKH) một số ứng dụng của phương pháp bootstrap trong xử lý số liệu thống kê

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT THÀNH PHỐ HỒ CHÍ MINH BÁO CÁO TỔNG KẾT ÐỀ TÀI KH&CN CẤP TRƯỜNG TRỌNG ÐIỂM MỘT SỐ ỨNG DỤNG CỦA PHƯƠNG PHÁP BOOTSTRAP TRONG XỬ LÝ SỐ LIỆU THỐNG KÊ Mã số: T2013-156 Chủ nhiệm đề tài: Th.S Nguyễn Hồng Nhung SKC005408 Tp Hồ Chí Minh, tháng 11/2013 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT THÀNH PHỐ HỒ CHÍ MINH BÁO CÁO TỔNG KẾT ĐỀ TÀI KH&CN CẤP TRƯỜNG MỘT SỐ ỨNG DỤNG CỦA PHƯƠNG PHÁP BOOTSTRAP TRONG XỬ LÝ SỐ LIỆU THỐNG KÊ Mã số: T2013-156 Chủ nhiệm đề tài: Th.S NGUYỄN HỒNG NHUNG TP HCM, 11/2013 TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT THÀNH PHỐ HỒ CHÍ MINH KHOA KHOA HỌC CƠ BẢN BÁO CÁO TỔNG KẾT ĐỀ TÀI KH&CN CẤP TRƯỜNG MỘT SỐ ỨNG DỤNG CỦA PHƯƠNG PHÁP BOOTSTRAP TRONG XỬ LÝ SỐ LIỆU THỐNG KÊ Mã số: T2013-156 Chủ nhiệm đề tài: Th.S Nguyễn Hồng Nhung TP HCM, 11/2013 MỤC LỤC MỤC LỤC THÔNG TIN KẾT QUẢ NGHIÊN CỨU MỞ ĐẦU CHƢƠNG 1: PHƢƠNG PHÁP BOOTSTRAP 1.Đặt vấn đề 2.Nội dung phương pháp Bootstrap 3.Sai số tiêu chuẩn Bootstrap 3.1 3.2Ước lượng Bootstra 3.3Ước lượng Bootstra 4.Ước lượng Bootstrap cho độ chệch Ước lượng Bootstrap cho sai số tiêu chuẩn c giá trị trung bình μ CHƢƠNG 2: KHOảNG ƢớC LƢợNG BOOTSTRAP 1.Kho ảng ước lượng Bootstrap-t 1.1Kho ảng ước lượng 1.2Kho ảng ước lượng 1.3Kho ảng ước lượng 2.Kho ảng ước lượng Bootstrap phần trăm 2.1Kho ảng ước lượng 2.2Kho ảng ước lượng 2.3Kho ảng ước lượng 3.Kho ảng ước lượng Bootstrap BCa CHƢƠNG 3: KIểM ĐịNH BOOTSTRAP 1.Kiểm định Bootstrap toán hai mẫu 1.1Kiểm định Bootstra 1.2Kiểm định Bootstrap 2.Kiểm định Bootstrap toán mẫu 2.1Kiểm định Bootstra 2.2Kiểm định Bootstra KẾT LUẬN VÀ KIẾN NGHỊ TÀI LIỆU THAM KHẢO TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT CỘNG HOÀ XÃ HỘI CHỦ NGHĨA VIỆT NAM THÀNH PHỐ HỒ CHÍ MINH Độc lập - Tự - Hạnh phúc KHOA KHOA HỌC CƠ BẢN Tp HCM, Ngày 25 tháng 11 năm 2013 THƠNG TIN KẾT QUẢ NGHIÊN CỨU Thơng tin chung: Tên đề tài: MỘT SỐ ỨNG DỤNG CỦA PHƢƠNG PHÁP BOOTSTRAP TRONG XỬ LÝ SỐ LIỆU THỐNG KÊ - Mã số: T2013-156 - Chủ nhiệm: Th.S NGUYỄN HỒNG NHUNG - Cơ quan chủ trì: Đại học Sư phạm Kỹ thuật Thành phố Hồ Chí Minh - Thời gian thực hiệ n: 2/2013 đến 11/2013 Mục tiêu Đề tài nghiên cứu ứng dụng c phương pháp Bootstrap tốn ước lượng kiểm định Tính sáng tạo Trình bày tốn ước lượng bootstrap, kiểm định bootstrap cho tham số thống kê cụ thể trung bình, tỷ lệ, hệ số tương quan,… Xây dựng thủ tục giải toán kiểm định Bootstrap phần mềm Matlab Kết nghiên cứu Trình bày toán ước lượng kiểm định Bootstrap Sử dụng phần mềm Matlab xây dựng thủ tục tính kho ảng ước lượng Bootstrap giải toán kiểm định Bootstrap Hiệu quả, phƣơng thức chuyể n giao kết nghiên cứu khả áp dụng Tài liệu tham khảo cho sinh, học viên cao học chuyên ngành Xác suất Thống kê đối tượng sử dụng phương pháp Bootstrap nghiên cứu Tr ƣởng Đơn vị Chủ nhiệm đề tài (ký, họ tên) (ký, họ tên) INFORMATION ON RESEARCH RESULTS General information: Project title: Some applications of Bootstrap method Code number: T2013-156 Coordinator: ME Nguyễ n Hồ ng Nhung –HCMC University of Technical Education Implementing institution: HCMC University of Technical Education Duration: from 2/2013 to 11/2013 Objective(s): Study the applications of Bootstrap with confidence intervals and hypothesis test Creativeness and innovativeness: It is shown that the Bootstrap intervals and hypothesis testing with the Bootstrap for average, percentage, correlation,… Developprocedures tosolve the hypothesis testing with the Bootstrap by Matlab software Research results: It is shown that the Bootstrap confidence intervals and hypothesis testing with the Bootstrap UsingMatlabsoftwareto developprocedures in finding the confidence intervals Bootstrap and solving the hypothesis testing with the Bootstrap Effects, transfer alternatives of reserach results and applicability: Referencesto students, post-graduate studentsmajoring inStatisticsandProbability and who using Bootstrapmethodsinthe study MỞ ĐẦU Tổ ng quan tình hình nghiên cứu thuộc lĩnh vực đề tài nƣớc Phương pháp Bootstrap phương pháp coi mẫu gốc ban đầu đóng vai trị tổng thể mà từ rút Từ mẫu ban đầu lấy lại mẫu ngẫu nhiên cỡ với mẫu gốc phương pháp lấy mẫu có hồn lại, gọi mẫu bootstrap Phương pháp Bootstrap B.Efron đề xuất vào năm 1970 phương pháp lấy mẫu khác so với phương pháp truyề n thống chỗ cho phép xử lý nhiều lần với mẫu gốc ban đầu Hiện phổ biến phát triển c máy tính khắc nhược điểm phương pháp có khối lượng tính tốn lớn Chính phương pháp Bootstrap ngày phát triển phổ biế n rộng rãi Tính cấp thiết Trong thống kê, Bootstrap xem phương pháp giải bất định c toán thống kê cỡ mẫu nhỏ mà không c ần giả thuyết phân phối xác suất tham số thống kê cần nghiên cứu Việc nghiên cứu phát triển phương pháp Bootstrap thu hút quan tâm nhiều nhà khoa học giới Phương pháp phổ biến rộng rãi nhiều trường đại học giới giảng dạy cho sinh viên cách s dụng.Vì việc tìm hiểu, nghiên cứu phổ biến ứng dụng phương pháp Bootstrap việc làm cấp thiết Mục tiêu Mục tiêu đề tài tìm hiểu ứng dụng phương pháp Bootstrap toán ước lượng kiểm định gi ả thuyết thống kê Trình bày bước tìm khoảng lượng Bootstrap tham số thống kê cụ thể Xây dựng thủ tục kiểm định Bootstrap cho toán kiểm định mẫu toán kiểm định hai mẫu Cách tiếp cận Để giải quết vấn đề trên, đề tài sử dụng kết lý thuyết thống kê cổ điển toán ước lượng kiểm định, từ xây dựng tốn ước lượng kiểm định Bootstrap Phƣơng pháp đối tƣợng phạm vi nghiên cứu Tìm hiểu sở c phương pháp Bootstrap ứng dụng phương pháp Nghiên cứu sử dụng phần mềm Matlab giải toán tìm khoảng ước lượng Bootstrap kiểm định Bootstrap cụ thể Nội dung nghiên cứu Bản báo cáo đề tài gồm phần mở đầu, ba chương nội dung phần kết luận Chương trình bày xuất xứ ý nghĩa đề tài tìm hiểu ứng dụng c phương pháp Bootstrap, nội dung phương pháp Bootstrap ước lượng sai số tiêu chuẩn cho tham số trung bình, tương quan, độ lệch Sử dụng phần mềm Matlab lấy mẫu Bootstrap t tính giá trị tham số mẫu Bootstrap Chương trình bày cách tìm khoảng ước lượng Bootstrap-t, kho ảng ước lượng Bootstrap phần trăm khoảng ước lượng Bootstrap BCa Sử dụng phần mề m Matlab lập chương trình tìm số khoảng lượng Bootstrap mẫu c ụ thể Chương trình bước kiểm định giả thuyết Bootstrap mẫu hai mẫu cho tham số trung bình t ỷ lệ Sử dụng phần mềm Matlab l ập chương trình kiểm định giả thuyết Bootstrap mẫu hai mẫu cho tham số trung bình tỷ lệ Ta có hai mẫu gốc X = X1, X2, … , bình mẫu trung bình mẫu chung Từ hai mẫu gốc x = x,y Rút ngẫu nhiên có hoàn l ại từ mẫu chung bootstrap độc lập ,y y∗ ∗ , … ,y k1 ∗ k2 bootstrap ta thu b giá trị kiểm định = vớix∗ k = σ∗2 X Khi ta có giá trị bootstrap ước lượng cho P-giá trị ⋕ Tk∗ ≥ t ) B với t= Ta bác bỏ giả thuyết H0 với mức ý nghĩa α P-giá trị bootstrap ⋕ T ∗ B k ≥ t) ≤ Sử dụng phần mềm matlab ta xây dựng thủ tục tính P-giá trị bootstrap tốn kiểm định giả thuyết so sánh hai tỷ lệ >> load data1.m; n−1 41 > load data2.m; > xbar1=mean(data1); %trung bình m ẫu gốc > xbar2=mean(data2); %trung bình m ẫu gốc >>n1=length(data1);% cỡ mẫu >>n2=length(data2);% cỡ mẫu >>zbar=(1/ (n1+n2))*(sum(data1)+sum(data2)); > nsam1=data1-xbar1+zbar; % t ạo mẫu gốc > nsam2=data2-xbar2+zbar; % t ạo mẫu gốc > b=1000; % số lượng mẫu bootstrap > inds1= unidrnd(n1,n1,b); > xboot1 = nsam1(inds1); > inds2= unidrnd(n2,n2,b); > xboot1 = nsam2(inds2); > Tstar=zeros(b,1);%t ạo biến chứa T* giá trị > for i=1:b xstar1=mean(xboot1(:,i)); xstar2=mean(xboot2(:,i)); sigmastar1=std(xboot1(:,i)); sigmastar2=std(xboot2(:,i)); Tstar(i)=(xstar1-xstar2)/sqrt(sigmastar1^2/n1+sigmastar^2/n2); end >>tval=(xbar1-xbar2)/ sqrt(std(data1)^2/n1+std(data2)^2/n2); >> for i=1:b if abs(Tstar(i))>=abs(tval),d=d+1;end end >> Pval=d/b % P giá trị 42 2Ki ểm đị nh Bootstrap so sánh hai t ỷ l ệ Cho X = từ hai tổng thể có tỷ lệ tính chất A PX PY với Ta có tốn kiểm định giả thuyết Với điều kiện PX = PY ta đặt Xi = Xi − FX + FvàYi = Yi − FY + F với F = Ta có hai mẫu gốc X = mẫu tỷ lệ mẫu chung Từ hai mẫu gốc x = x,y Rút ngẫu nhiên có hồn l ại từ mẫu chung bootstrap y ∗ k1 bootstrap ta thu b giá trị kiểm định vớif∗ Khi ta có giá trị bootstrap ước lượng cho P-giá trị ⋕ Tk∗ ≥ t ) B 43 với n f= x n i=1 Ta bác bỏ giả thuyết H0 với mức ý nghĩa α P-giá trị bootstrap ⋕ T∗ B k ≥ t) ≤ Sử dụng phần mềm matlab ta xây dựng thủ tục tính P-giá trị bootstrap toán kiểm định giả thuyết so sánh hai tỷ lệ > load data1.m; > load data2.m; > fbar1=mean(data1); %tỷ lệ mẫu gốc > fbar2=mean(data2); %tỷ lệ mẫu gốc >>n1=length(data1);% cỡ mẫu >>n2=length(data2);% cỡ mẫu >>fbar=(1/ (n1+n2))*(sum(data1)+sum(data2)); > nsam1=data1-fbar1+fbar; % tạo mẫu gốc > nsam2=data2-fbar2+fbar; % tạo mẫu gốc > b=1000; % số lượng mẫu bootstrap > inds1= unidrnd(n1,n1,b); > xboot1 = nsam1(inds1); > inds2= unidrnd(n2,n2,b); > xboot1 = nsam2(inds2); > Tstar=zeros(b,1);%t ạo biến chứa T* giá trị 44 > for i=1:b fstar1=mean(xboot1(:,i)); fstar2=mean(xboot2(:,i)); fbarstar=(1/ (n1+n2))*(sum(xboot1(:,i))+sum(xboot2(:,i))); Tstar(i)=(fstar1-fstar2)/sqrt((fstar*(1-fstar))*(1/n1+1/n2)); end >>tval=(fbar1-fbar2)/ sqrt((fbar*(1-fbar))*( 1/n1+1/n2)); >> for i=1:b if abs(Tstar(i))>=abs(tval),d=d+1;end end >> Pval=d/b % P giá trị Kiểm đị nh Bootstrap toán mẫu Cho X = X1, X2,… , Xn mẫu ngẫu nhiên có phân phối F chưa biết Giả sử ta có tốn kiểm định giả thuyết: Giả thuyết H0: F=F0 Đối thuyết H1: F≠F0 Giả sử T tiêu chuẩn kiểm định tốn Ta có P-giá trị P T ≥ t điều kiệ n giả thuyết H0 Ta bác bỏ giả thuyết H0 với mức ý nghĩa α P T ≥ t ≤ Rút ngẫu nhiên có hồn l ại từ mẫu gốc ban đầu x = mẫu bootstrap độc lập cỡ với mẫu gốc x∗ = k Áp dụng tiêu chuẩn thống kê T lên b mẫu bootstrap ta thu b giá trị kiểm định Tk∗ = T xk∗ , k=1, 2, …, b Khi ta có giá trị bootstrap ước lượng cho P-giá trị ⋕ ≥t) T∗k với t = T x B Ki ểm đị nh Bootstrap so sánh trung bì nh với µ0 cho trƣớc 45 X1, X2,… , X Cho X = trung bình µX Ta có tốn kiểm định giả thuyết Giả thuyết H0: µ Đối thuyết H1: µ Với điều kiện µX = µ0 ta đặt X =X i i Ta có mẫu gốc X = X1, X2,… , Xn có trung bình mẫu µ0 Rút ngẫu nhiên có hồn l ại từ mẫu gốc x = ∗ bootstrap độc lập cỡ với mẫu gốc x = Áp dụng tiêu chuẩn thống kê T lên b mẫu bootstrap ta thu b giá trị kiểm định T ∗ = k k x∗ − x∗ x ∗ −μ σ ∗X2 n , ki k=1, 2, …, b k với xk = Khi ta có giá trị bootstrap ước ⋕ Tk∗ ≥ t ) B với t= n Ta bác bỏ giả thuyết H0 với mức ý nghĩa α P-giá trị bootstrap ⋕ T ∗ B k ≥ t) ≤ 46 Sử dụng matlab gi ải tốn kiểm định giả thuyết chiều cao trung bình nam sinh viên năm khoa chất lượng cao 1.7m >> load hightclc1.m >>xbar=mean(hightclc1); % trung bình m ẫu gốc >>muy0=1.7; >>nsam=hightclc1-xbar+muy0; % t ạo mẫu gốc > n=length(nsam); > b=1000; % số lượng mẫu bootstrap >>inds= unidrnd(n,n,b); >>xboot = nsam(inds); > Tstar=zeros(b,1);%t ạo biến chứa T* giá trị > for i=1:b xstarbar=mean(xboot(:,i)); sigmastar=std(xboot(:,i)); Tstar(i)=((xstarbar-muy0)*sqrt(n))/sigmastar; end >>tval=((xbar-muy0)*sqrt(n))/std(hightclc1); >> for i=1:b if abs(Tstar(i))>=abs(tval),d=d+1;end end >> Pval=d/b % P giá trị Pval = 0.0080 P giá trị nhỏ ta kết luận giả thuyết chiều cao trung bình nam sinh viên năm khoa chất lượng cao 1.7m sai 47 2 Ki ểm đị nh Bootstrap so sánh t ỷ l ệ với P cho trƣớc Cho X = X1, X2,… , Xn mẫu ngẫu nhiên rút t tổng thể có tỷ lệ tính chất A PX với Xi = Ta có tốn kiểm định giả thuyết i Với điều kiện PX = P0 ta đặt: , Xn có tỷ lệ mẫu P0 X i X1, X2,… Ta có mẫu gốc X = Rút ngẫu nhiên có hồn l ại từ mẫu mẫu gốc x = ∗ mẫu bootstrap độc lập cỡ với mẫu gốc x = k b Áp dụng tiêu chuẩn thố ng kê T lên b mẫu bootstrap ta thu b giá trị kiểm định vớif∗ xk Khi ta có giá trị bootstrap ước lượng cho P-giá trị ⋕ Tk∗ ≥ t ) B với t= n Ta bác bỏ giả thuyết H0 với mức ý nghĩa α P-giá trị bootstrap 48 ⋕T ∗ k ≥ t) B ≤ Sử dụng phần mềm matlab ta xây dựng thủ tục tính P-giá trị bootstrap tốn kiểm định giả thuyết so sánh t ỷ lệ p với p0 cho trước >> load data.m >>fbar=mean(data); %tỷ lệ mẫu gốc >>P0=input('nhap P0'); >>nsam=data-fbar+p0; % tạo mẫu gốc > n=length(nsam); > b=1000; % số lượng mẫu bootstrap >>inds= unidrnd(n,n,b); >>xboot = nsam(inds); > Tstar=zeros(b,1);%t ạo biến chứa T* giá trị > for i=1:b fstar=mean(xboot(:,i)); Tstar(i)=((fstarbar-P0)*sqrt(n))/sqrt(fstar*(1-fstar)); end >>tval=((fbar-P0)*sqrt(n))/ sqrt(fbar*(1-fbar)); >> for i=1:b if abs(Tstar(i))>=abs(tval),d=d+1;end end >> Pval=d/b % P giá trị 49 KẾT LUẬN VÀ KIẾN NGHỊ Đề tài hồn thành mục tiêu đặt trình bày c ụ thể cách tìm khoảng ước lượng Bootstrap bước tiến hành kiểm định giả thuyết Bootstrap Đề tài trình bày cách tìm kho ảng ước lượng Bootstrap kiểm định giả thuyết Bootstrap phần mề m Matlab Nội dung báo cáo phù hợp cho đối tượng cần tìm hiểu cách sử dụng phương pháp Bootstrap trình nghiên cứu, học tập họ Đề tài tiếp tục mở rộng tiếp tục tìm hiểu ứng dụng khác phương pháp Bootstrap toán thống kê khác tương quan, hồi quy,… Mặc dù tác giả có cố gắng việc thực báo cáo, song khơng tránh khỏi sai sót.Rất mong đóng góp ý kiến quý thầy cô bạn đọc quan tâm Tp.HCM, ngày 25 tháng 11 năm 2013 Tác giả Nguyễn Hồng Nhung 50 TÀI LIỆU THAM KHẢO [1] A.C Davidson and D.V.Hinkley Bootstrap methods and their Application.Cambridge Series in Statistical and Probabilistic Mathematics (1997) [2] Bradley Efron (1994) An Introduction to the Bootstrap Chapman & Hall/CRC, Inc., Publication [3] Micheal R.Chernick Bootstrap Methods A Guide for Practitionners and Researcher Wiley series in Probability and Statistics.(2008) [4] Jaan Kiusalaas (2005) Numerical Methods in Engineering with MATLAB.Cambridge university press [5]Phan Thanh Tao Giáo Trình Matlab cho sinh viên ngành kĩ thuật.Trường Đại học Bách Khoa, Đại học Đà Nẵng (2004) [6] Wendy L Martinez and Angel R Martinez Computational Statistics Handbook with MATLA.CHAPMAN & HALL/CRC.Boca Raton London New York Washington,D.C (2002) 51 ... PHỐ HỒ CHÍ MINH BÁO CÁO TỔNG KẾT ĐỀ TÀI KH&CN CẤP TRƯỜNG MỘT SỐ ỨNG DỤNG CỦA PHƯƠNG PHÁP BOOTSTRAP TRONG XỬ LÝ SỐ LIỆU THỐNG KÊ Mã số: T2013-156 Chủ nhiệm đề tài: Th.S NGUYỄN HỒNG NHUNG TP HCM,... KHOA HỌC CƠ BẢN BÁO CÁO TỔNG KẾT ĐỀ TÀI KH&CN CẤP TRƯỜNG MỘT SỐ ỨNG DỤNG CỦA PHƯƠNG PHÁP BOOTSTRAP TRONG XỬ LÝ SỐ LIỆU THỐNG KÊ Mã số: T2013-156 Chủ nhiệm đề tài: Th.S Nguyễn Hồng Nhung TP HCM,... 2013 THÔNG TIN KẾT QUẢ NGHIÊN CỨU Thông tin chung: Tên đề tài: MỘT SỐ ỨNG DỤNG CỦA PHƢƠNG PHÁP BOOTSTRAP TRONG XỬ LÝ SỐ LIỆU THỐNG KÊ - Mã số: T2013-156 - Chủ nhiệm: Th.S NGUYỄN HỒNG NHUNG - Cơ

Ngày đăng: 28/12/2021, 20:56

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan