Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 59 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
59
Dung lượng
444,29 KB
Nội dung
ĐẠI HỌC QUỐC GIA HÀ NỘI ĐẠI HỌC KHOA HỌC TỰ NHIÊN PHẠM THỊ HOA MỘT SỐ TIÊU CHUẨN LỰA CHỌN MƠ HÌNH LUẬN VĂN THẠC SĨ KHOA HỌC Hà Nội - 2013 ĐẠI HỌC QUỐC GIA HÀ NỘI ĐẠI HỌC KHOA HỌC TỰ NHIÊN PHẠM THỊ HOA MỘT SỐ TIÊU CHUẨN LỰA CHỌN MƠ HÌNH Chun ngành: LÝ THUYẾT XÁC SUẤT VÀ THỐNG KÊ TOÁN HỌC Mã số : 60 46 15 LUẬN VĂN THẠC SĨ KHOA HỌC NGƯỜI HƯỚNG DẪN KHOA HỌC TS TRẦN MẠNH CƯỜNG Hà Nội - 2013 MỞ ĐẦU Lựa chọn mơ hình (Model selection) toán thống kê nhiều ngành khoa học khác học máy (machine learning), kinh tế lượng (econometrics), Theo R A Fisher có tốn thống kê suy luận dự báo gồm - Xác định mơ hình (model specification) - Ước lượng tham số (estimation of model parameters) - Dự báo (prediction) Trước năm 1970 hầu hết nghiên cứu tập trung vào hai toán sau với giả thiết mơ hình biết Sau xuất cơng trình Akaike (1973) tốn lựa chọn mơ hình thu hút quan tâm cộng đồng làm thống kê Với liệu đưa ra, đặt vào nhiều mơ hình với mơ hình đưa ra, mơ hình tốt nhất? Để trả lời cho câu hỏi trên, người ta đưa tiêu chuẩn thơng tin để lựa chọn mơ hình phù hợp tiêu chuẩn thông tin Akaike (AIC) tiêu chuẩn thông tin Bayesian (BIC) Việc lựa chọn mơ hình phù hợp trung tâm cho tất công tác thống kê với liệu Lựa chọn biến để sử dụng mơ hình hồi quy ví dụ quan trọng Luận văn tơi trình bày hai tiêu chuẩn thơng tin quan trọng tiêu chuẩn thơng tin Akaike tiêu chuẩn thông tin Bayesian Luận văn chia làm ba chương Chương Kiến thức chuẩn bị Trong chương này, tơi trình bày kiến thức lượng thơng tin Fisher, ước lượng hợp lí cực đại, dạng phân tích hồi quy hồi quy tuyến tính, hồi quy Poisson hồi quy logistic Chương Một số tiêu chuẩn lựa chọn mơ hình Chương này, trình bày khoảng cách Kullback- Leibler, mối liên hệ ước lượng hợp lí cực đại khoảng cách Kullback-Leibler, định nghĩa AIC mối liên hệ AIC khoảng cách Kullback-Leibler, tiêu chuẩn Takeuchi, AIC hiệu chỉnh cho hồi quy tuyến tính chuỗi thời gian tự hồi quy, trình bày nguồn gốc định nghĩa BIC Chương Áp dụng Trong chương giới thiệu phần mềm R, đưa liệu cụ thể bốn phép đo hộp sọ người Ai cập năm thời kỳ khác lấy website: ”www.econ.kuleuven.be/gerda.claeskens/public/modelselection.”, i áp dụng với năm mơ hình ứng cử viên dùng phần mềm R chạy để tìm giá trị AIC BIC cho số năm mơ hình ứng cử viên để tìm mơ hình tốt theo AIC BIC liệu này, code R tham khảo website Do thời gian trình độ cịn hạn chế nên luận văn khơng tránh khỏi thiếu sót, tác giả hy vọng nhận nhiều ý kiến đóng góp từ thầy cô giáo bạn đọc để luận văn hoàn chỉnh ii LỜI CẢM ƠN Sau thời gian học tập khoa Toán - Cơ - Tin học, Trường Đại học Khoa học Tự nhiên, hướng dẫn bảo tận tình TS Trần Mạnh Cường, tơi hồn thành luận văn tốt nghiệp với đề tài: “Một số tiêu chuẩn lựa chọn mô hình” Trong suốt trình học tập, triển khai nghiên cứu đề tài, nhận nhiều giúp đỡ thầy cô môn Xác suất thống kê, thầy khoa Tốn - Cơ - Tin học, trường Đại học Khoa học Tự nhiên, Đại học Quốc gia Hà Nội, đặc biệt TS Trần Mạnh Cường Tơi xin bày tỏ lịng biết ơn chân thành sâu sắc tới TS Trần Mạnh Cường – người tận tình bảo, giúp đỡ tơi q trình nghiên cứu đề tài Tơi xin gửi lời cảm ơn tới Ban giám hiệu, Phòng sau đại học, thầy khoa Tốn - Cơ - Tin học nói chung thầy môn xác suất thống kê Trường Đại học Khoa học Tự nhiên nói riêng tạo điều kiện thuận lợi để tơi hồn thành luận văn Hà nội, tháng 02 năm 2013 iii Danh mục kí hiệu AIC AICc a.s BIC BIC∗ BICexact h(.) H(.) KL L, Ln `, `n Np (ξ, P Op (n−1 ) Var d → − p → − TIC Tr ) Tiêu chuẩn thông tin Akaike AIC hiệu chỉnh hầu chắn tiêu chuẩn thông tin Bayesian xấp xỉ BIC BIC xác tỷ lệ nguy hiểm tỷ lệ nguy hiểm tích lũy khoảng cách kullback - Leibler hàm hợp lý loga hàm hợp lý phân phối chuẩn p biến ngẫu nhiên với vectơ trung bình ξ P ma trận phương sai Xn = Op (n−1 ) nghĩa Xn /n−1 hội tụ tới theo xác suất phương sai hội tụ theo phân phối hội tụ theo xác suất tiêu chuẩn thông tin Takeuchi vết ma trận kết thúc chứng minh ví dụ iv Mục lục Lời cảm ơn iii Kiến thức chuẩn bị 1.1 Lượng thông tin Fisher 1.2 Ước lượng hợp lý cực đại 1.3 Hồi quy tuyến tính 1.3.1 Giới thiệu mơ hình hồi quy tuyến tính cổ điển 1.3.2 Phương pháp ước lượng bình phương cực tiểu 1.3.3 Tính chất ước lượng phương pháp bình phương cực tiểu 1.4 Hồi quy Poisson 1.5 Hồi quy logistic 1 4 7 Một số tiêu chuẩn lựa chọn mơ hình 2.1 Tiêu chuẩn thông tin Akaike 2.1.1 Khoảng cách Kullback- Leibler 2.1.2 Ước lượng hợp lý cực đại khoảng cách Kullback- Leibler 2.1.3 Định nghĩa AIC 2.1.4 AIC khoảng cách Kullback- Leibler 2.1.5 Tiêu chuẩn Takeuchi 2.1.6 AIC hiệu chỉnh cho hồi quy tuyến tính 2.2 Tiêu chuẩn thông tin Bayesian(BIC) 2.2.1 Nguồn gốc BIC 2.2.2 Định nghĩa BIC 2.2.3 Ai người viết ’The Quiet Don’ ? 10 10 10 11 17 19 24 25 28 28 30 35 Áp dụng 38 3.1 Giới thiệu phần mềm R 38 3.2 Áp dụng với số liệu 38 v MỤC LỤC Kết luận 46 Phụ lục 47 Tài liệu tham khảo 51 vi Chương Kiến thức chuẩn bị 1.1 Lượng thông tin Fisher Định nghĩa 1.1.1 Cho X biến ngẫu nhiên vectơ ngẫu nhiên có phân bố phụ thuộc vào tham số chưa Luan van Luan an Do an Chương Một số tiêu chuẩn lựa chọn mơ hình mơ hình ứng cử viên M, với dim(M) số tham số ước lượng mơ hình n kích thước mẫu liệu Mơ hình với giá trị BIC cao chọn mô hình tốt BIC (2.22) xây dựng tương tự AIC (2.5), với hình phạt mạnh cho mơ hình phức tạp (với n ≥ 8) Bây hoạt động BIC danh sách ví dụ Ví dụ 2.2.1 Phân phối mũ Weibull Đối với mô hình weibull, ta có hàm hợp lý Ln (y, θ, γ) = e−θ ⇒ `n (θ, γ) = −θγ Pn γ i=1 yi γ Pn i=1 yiγ θnγ γ n + nγ lnθ + nlnγ + (γ − 1) Qn i=1 yiγ−1 Pn i=1 lnyi Để lựa chọn mơ hình tốt theo BIC tính BIC(wei) = n X ˆ i )γˆ + γˆ lnθˆ + lnγˆ + (ˆ {−(θy γ − 1)lnyi } − 2lnn i=1 Với γ = tương ứng với mơ hình mũ, ta có BIC(exp) = n X e i ) − lnn, (lnθe − θy i=1 ˆ γˆ ) ước lượng hợp θe ước lượng hợp lý cực đại cho θ mơ mũ, (θ, lý cực đại mơ hình Weibull Mơ hình tốt có giá trị BIC cao nhất. Ví dụ 2.2.2 Dữ liệu trọng lượng sinh thấp Mơ hình Giá trị BIC Thứ tự Mơ hình Giá trị BIC x1 -239.914 (2) x1 , x3 , x4 -246.471 x1 , x2 -239.174 (1) x1 , x3 , x5 -246.296 x1 , x3 -242.395 (4) x1 , x4 , x5 -245.387 x1 , x4 -243.502 x1 , x2 , x3 , x5 -247.644 x1 , x5 -243.382 x1 , x2 , x4 , x5 -244.226 x1 , x2 , x3 -242.849 (5) x1 , x3 , x4 , x5 -249.094 x1 , x2 , x4 -240.800 (3) x1 , x2 , x3 , x4 -245.142 x1 , x2 , x5 -243.826 x1 , x2 , x3 , x4 , x5 -248.869 Bảng 2.2 Các giá trị BIC cho liệu trọng lượng sinh thấp Chúng ta xem xét biến tương tự ví dụ 2.1.6 Đó 31 Mssv.BKD002ac.email.ninhddtt@edu.gmail.com.vn Luan van Luan an Do an Chương Một số tiêu chuẩn lựa chọn mô hình số đánh chặn x1 = 1; x2 trọng lượng người mẹ trước mang thai; x3 tuổi người mẹ; x4 chủng tộc đen; x5 chủng tộc khác x4 = x5 chủng tộc trắng Đối với mơ hình hồi quy logistic tìm BIC có cơng thức BIC = n X {yi lnpˆi + (1 − yi )ln(1 − pˆi } − length(β)lnn, i=1 pˆi ước lượng xác suất cho Yi = length(β) số hệ số hồi quy ước lượng Kích thước mẫu n = 189, với ln189 ≈ 5.2417 Các giá trị BIC dễ dàng đạt từ công thức R qua hàm AIC(fitted.object,k=log(sample.size)) Trong bảng 2.2 kiểm tra 24 mơ hình mà bao gồm số đánh chặn x1 = Theo bảng 2.2, mơ hình BIC tốt mơ hình chứa biến x2 thêm vào số đánh chặn Ước lượng hệ số đánh chặn với mơ hình 0.998, với tham số ước lượng độ dốc −0.014 cho x2 , dẫn đến mơ hình phù hợp: Pˆ (trọng lượng sinh thấp| x2 ) = exp(0.998−0.014x2 ) 1+exp(0.998−0.014x2 ) Mơ hình tốt thứ hai mơ hình gồm x1 , mơ hình chứa x2 x4 Mơ hình kí hiệu (3) mơ hình tốt AIC, mơ hình tốt thứ hai AIC mơ hình chứa x2 , x4 , x5 Ở ý khuynh hướng BIC để lựa chọn mơ hình với biến mơ hình chọn AIC. Có thuận lợi khó khăn khác so sánh hai tiêu chuẩn AIC BIC Nhưng BIC đáp ứng đầy đủ khuyết điểm AIC, khơng thành cơng việc phát mơ hình thật với xác suất kích thước mẫu tăng lên.Tiêu chuẩn BIC có xu hướng lựa chọn mơ hình đơn giản Bây xem xét ví dụ sau Ví dụ 2.2.3 Tỷ lệ tử vong Ai Cập cổ đại Bao lâu cho sống? Một tập hợp tuổi thọ La Mã Ai Cập thu thập W.Spiegelberg vào năm 1901 phân tích Karl 32 Mssv.BKD002ac.email.ninhddtt@edu.gmail.com.vn Luan van Luan an Do an Chương Một số tiêu chuẩn lựa chọn mơ hình Pearson (1902) Bộ liệu chứa tuổi tử vong 141 xác ướp Ai Cập thời kỳ La Mã, 82 đàn ông 59 phụ nữ, có niên đại từ 100 năm trước cơng ngun Tuổi thọ thay đổi từ đến 96 Pearson cho chúng coi mẫu ngẫu nhiên Chúng ta sử dụng AIC để lựa chọn mơ hình tốt sưu tập nhỏ mơ hình tham số ứng cử viên cho tỷ lệ tử vong Đối với mô hình đề xuất f (t, θ), cực đại loga hàm hợp lý `n (θ) = n X logf (ti , θ), i=1 với t1 , , tn tuổi thọ sau tính toán ˆ − 2p, AIC = 2`n (θ) với p độ dài θ Chúng ta xét mô hình sau: Mơ hình theo luật số mũ, với mật độ b.exp(−bt) Mơ hình Gamma, với mật độ {ba /Γ(a)}ta−1 exp(−bt) Mơ hình loga chuẩn, với mật độ tương ứng Φ{(logt − µ)/σ}/(σt) Mơ hình Gompertz mà đưa đến tỷ lệ tử vong nguy hiểm h(t) = f (t)/F [t, ∞) Mơ hình tương ứng với mật độ f (t) = exp{−H(t)}h(t), với Rt H(t) = h(s)ds = (a/b){exp(bt) − 1} tỷ lệ nguy hiểm tích lũy Mơ hình Makeham mở rộng Gompertz, với tỷ lệ nguy hiểm h(t) = k + a.exp(bt), với k mà k + a.exp(bt0 ) > 0, t0 tuổi nhỏ (t0 = 1) Mơ hình sử dụng tham số (a, b) cho nam nữ Mơ hình sử dụng (a, b1 ) (a, b2 ) cho nam nữ (cùng có tham số a) Mơ hình sử dụng (a1 , b) (a2 , b) cho nam nữ (cùng có tham số b) Mơ hình sử dụng (a1 , b1 ) (a2 , b2 ) mà khơng có tham số chung cho hai nhóm 33 Mssv.BKD002ac.email.ninhddtt@edu.gmail.com.vn Luan van Luan an Do an Chương Một số tiêu chuẩn lựa chọn mơ hình Các tham số Mơ hình 1, b Mơ hình 2, a, b Mơ hình 3, µ, σ Mơ hình 4, a, b Mơ hình 5, k, a, b Mơ hình 6, a, b Mơ hình 7, a, b1 , b2 Mơ hình 8, a1 , b, a2 Mơ hình 9, a1 , b1 , a2 , b2 Các tham số ước lượng 0.033 1.609 0.052 3.082 0.967 0.019 0.021 -0.012 0.029 0.016 0.019 0.021 0.019 0.018 0.026 0.016 0.024 0.022 0.016 0.024 0.022 0.020 ˆ `n (θ) -623.777 -615.386 -629.937 -611.353 -611.319 -611.353 -610.076 -608.520 -608.520 AIC -1249.553 (7) -1234.772 (6) -1263.874 (8) -1226.706 (4) -1228.637 (5) -1226.706 (4) -1226.151 (3) -1223.040 (1) -1225.040 (2) Bảng 2.3 Tỷ lệ tử vong Ai Cập cổ đại: Các tham số ước lượng, cực đại loga hàm hợp lý điểm số AIC cho mơ hình Các tham số Mơ hình 1, b Mơ hình 2, a, b Mơ hình 3,µ, σ Mơ hình 4, a, b Mơ hình 5, k, a, b Mơ hình 6, a, b Mơ hình 7, a, b1 , b2 Mơ hình 8,a1 , b, a2 Mơ hình 9,a1 , b1 , a2 , b2 ˆ `n (θ) -623.777 -615.386 -629.937 -611.353 -611.319 -611.353 -610.076 -608.520 -608.520 BIC -1252.503 -1240.670 -1269.772 -1232.604 -1237.484 -1232.604 -1234.998 -1231.886 -1236.835 Thứ tự (7) (6) (8) (2) (5) (2) (3) (1) (4) Bảng 2.4 Tỷ lệ tử vong Ai Cập cổ đại: Cực đại loga hàm hợp lý điểm số BIC cho mơ hình ứng cử viên Các giá trị BIC cho số mơ hình thu dễ dàng cách sử dụng bảng 2.3, kết giới thiệu bảng 2.4 Các giá trị cực đại ˆ Chúng ta tính tốn loga hàm hợp lý tìm thấy cột `n (θ) ˆ − plnn, BIC = 2`n (θ) với p độ dài θ n = 141, lnn = 4.949 Hình phạt BIC ngặt AIC Mơ hình có tham số, kết BIC1 = 2(−623.777) − ln141 = −1252.503 Mô hình 2, 3, có hai tham số Trong số mơ hình này, mơ hình Gompertz (mơ hình 4) tốt có điểm số BIC cao Các mơ hình 5, 7, có tham số, với giá trị BIC đưa bảng Mơ hình tốt danh sách mơ hình ứng cử viên theo cách chọn BIC 34 Mssv.BKD002ac.email.ninhddtt@edu.gmail.com.vn Luan van Luan an Do an Chương Một số tiêu chuẩn lựa chọn mơ hình Như mơ hình tốt hai tiêu chuẩn AIC BIC trùng Lượng phạt BIC liệu lớn nặng AIC, mơ hình lớn nhận hình phạt nặng Điều rõ ràng cách xem xét mơ hình 9, mơ hình có xếp hạng với AIC, nhận xếp hạng thấp BIC Khi kích thước n lớn hình phạt nặng sử dụng BIC Đặc biệt kích thước mẫu lớn mong đợi tìm thấy xếp hạng khác so sánh lựa chọn AIC BIC. 2.2.3 Ai người viết ’The Quiet Don’ ? Giải thưởng Nobel văn học năm 1965 trao cho Mikhail Sholokhov (1905 − 1984) cho sử thi And Quiet Flows the Don The Quiet Don sống đời xã hội Liên Xô Cossack Riêng nước Nga, sách ông xuất ngàn bản, bán tổng số sáu mươi triệu Nhưng vào mùa thu năm 1974, báo xuất Paris viết nhà phê bình tiếng ’D’ Ơng tuyên bố ’The Quiet Don’ viết tất Sholokhov, mà viết Fiodor Kriukov tác giả, người chiến đấu chống lại chủ nghĩa Bônsevich năm 1920 Bài viết tín nhiệm uy tín khơng có khác so với Aleksandr Solzhenitsyn (được trao giải Nobel năm năm sau Sholokhov) Có phải phải đối mặt với trường hợp trộm cắp trắng trợn lịch sử văn học? Câu hỏi nguồn gốc tác giả T heQuietDon0 thiết lập số hạng việc lựa chọn mơ hình: M1 : Tuyển tập văn Sh QD từ phân phối thống kê, Kr biểu diễn phân phối thống kê khác; M2 : Sh thống kê thích hợp với Kr QD, nhiên đến từ phân phối; M3 : Sh, Kr, QD biểu diễn phân phối thống kê khác Ký hiệu θSh , θKr , θQD cho vectơ tham số (p, ξ, a, b), tương ứng với Sh, Kr, QD Mơ hình M1 có θSh = θQD θKr khác; mơ hình M2 có θKr = θQD θSh khác; cuối mơ hình M3 cho phép khả mà ba vectơ tham số khác Đối với phân tích liên quan theo sau BIC sử dụng tham số ước lượng dựa vào liệu thô cho mơ hình riêng biệt Sh, Kr, QD, chẳng hạn tổng số câu thực Các giá trị tham số tìm thấy giá trị số cách sử dụng n l m R : 35 Mssv.BKD002ac.email.ninhddtt@edu.gmail.com.vn Luan van Luan an Do an Chương Một số tiêu chuẩn lựa chọn mơ hình θˆSh se θˆKr se θˆQD se p 0.184 0.021 0.057 0.023 0.173 0.022 ξ 9.099 0.299 9.844 0.918 9.454 0.367 a 2.093 0.085 2.338 0.092 2.114 0.090 b 0.163 0.007 0.178 0.008 0.161 0.007 Độ lệch tiêu chuẩn (se) đạt từ ước lượng ma trận thông tin Fisher nghịch đảo Cho cách tổng quát P (M1 ), P (M2 ), P (M3 ) xác suất tiên nghiệm cho ba khả năng; Solzhennitsyn đưa đến P (M1 ) thấp P (M2 ) cao hơn, chẳng hạn đâu quan sát trung hịa bắt đầu với ba xác suất 1/3 Cho L1 (θ1 ), L2 (θ2 ), L3 (θ3 ) ba hàm hợp lý ký hiệu π1 , π2 , π3 tiên nghiệm sử dụng cho (θSh , θKr , θQD ) = (θ1 , θ2 , θ3 ) Dưới M1 có tiên nghiệm π1,3 cho θ1 = θ3 có tiên nghiệm tương tự π2,3 cho θ2 = θ3 M2 Theo xếp tổng quát cho lựa chọn mơ hình Bayesian, có P (M1 | liệu) = P (M1 )λ1 /{P (M1 )λ1 + P (M2 )λ2 + P (M3 )λ3 }, P (M2 | liệu) = P (M2 )λ2 /{P (M1 )λ1 + P (M2 )λ2 + P (M3 )λ3 }, (2.23) P (M3 | liệu) = P (M3 )λ3 /{P (M1 )λ1 + P (M2 )λ2 + P (M3 )λ3 } Trong số hạng hàm hợp lý quan sát biên duyên Z {L1 (θ)L3 (θ)}L2 (θ2 )π1,3 (θ)π2 (θ2 )dθdθ2 , λ1 = Z {L2 (θ)L3 (θ)}L1 (θ1 )π2,3 (θ)π1 (θ1 )dθdθ1 , λ2 = Z λ3 = L1 (θ1 )L2 (θ2 )L3 (θ3 )π1 (θ1 )π2 (θ2 )π3 (θ3 )dθ1 dθ2 dθ3 , tích phân tương ứng chiều, chiều 12 chiều Bây cho nSh = n1 , nKr = n2 , nQD = n3 Áp dụng phương pháp mục 2.2.1 qua (2.19) với −4/2 λ1 = L1,3 (θˆ1,3 )(2π)4/2 (n1 + n3 )−4/2 |J1,3 |−1/2 π1,3 (θˆ1,3 ) × L2 (θˆ2 )(2π)4/2 n2 |J2 |−1/2 π2 (θˆ2 ), −4/2 λ2 = L2,3 (θˆ2,3 )(2π)4/2 (n2 + n3 )−4/2 |J2,3 |−1/2 π2,3 (θˆ2,3 ) × L1 (θˆ1 )(2π)4/2 n1 |J1 |−1/2 π1 (θˆ1 ), Y −4/2 λ3 = Lj (θˆj )(2π)4/2 nj |Jj |−1/2 πj (θˆj ) j=1,2,3 36 Mssv.BKD002ac.email.ninhddtt@edu.gmail.com.vn Luan van Luan an Do an Chương Một số tiêu chuẩn lựa chọn mơ hình Có thể điều xấp xỉ hồn tồn xác tình Để tiến hành xa hơn, thảo luận khơng có khác biệt thực tiên nghiệm bao gồm Tất khác biệt nguyên tắc liên hệ với đánh giá tiên nghiệm vectơ (p, ξ, a, b) ba phân phối xác suất Tính tốn dẫn đến BIC∗1 = 2(`1,3,max + `2,max ) − 4log(n1 + n3 ) − 4logn2 − log|J1,3 | − log|J2 | + 8log(2π), BIC∗2 = 2(`2,3,max + `1,max ) − 4log(n2 + n3 ) − 4logn1 − log|J2,3 | − log|J1 | + 8log(2π), BIC∗3 = 2(`1,max + `2,max + `3,max ) − 4logn1 − 4logn2 − 4logn3 − log|J1 | − log|J2 | − log|J3 | + 12log(2π) Các tính tốn để tìm ước lượng hợp lý cực đại cho θ chung Sh QD M1 , θ chung Kr QD M2 cuối dẫn đến M1 M2 M3 AIC -79490.8 -79504.4 -79494.5 BIC∗ -79515.5 -79530.6 -79528.6 Chúng ta kết luận liệu độ dài câu nói mạnh mẽ nghiêng người đoạt giải Nobel bác bỏ cáo buộc ’D’ suy đốn Tính tốn mơ hình xác suất hậu nghiệm qua (2.24) đưa đến số gần với cho M2 M3 gần với cho M1 Sử dụng (2.19) với xác suất tiên nghiệm ta 0.998 cho Sholokhov lại 0.002 chia sẻ Kriukov mơ hình trung hịa mà ba tuyển tập khác Thậm chí Solzhenitsyn bắt đầu với P (M1 ) = 0.05 P (M2 ) = 0.95 bị buộc phải sửa đổi xác suất P (M1 ) = 0.99 P (M2 ) = 0.01 Lập luận sử dụng để cung cấp công thức chung cho phân loại, trường hợp mà lớp mật độ mơ hình hóa 37 Mssv.BKD002ac.email.ninhddtt@edu.gmail.com.vn Luan van Luan an Do an Chương Áp dụng 3.1 Giới thiệu phần mềm R R phần mềm phân tích liệu xây dựng Ross Ihaka Robert Gentleman thuộc trường Đại học AucKland, Newzealand tiếp tục phát triển nhóm nhà khoa học R phần mềm sử dụng cho phân tích thống kê đồ thị Về chất R ngôn ngữ máy tính đa dạng, sử dụng cho nhiều mục tiêu khác nhau, từ tính tốn đơn giản, tốn học giải trí, tính tốn ma trận đến phân tích thống kê phức tạp Vì ngơn ngữ người ta sử dụng R để phát triển thành phần mềm chuyên môn cho vấn đề tính tốn cá biệt R cung cấp nhiều phép toán hàm đa dạng để phục vụ cho việc tính tốn, hầu hết hàm số thông dụng hỗ trợ R Ngồi cịn nhiều hàm phục vụ cho cơng việc tính tốn phức tạp nâng cao cung cấp nhiều gói mở rộng dành cho R 3.2 Áp dụng với số liệu Các phép đo hộp sọ người Ai cập thu thập từ nhà khảo cổ học khoảng thời gian khác nhau, với nhìn hướng tới thiết lập sinh trắc học khác nói chung nghiên cứu khía cạnh tiến hóa Dữ liệu bao gồm bốn phép đo số 30 hộp sọ từ năm khoảng thời gian khác nhau, trình bày Thomson Randall-Maciver(1905) Năm khoảng thời gian khoảng 4000 năm trước công nguyên, 3300 năm trước công nguyên, 1850 năm trước công nguyên, 200 năm trước công nguyên, 150 năm sau công nguyên Đối với số 150 hộp sọ, phép đo 38 Mssv.BKD002ac.email.ninhddtt@edu.gmail.com.vn Luan van Luan an Do an Chương Áp dụng đưa sau x1 chiều rộng tối đa hộp sọ (MB) x2 chiều cao hộp sọ (BH) x3 chiều dài hộp sọ (BL) x4 chiều cao mũi (NH) Chúng ta thực lựa chọn mơ hình liệu bao gồm bốn phép đo hộp sọ nam giới Ai cập, sống khoảng thời gian khác Sự quan tâm nằm nghiên cứu xu hướng phép đo theo thời gian cấu trúc tương quan phép đo Giả sử xấp xỉ chuẩn, xây dựng cho khoảng thời gian số bốn phép đo, với độ tin cậy 95% cho số đo trung bình biến Chiều rộng tối đa hộp sọ có xu hướng lên theo thời gian, chiều dài hộp sọ lại có xu hướng xuống Lựa chọn mơ hình liệu hộp sọ Ai cập bắt đầu cách xây dựng danh sách mơ hình Chúng ta sử dụng giả định thông thường Yt,i ∼ N4 (ξt,i , Σt,i ) xem xét vài khả cho mơ hình vectơ trung bình cấu trúc hiệp phương sai.Trong khoảng thời gian giả sử nt = 30, vectơ bốn chiều số đo hộp sọ độc lập phân phối Ta có bảng số liệu bốn số đo hộp sọ nam giới Ai cập sau: MB BH BL NH Năm 131 138 89 49 -4000 125 131 92 48 -4000 131 132 99 50 -4000 119 132 96 44 -4000 136 143 100 54 -4000 138 137 89 56 -4000 139 130 108 48 -4000 125 136 93 48 -4000 131 134 102 51 -4000 134 134 99 51 -4000 129 138 95 50 -4000 134 121 95 53 -4000 126 129 109 51 -4000 132 136 100 50 -4000 141 140 100 51 -4000 131 134 97 54 -4000 39 Mssv.BKD002ac.email.ninhddtt@edu.gmail.com.vn Luan van Luan an Do an Chương Áp dụng 135 132 139 132 126 135 134 128 130 138 128 127 131 124 124 133 138 148 126 135 132 133 131 133 133 131 131 138 130 131 138 123 130 134 137 126 137 133 136 131 133 135 124 134 130 135 132 129 136 138 138 134 134 129 124 136 145 130 134 125 136 139 136 134 136 128 129 131 129 130 136 131 103 93 96 101 102 103 93 103 104 100 93 106 114 101 101 97 98 104 95 98 100 102 96 94 103 98 99 98 104 98 107 101 105 93 106 100 50 53 50 49 51 47 53 50 49 55 53 48 54 46 48 48 45 51 45 52 54 48 50 46 53 51 56 49 53 45 53 51 47 54 49 48 40 Mssv.BKD002ac.email.ninhddtt@edu.gmail.com.vn -4000 -4000 -4000 -4000 -4000 -4000 -4000 -4000 -4000 -4000 -4000 -4000 -4000 -4000 -3300 -3300 -3300 -3300 -3300 -3300 -3300 -3300 -3300 -3300 -3300 -3300 -3300 -3300 -3300 -3300 -3300 -3300 -3300 -3300 -3300 -3300 Luan van Luan an Do an Chương Áp dụng 135 129 134 131 132 130 135 130 137 129 132 130 134 140 138 136 136 126 137 137 136 137 129 135 129 134 138 136 132 133 138 130 136 134 136 133 138 136 126 139 134 130 132 132 128 141 133 138 134 134 133 138 145 131 136 129 139 126 133 142 138 135 125 134 135 130 131 137 127 133 123 137 131 133 97 91 101 90 104 93 98 101 96 93 87 106 96 98 95 99 92 95 100 97 101 90 104 102 92 90 96 94 91 100 94 99 91 95 101 96 100 52 50 49 53 50 52 54 51 52 47 48 50 45 50 47 55 46 56 53 50 50 49 47 55 50 60 51 53 52 50 51 45 49 52 54 49 55 41 Mssv.BKD002ac.email.ninhddtt@edu.gmail.com.vn -3300 -3300 -3300 -3300 -3300 -3300 -3300 -3300 -1850 -1850 -1850 -1850 -1850 -1850 -1850 -1850 -1850 -1850 -1850 -1850 -1850 -1850 -1850 -1850 -1850 -1850 -1850 -1850 -1850 -1850 -1850 -1850 -1850 -1850 -1850 -1850 -1850 Luan van Luan an Do an Chương Áp dụng 138 137 141 141 135 133 131 140 139 140 138 132 134 135 133 136 134 131 129 136 131 139 144 141 130 133 138 131 136 132 135 137 136 128 130 138 126 133 134 128 130 131 120 135 137 130 134 140 133 134 135 136 130 137 141 135 128 125 130 124 131 131 128 126 142 138 136 130 123 131 126 134 127 138 91 107 95 87 99 91 90 94 90 90 100 90 97 99 95 99 93 99 95 93 88 94 86 97 98 92 97 95 94 92 100 91 95 91 92 86 101 46 54 53 49 51 46 50 60 48 51 52 53 54 50 52 55 52 55 47 54 48 53 50 53 53 51 54 53 55 52 51 50 49 57 52 47 52 42 Mssv.BKD002ac.email.ninhddtt@edu.gmail.com.vn -1850 -200 -200 -200 -200 -200 -200 -200 -200 -200 -200 -200 -200 -200 -200 -200 -200 -200 -200 -200 -200 -200 -200 -200 -200 -200 -200 -200 -200 -200 -200 150 150 150 150 150 150 Luan van Luan an Do an Chương Áp dụng 136 126 132 139 143 141 135 137 142 139 138 137 133 145 138 131 143 134 132 137 129 140 147 136 138 126 132 135 120 136 135 134 135 134 125 135 125 129 136 129 126 124 127 125 128 135 129 133 97 92 99 92 95 101 95 93 96 95 99 96 92 89 92 97 88 91 97 85 81 103 87 97 58 45 55 54 51 54 56 53 52 47 51 54 50 47 46 44 54 55 52 57 52 48 48 51 150 150 150 150 150 150 150 150 150 150 150 150 150 150 150 150 150 150 150 150 150 150 150 150 Chúng ta áp dụng vào liệu với số mơ hình sau: Mơ hình 1: Mơ hình với giả định nhất.Với khoảng thời gian t có vectơ trung bình ξt khác ma trận hiệp phương sai Σt khác Hàm hợp lý có dạng LM1 = Q5 t=1 { Q30 i=1 φ(Yt,i − ξt , Σt )}, đó, φ(y, Σ) mật độ phân phối chuẩn N (0, Σ) Các ước lượng hợp lý cực đại ξˆt = y t, Σˆt = n−1 t Pnt i=1 (yt,i − y t, )(yt,i − y t, )t Cực đại loga hàm hợp lý 43 Mssv.BKD002ac.email.ninhddtt@edu.gmail.com.vn Luan van Luan an Do an Chương Áp dụng `M1 = P5 ˆ t=1 {−nt log|Σt | − 4nt − 4nt log(2π)} Để tính toán giá trị AIC BIC cần xác định số tham số Với mơ hình này, có vectơ trung bình bốn chiều với 20 tham số ma trận hiệp phương sai 4x4 đối xứng dẫn đến 50 tham số Vì mơ hình có 70 tham số ước lượng Mơ hình 2: Chúng ta đơn giản hóa mơ hình Năm ma trận hiệp phương sai Σt nhau, không xác định cấu trúc cho ma trận khơng có giả định vectơ trung bình Hàm hợp lý có dạng LM2 = Q5 t=1 { Q30 i=1 φ(Yt,i − ξt , Σ)}, ước lượng hợp lý cực đại cho vectơ trung bình ξt không thay đổi, Σ chung ước lượng ma trận ˆ M = (1/5) Σ P5 ˆ t=1 Σt Cực đại loga hàm hợp lý ˆ M | − 4n − 4nlog(2π)} `M2 = 21 {−nlog|Σ Vì có ma trận hiệp phương sai, nên số tham số ước lượng cho mơ hình 5.4 + 10 = 30 Mơ hình 3: Để đơn giản xây dựng mơ hình với ma trận hiệp phương sai chung mơ hình với vectơ trung bình chung ξt = ξ cho tất khoảng thời gian Hàm hợp lý LM3 = Q5 t=1 { Q30 i=1 φ(Yt,i − ξ, Σ)}, P ước lượng hợp lý cực đại cho vectơ trung bình ξˆ = (1/5) 5t=1 ξˆt = y ước P ˆM = Σ ˆ M + nt (y t, − y )(y t, − y )t lượng ma trận hiệp phương sai Σ t=1 n Cực đại loga hàm hợp lý ˆ M | − 4n − 4nlog(2π)} `M3 = 21 {−nlog|Σ Có + 10 = 14 tham số ước lượng mơ hình Mơ hình 4: Mơ hình xem xét xu hướng tuyến tính theo thời gian vectơ trung bình Cụ thể, giả định ξt = aj + bj t, 44 Mssv.BKD002ac.email.ninhddtt@edu.gmail.com.vn Luan van Luan an Do an Chương Áp dụng với j = 1, 2, 3, Để dễ dàng tính tốn, ta đặt ξt = α + β(timet − time1 )/1000, t = 1, 2, 3, 4, Hàm hợp lý LM4 = Q5 Q30 t=1 { i=1 φ(Yt,i − α − β(timet − time1 )/1000, Σ)} Ma trận hiệp phương sai giả định khoảng thời gian Số tham số mơ hình + + 10 = 18 Đối với cấu trúc trung bình, tìm ước lượng hợp lý cực đại αˆ = (131.59, 133.72, 99.46, 50.22) βˆ = (1.104, −0.544, −1.390, 0.331) Mơ hình 5: Chúng ta giữ ngun xu hướng tuyến tính mơ hình đặt số cấu trúc vào ma trận hiệp phương sai Sự đơn giản hóa mơ hình giả định tất phép đo hộp sọ có tương quan Số tham số mơ hình + = 13 Bằng cách sử dụng phần mềm R để chạy liệu với mơ hình nêu ta có kết sau: Mơ hình Số tham số AIC Xếp hạng M1 70 -3506.509 (4) M2 30 -3477.694 (3) M3 14 -3510.816 (5) M4 18 -3463.815 (2) M5 13 -3460.957 (1) BIC Xếp hạng -3717.253 (5) -3568.013 (4) -3552.965 (3) -3518.006 (2) -3500.096 (1) Bảng 3.1 Các giá trị AIC BIC năm mô hình ứng cử viên Chúng ta thấy hai giá trị AIC BIC mơ hình lớn giá trị tương ứng mơ hình 1, điều ưu tiên cho cấu trúc hiệp phương sai chung Giá trị AIC mơ hình nhỏ chút so với mơ hình 1, nhỏ nhiều so với mơ hình Điều ưu tiên cho mơ hình Giá trị BIC mơ hình lớn mơ hình mơ hình 2, điều ưu tiên tiêu chuẩn BIC cho mơ hình đơn giản với vectơ trung bình chung ma trận hiệp phương sai chung Các giá trị AIC BIC mơ hình lớn giá trị tương ứng mơ hình 1, 2, 3, điều ưu tiên mơ hình tuyến tính thời gian Giá trị AIC BIC mơ hình lớn tất mơ hình trên, mơ hình đơn giản tốt chọn AIC BIC 45 Mssv.BKD002ac.email.ninhddtt@edu.gmail.com.vn