Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 25 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
25
Dung lượng
464,71 KB
Nội dung
LỜI CẢM ƠN Em xin gửi lời cảm ơn sâu sắc đến Thầy Lê Văn Dũng, thầy giảng viên hướng dẫn em hoàn thành báo cáo Nhờ bảo tận tình thầy mà em biết thêm vài điều lạ từ Excel Phần mềm Minitab Vì kiến thức thân hạn chế, q trình thực tập, hồn thiện báo cáo em khơng tránh khỏi sai sót, kính mong nhận ý kiến đóng góp từ thầy Em xin chân thành cảm ơn thầy! BÀI BÁO CÁO MÔN XỬ LÝ SỐ LIỆU THỐNG KÊ Page PHẦN I: CƠ SỞ LÝ THUYẾT CHƯƠNG 1: MƠ HÌNH HỒI QUY TUYẾN TÍNH Mơ hình hồi quy tuyến tính đơn: Xét vectơ ngẫu nhiên Mơ hình hồi quy tuyến tính đơn có dạng độc lập với X tất phân bố xác suất có điều kiện biến ngẫu nhiên độc lập Đường thẳng gọi đường hồi quy Gọi điểm thỏa mãn mơ hình hồi quy Khi biến ngẫu nhiên có phân bố chuẩn với hàm mật độ xác suất Ta gọi hàm ước lượng Mơ hình hồi quy bội: Mơ hình hồi quy tuyến tính k biến độc lập với tất biến ngẫu nhiên tất phân bố xác suất có điều kiện biến ngẫu nhiên độc lập Gọi với mẫu số liệu , Đặt Khi ta có Phương pháp ước lượng bình phương tối thiểu ma trận hệ số phương pháp ước lượng cho đạt giá trị nhỏ BÀI BÁO CÁO MÔN XỬ LÝ SỐ LIỆU THỐNG KÊ Page Hàm đạt giá trị nhỏ Gọi với điểm thỏa mãn mơ hình hồi quy bội Khi với điều kiện biến ngẫu nhiên có phân bố chuẩn Hàm ước lượng β Tính chất ước lượng: Gọi vectơ hàm ước lượng hệ số mơ hình hồi quy bội Đặt (1) ước lượng không chệch, tức (2) ước lượng không chệch Kiểm định phù hợp mô hình: Nếu tất hệ số mơ hình hồi quy bội với mơ hình khơng phù hợp Như dẫn đến tốn kiểm định sau: Gọi với điểm thỏa mãn mô hình hồi quy bội Kí hiệu ;; Trong Khi ta có Kiểm định hệ số mơ hình: Mơ hình hồi quy tuyến tính k biến Nếu (thì có phân bố student n−k−1 bậc tự Trong BÀI BÁO CÁO MƠN XỬ LÝ SỐ LIỆU THỐNG KÊ Page CHƯƠNG 2: MƠ HÌNH CHUỖI THỜI GIAN Chuỗi thời gian: Là dãy biến ngẫu nhiên phụ thuộc theo thời gian a Các hàm đặc trưng chuỗi thời gian: • Hàm trung bình: • Hàm hiệp phương sai: • Hàm tự tương quan: b Quá trình nhiễu trắng: Dãy biến ngẫu nhiên phụ thuộc vào thời gian t gọi nhiễu trắng nếu: • • • Chuỗi thời gian dừng: Chuỗi thời gian gọi trình dừng thỏa mãn điều kiện: (i) (ii) hàm trung bình số (không phụ thuộc vào t); (ii) với s t, hàm hiệp phương sai ) phụ thuộc vào độ dài Nếu trình dừng Do ta định nghĩa hàm hiệp phương sai hàm tự tương quan trình dừng sau Cho trình dừng Hàm hiệp phương sai: Hàm tự tương quan: Quá trình trung bình trượt: Chuỗi thời gian gọi trình trung bình trượt cấp có a biểu diễn b Chuỗi thời gian gọi trình trung bình trượt cấp vơ hạn có biểu diễn Nếu trình trung bình trượt cấp q (i) ; (ii) BÀI BÁO CÁO MÔN XỬ LÝ SỐ LIỆU THỐNG KÊ Page (iii) Chú ý Cho nhiễu trắng với tham số dãy số thỏa mãn: Khi chuỗi thời gian: q trình Hàm hiệp phương sai 3.1 Quá trình tự hồi quy: Chuỗi thời gian gọi trình tự hồi quy cấp , kí hiệu là, (i) thỏa mãn phương trình số , nhiễu trắng với tham số không tương quan với với Cho trình tự hồi quy Nếu trình dừng hàm hiệp phương sai nghiệm hệ phương trình Yule-Walker 3.2 Quá trình trung bình trượt tự hồi quy: Chuỗi thời gian gọi trình trung bình trượt tự hồi quy cấp , kí hiệu , thõa mãn: nhiễu trắng với tham số không tương quan với với Cho chuỗi thời gian thỏa mãn : BÀI BÁO CÁO MƠN XỬ LÝ SỐ LIỆU THỐNG KÊ Page nhiễu trắng với tham số không tương quan với với Khi q trình dừng đa thức kết hợp khơng có nghiệm đường tròn đơn vị Q trình có biểu diễn trung bình trượt phía đa thức kết hợp khơng có nghiệm hình tròn đơn vị Hàm tự tương quan riêng: Hàm tự tương quan trình trung bình trượt MA(q) hàm tự tương quan Do hàm tự tương quan MA(q) cung cấp cho thông tin cấp phụ thuộc chuỗi Tuy nhiên với trình ARMA hay trình AR, hàm tự tương quan k cung cấp cho thơng tin cấp độ phụ thuộc Do ta cần đưa hàm tương tự hàm tự tương quan trình MA(q) cho trình AR(p), hàm gọi hàm tự tương quan riêng (PACF) Cho chuỗi thời gian dừng có kì vọng Với kí hiệu ước lượng hồi quy tuyến tính tốt dãy theo nghĩa đạt giá trị nhỏ Ta viết dạng , Kí hiệu ước lượng hồi quy tuyến tính tốt dãy Do chuỗi dừng nên ta có: BÀI BÁO CÁO MƠN XỬ LÝ SỐ LIỆU THỐNG KÊ Page Hàm tự tương quan riêng (PACF) chuỗi dừng ( xác đinh (1) = Cor ( = ρ(1) (h) = Cor (, h >1 Chú ý không tương quan với {} 4.1 Bài tốn dự báo Nếu xét q trình dừng (), khơng tính tổng qt ta ln giả thiết E( ) = Nội dung toán dự báo là: giả sử quan sát giá trị trình thời điểm 1,2, ,n Trên sở ta muốn dự báo cách “tốt nhất” giá trị trình thời điểm n+h tương lai Dự báo tuyến tính tổ hợp tuyến tính Dự báo S gọi tốt sai số bình phương trung bình nhỏ Chuỗi trình dừng Dự báo tuyến tính tốt Chuỗi q trình dừng Dự báo tuyến tính tốt Trong thoả mãn hệ phương trình sau: Ước lượng tham số: 5.1 Ước lượng tham số AR(p): Trong trình tự hồi quy cấp p ( ký hiệu tắt AR(p)), số liệu chuỗi thời gian liên hệ theo biểu thức BÀI BÁO CÁO MÔN XỬ LÝ SỐ LIỆU THỐNG KÊ Page , Trong hệ số phương trình ồn trắng WN(0, ) Ta gọi chuỗi số liệu tự hồi quy giá trị tính truy hồi qua giá trị đứng trước Cuối cùng, ồn trắng (còn gọi sai số) biểu thị yếu tố ngẫu nhiên tham gia vào mà giải thích mơ hình Các giá trị hệ số số mô tả mối quan hệ giá trị thực với giá trị trước Số p gọi cấp tự hồi qui mơ hình Nó số giá trị q khứ chuỗi cần phải lấy để tính truy hồi Giá trị xác p sử dụng số làm cho sai ssos dự báo mô hình nhỏ làm cho số dư có phân phối ngẫu nhiên Thường nhận dạng giá trị p cấp trình AR(p) cách phân tích số tự tương quan riêng chuỗi thời gian Các hệ số tự tương quan riêng α(k) = tính từ phương trình Đặt - ta có = Ký hiệu = п(B) = п(B) = nên ta có ) = Từ phương trình ta nhận đươc , với < k < p, với ≥ p Từ ta tính hệ số { biết Thay giá trị tính tốn vào ta nhận BÀI BÁO CÁO MÔN XỬ LÝ SỐ LIỆU THỐNG KÊ Page Vậy trình AR(p) trình tuyến tính 5.2 Ước lượng tham số MA(q): Q trình gọi trung bình trượt (MA) có dạng Trong đó, q cấp mơ hình trung bình trượt; WN(0,); hệ số mối liên hệ giá trị giá trị nhiễu thời điểm t Hàm tự tương quan trình MA(q) cho ϒ(k) ={ Cấp trung bình trượt (giá trị q) ácđịnh cách phân tích hệ số tự tương quan q trình ( khơng phải tự tương quan riêng) Thông thường, q chọn cho hệ số tương quan từ cho dến q khác thực sự, số sau xấp xỉ Giá trị phân cách cấp mơ hình MA BÀI BÁO CÁO MƠN XỬ LÝ SỐ LIỆU THỐNG KÊ Page PHẦN II: NỘI DỤNG THỰC NGHIỆM CHƯƠNG 1: MƠ HÌNH HỒI QUY TUYẾN TÍNH 1/ Cơ sở liệu: Ta lấy liệu từ Google nước Đức tảng Giáo Dục từ năm 2002 đến năm 2012 Vào Google → Gõ từ khóa: “Google Data Public” → Chọn đường link “Google Public Data Explore” → Chọn “Dãy báo phát triển giới” → Trong khung Public Data, chọn lĩnh vực Giáo dục Từ nguồn liệu Google, ta lọc mẫu số liệu sau: BÀI BÁO CÁO MÔN XỬ LÝ SỐ LIỆU THỐNG KÊ Page Đưa liệu vào eview: đây, Y : Chi tiêu công cho giáo dục, tổng số (% GDP); X1 : Giáo dục tiểu học, số giáo viên; X2 : Giáo dục tiểu học, số học sinh; X3 : Giáo dục trung học, số giáo viên; X4 : Giáo dục trung học, số học sinh 2/ Ước lượng: Vào Quick -> Estimate Equation -> Xuất cửa sổ Equation Estination Kiểm định mơ hình phù hợp: BÀI BÁO CÁO MƠN XỬ LÝ SỐ LIỆU THỐNG KÊ Page X2 C X3 X4 Dependent Variable: X2 Method: Least Squares Date: 11/23/18 Time: 23:00 Sample: 1994 2010 Included observations: Variable Coefficient Std Error t-Statistic Prob C X3 X4 2313518 -6.595885 0.610129 1786348 1.098924 0.169416 1.295110 -6.002132 3.601367 0.2429 0.0010 0.0113 R-squared Adjusted R-squared S.E of regression Sum squared resid Log likelihood F-statistic Prob(F-statistic) 0.947895 0.930526 79411.92 3.78E+10 -112.4875 54.57554 0.000141 Mean dependent var S.D dependent var Akaike info criterion Schwarz criterion Hannan-Quinn criter Durbin-Watson stat 3459178 301283.1 25.66389 25.72963 25.52202 2.023192 X2 X3 X4 Dependent Variable: X2 Method: Least Squares Date: 11/16/18 Time: 22:27 Sample: 1994 2010 Included observations: Variable Coefficient Std Error t-Statistic Prob X3 X4 -5.483487 0.717881 0.820325 0.050881 -7.638439 16.12230 0.0001 0.0000 R-squared Adjusted R-squared S.E of regression Sum squared resid Log likelihood Durbin-Watson stat 0.933328 0.923804 83165.12 4.84E+10 -113.5968 2.683692 Mean dependent var S.D dependent var Akaike info criterion Schwarz criterion Hannan-Quinn criter 3459178 301283.1 25.68817 25.73200 25.59359 BÀI BÁO CÁO MÔN XỬ LÝ SỐ LIỆU THỐNG KÊ Page Qua kiểm định mơ hình phù hợp ta thấy Với = 0,05 Mơ hình phù hợp là: X2 = -5,48X3 + 0,82X4 + ε 3/ Dự báo: Vào Forecast -> gõ vào ô S.E.(optional) :se -> ô Forecast sample gõ giá trị cần dự báo -> OK Biểu đồ dự báo: BÀI BÁO CÁO MÔN XỬ LÝ SỐ LIỆU THỐNG KÊ Page Hiện thị bảng dự báo: Kết quả: BÀI BÁO CÁO MÔN XỬ LÝ SỐ LIỆU THỐNG KÊ Page Với X2 = 2989700; X3 = 584535; X4 = 7528300 Dự báo khoảng số liệu năm 2011 với độ tin cậy 2970366 ± 94864,72 *1,96 BÀI BÁO CÁO MÔN XỬ LÝ SỐ LIỆU THỐNG KÊ Page CHƯƠNG 2: MÔ HÌNH CHUỖI THỜI GIAN 1/ Cơ sở liệu: Vào Google -> Gõ “cổ phiếu 68” -> Gõ MCK: VHM -> Lịch Sử Giá -> Lưu số liệu máy: Đưa vào eview Vẽ biểu đồ: Vào giamocua -> chon View -> Grap - > OK BÀI BÁO CÁO MÔN XỬ LÝ SỐ LIỆU THỐNG KÊ Page Xuất biểu đồ: BÀI BÁO CÁO MÔN XỬ LÝ SỐ LIỆU THỐNG KÊ Page Kiểm định giả thuyết: Vào view -> Unit Root Test -> Chọn level -> OK Null Hypothesis: GMC has a unit root Exogenous: Constant Lag Length: (Automatic - based on SIC, maxlag=12) Augmented Dickey-Fuller test statistic Test critical values: 1% level 5% level 10% level t-Statistic Prob.* -0.632959 -3.497727 -2.890926 -2.582514 0.8573 p- giá trị = 0,8573 > 0,05 nên chấp nhận Tiến hành kiểm định trình dừng sai phân bậc sai phân bậc Vào View -> Unit Root Test -> Chọn 1st diference -> OK Null Hypothesis: D(GMC) has a unit root Exogenous: Constant Lag Length: (Automatic - based on SIC, maxlag=12) Augmented Dickey-Fuller test statistic Test critical values: 1% level 5% level 10% level t-Statistic Prob.* -10.86546 -3.498439 -2.891234 -2.582678 0.0000 Vào View -> Unit Root Test -> Chọn 2nd diference -> OK Null Hypothesis: D(GMC,2) has a unit root Exogenous: Constant Lag Length: (Automatic - based on SIC, maxlag=12) Augmented Dickey-Fuller test statistic Test critical values: 1% level 5% level 10% level t-Statistic Prob.* -12.41322 -3.499910 -2.891871 -2.583017 0.0001 Ta có sai phân bậc sai phân bậc trình dừng Kiểm định đồ thị hàm tự tương quan hàm tự tương quan riêng sai phân bậc sai phân bậc BÀI BÁO CÁO MÔN XỬ LÝ SỐ LIỆU THỐNG KÊ Page Sai phân bậc 1: Sai phân bậc 2: Sai phân bậc nhiễu trắng nên khơng thuộc mơ hình ARMA Sai phân bậc thuộc mơ hình ARMA mơ hình ARMA(1,0), ARMA(1,1), ARMA(2,0), ARMA(2,1), ARMA(3,0), ARMA(3,1) BÀI BÁO CÁO MÔN XỬ LÝ SỐ LIỆU THỐNG KÊ Page 2/ Ước lượng: Vào Quick -> Estimate Equation ARMA(1,0) Dependent Variable: D(GMC,2) Method: Least Squares Date: 11/16/18 Time: 15:27 Sample (adjusted): 100 Included observations: 97 after adjustments Convergence achieved after iterations Variable Coefficient Std Error t-Statistic Prob AR(1) -0.565205 0.084236 -6.709805 0.0000 R-squared Adjusted R-squared S.E of regression Sum squared resid Log likelihood Durbin-Watson stat 0.319252 0.319252 3.993920 1531.334 -271.4575 2.403045 Inverted AR Roots Mean dependent var S.D dependent var Akaike info criterion Schwarz criterion Hannan-Quinn criter -0.005155 4.840678 5.617679 5.644223 5.628412 -.57 ARMA(2,0) Dependent Variable: D(GMC,2) Method: Least Squares Date: 11/16/18 Time: 15:28 Sample (adjusted): 100 Included observations: 96 after adjustments Convergence achieved after iterations Variable Coefficient Std Error t-Statistic Prob AR(1) AR(2) -0.768733 -0.355938 0.096195 0.096470 -7.991424 -3.689618 0.0000 0.0004 R-squared Adjusted R-squared S.E of regression Sum squared resid Log likelihood Durbin-Watson stat 0.408040 0.401742 3.763370 1331.318 -262.4378 2.129625 Inverted AR Roots -.38+.46i Mean dependent var S.D dependent var Akaike info criterion Schwarz criterion Hannan-Quinn criter 0.002083 4.865561 5.509120 5.562544 5.530715 -.38-.46i ARMA(3,0) Dependent Variable: D(GMC,2) Method: Least Squares Date: 11/16/18 Time: 15:28 Sample (adjusted): 100 Included observations: 95 after adjustments Convergence achieved after iterations BÀI BÁO CÁO MÔN XỬ LÝ SỐ LIỆU THỐNG KÊ Page Variable Coefficient Std Error t-Statistic Prob AR(1) AR(2) AR(3) -0.869948 -0.560806 -0.235982 0.097381 0.117777 0.097435 -8.933489 -4.761612 -2.421931 0.0000 0.0000 0.0174 R-squared Adjusted R-squared S.E of regression Sum squared resid Log likelihood Durbin-Watson stat 0.468656 0.457105 3.551808 1160.611 -253.6833 1.837834 Inverted AR Roots -.14-.61i Mean dependent var S.D dependent var Akaike info criterion Schwarz criterion Hannan-Quinn criter -.14+.61i 0.086316 4.820493 5.403860 5.484509 5.436448 -.59 Qua kiểm tra có mơ hình ARMA(3,0) phù hợp Như kí hiệu Y(t) sai phân bậc giá mở cửa X(t) ta có Y(t) = -0,86Y(t-1) – 0,56Y(t-2) - 0,23Y(t-3) + W(t) 3/ Dự báo: Vào Proc -> Structure/Resize Curent Page thêm ngày 101 Xuất hiện: BÀI BÁO CÁO MÔN XỬ LÝ SỐ LIỆU THỐNG KÊ Page Vào Forecast -> gõ vào ô S.E.(optional) :se -> ô Forecast sample gõ giá trị cần dự báo -> OK Biểu đồ dự báo: BÀI BÁO CÁO MÔN XỬ LÝ SỐ LIỆU THỐNG KÊ Page Hiện thị bảng dự báo: BÀI BÁO CÁO MÔN XỬ LÝ SỐ LIỆU THỐNG KÊ Page Như giá mở cửa thực tế ngày là: 74,5 Dự báo khoảng giá mở cửa ngày với độ tin cậy 74,96 ± 3,57*1,96 BÀI BÁO CÁO MÔN XỬ LÝ SỐ LIỆU THỐNG KÊ Page MỤC LỤC LỜI CẢM ƠN BÀI BÁO CÁO MÔN XỬ LÝ SỐ LIỆU THỐNG KÊ Page ... cần dự báo -> OK Biểu đồ dự báo: BÀI BÁO CÁO MÔN XỬ LÝ SỐ LIỆU THỐNG KÊ Page Hiện thị bảng dự báo: BÀI BÁO CÁO MÔN XỬ LÝ SỐ LIỆU THỐNG KÊ Page Như giá mở cửa thực tế ngày là: 74,5 Dự báo khoảng... Forecast sample gõ giá trị cần dự báo -> OK Biểu đồ dự báo: BÀI BÁO CÁO MÔN XỬ LÝ SỐ LIỆU THỐNG KÊ Page Hiện thị bảng dự báo: Kết quả: BÀI BÁO CÁO MÔN XỬ LÝ SỐ LIỆU THỐNG KÊ Page Với X2 = 2989700; X3... Giá -> Lưu số liệu máy: Đưa vào eview Vẽ biểu đồ: Vào giamocua -> chon View -> Grap - > OK BÀI BÁO CÁO MÔN XỬ LÝ SỐ LIỆU THỐNG KÊ Page Xuất biểu đồ: BÀI BÁO CÁO MÔN XỬ LÝ SỐ LIỆU THỐNG KÊ Page Kiểm