GIỚI THIỆU ĐỀ TÀI
Mục đích
Phân tích dữ liệu đang trở thành xu hướng quan trọng trong thời đại mới, không chỉ giúp hiểu bản chất dữ liệu mà còn hỗ trợ ra quyết định Kỹ năng này hiện được tích hợp vào chương trình giảng dạy tại nhiều trường đại học, đặc biệt trong các lĩnh vực khác nhau Môn học Kỹ thuật dự báo trang bị cho sinh viên kiến thức cơ bản về thống kê và dự báo, từ đó giúp họ phát triển kỹ năng phân tích dữ liệu.
Báo cáo này nhằm mục đích nghiên cứu và phân tích dữ liệu về các chỉ số đầu tư tư nhân cố định từ năm 1991 đến quý 1 năm 2020 Qua việc phân tích, nhóm đã áp dụng kiến thức từ môn Kỹ thuật dự báo để giải quyết vấn đề thực tiễn và tìm hiểu đặc điểm của vận tải hàng hóa bằng container ở các quốc gia, từ đó nâng cao kiến thức trong lĩnh vực Logistics quốc tế.
Nhiệm vụ
Nhiệm vụ chính liên quan đến thống kê và phân tích dữ liệu của báo cáo bao gồm:
Áp dụng mô hình phân ly giúp phân tích các đặc trưng cơ bản của dữ liệu như xu hướng, mùa vụ, chu kỳ và yếu tố ngẫu nhiên.
Từ đặc tính của dữ liệu, đưa ra mô hình dự báo phù hợp cho chuỗi dữ liệu
Tiến hành hành dự báo và phân tích chuỗi dữ liệu trong thời đoạn khủng hoảng kinh tế từ năm 2008 – 2010
Tiến hành phân tích hồi quy đa biến của chuỗi dữ liệu.
Bố cục
Bố cục bài báo cáo gồm 4 chương, cụ thể:
Chương 1: Giới thiệu đề tài
Chương 2: Phân tích Time series và tiến hành dự báo
Chương 3: Phân tích giai đoạn khủng hoảng
Chương 4: Phân tích hồi quy đa biến
Phạm vi báo cáo
Chỉ tiến hành dự báo đối với dữ liệu có data pattern là stationary, trend và seasonal
Các phương pháp dự báo sử dụng bao gồm: Nạve, Moving averages, Linear exponential smoothing, ARIMA
PHÂN TÍCH TIME SERIES VÀ DỰ BÁO CHO BIẾN V8
Hình 2.1 Biểu đồ time series cho biến V8
Based on the Time Series Plot, it can be observed that V8 exhibits a trend of gradual increase over the years To further analyze this trend, it is essential to create an Autocorrelation plot using Minitab by navigating to Stat → Time Series → Autocorrelation, which will help in visualizing the ACF and confirming the trend.
Hình 2.2 Đồ thị tự tương quan cho biến V8
Biểu đồ tự tương quan cho thấy hệ số tự tương quan ở các lag đầu tiên cao đáng kể so với 0, với giá trị gần bằng một, sau đó giảm dần về 0 Điều này chỉ ra rằng dữ liệu có tính xu hướng rõ rệt.
Tiến hành tìm hàm xu hướng cho tập dữ liệu trên
Hình 2.3 Hàm xu hướng cho biến V8
Sau khi tiến hành vẽ tập dữ liệu trên, ta nhận thấy MAPELinear (7.5) và MADLinear
(158.9) là nhỏ nhất do đó hàm biểu diễn xu hướng phù hợp nhất với tập dữ liệu trên là hàm tuyến tính
Yt = 933.5 + 21.695×t Với t =1 ứng với quý 1/1991
Hình 2.4 Hàm xu hướng tuyến tính cho biến V8 b) Ở vai trò nhà phân tích, nhóm có nhận định gì về chuỗi dữ liệu này?
Dữ liệu cho thấy xu hướng tăng trưởng, nhưng từ năm 2001 đến quý 2 năm 2003, có sự giảm bất thường Từ quý 3 năm 2003, chuỗi dữ liệu bắt đầu ổn định và tiếp tục có xu hướng tăng Dựa trên các phân tích cơ bản, nhóm đề xuất áp dụng các phương pháp dự báo phù hợp để cải thiện độ chính xác.
Bài viết này phân tích một chuỗi dữ liệu theo thời gian với tính xu hướng rõ rệt, và do phạm vi dự báo không quá dài, phương pháp dự báo được lựa chọn cần tập trung vào khả năng dự báo ngắn hạn Từ đó, chúng tôi rút ra các dự báo phù hợp để đáp ứng yêu cầu phân tích.
Linear exponential smoothing (Double exponential smoothing)
Để xác định phương pháp dự báo nào phù hợp và mang lại kết quả tốt nhất, nhóm cần phân tích các yếu tố như độ chính xác, tính khả thi và sự phù hợp với dữ liệu hiện có Việc áp dụng các phương pháp như Đường Trung Bình Động (Moving Average) sẽ giúp nhóm có cái nhìn rõ hơn về xu hướng và biến động của dữ liệu, từ đó đưa ra nhận định chính xác hơn.
Nhóm sẽ tiến hành dự báo lần lượt bằng các phương pháp và tiến hành chọn phương pháp có sai số thấp nhất
Tiến hành dự báo bằng Nạve, Linear Exponential Smoothing và Douple Moving Average
Hình 2.5 Phương pháp dự báo Nạve, , Linear Exponential Smoothing và Douple Moving
Vì chuỗi dữ liệu có tính xu hướng, do đó cần phải sai phân làm ổn đinh dữ liệu để có thể tiến hành dư báo bằng ARIMA
Tiến hành sai phần Differences lần 1 thì thấy dữ liệu ổn định(d = 1) với số thời đoạn trễ (lag) là 1
Hình 2.6 Chỉ số ar (p) cho biến V8
Biểu đồ tự tương quan (ACF) và biểu đồ tự tương quan từng phần (PACF) được sử dụng để xác định bậc của thành phần AR trong mô hình thời gian Qua việc phân tích số lượng các hệ số tự tương quan và hệ số tự tương quan riêng từng phần khác 0, có thể xác định bậc AR là p = 3, với mức độ tin cậy 95%.
Hình 2.7 Chỉ số ma (q) cho biến V8 Vậy mô hình là ARIMA (3,1,2)
Hình 2.8 Sai số Arima từ Minitab
Bảng 2.2.So sánh sai số giữa các phương pháp dự báo
Phương pháp MAPE MAD MSD
Dựa vào việc so sánh sai số có thể kết luận ARIMA là phương pháp dự báo tốt nhất trong trường hợp này
Kiểm tra sự phù hợp của mô hình ARIMA
Xem xét sai số của phương pháp ARIMA
Hình 2.9 Phân tích sai số Arima cho biến V8
Dựa vào biểu đồ Normal Probability Plot và Histogram, ta thấy sai số của mô hình tuân theo phân phối chuẩn
Dựa vào biểu đồ Residual Fitted Value, ta thấy sai số của mô hình có phương sai bằng nhau
Dựa vào biểu đồ Observation Order, sai số không có hiện tượng tự tương quan
Modified Box-Pierce (Ljung-Box) Chi-Square Statistic
Dựa vào kiểm định Ljung-Box Q, giá trị p-value của mô hình ARIMA lớn hơn mức ý nghĩa alpha = 0.05, cho thấy mô hình này phù hợp để dự báo Tiến hành dự báo bằng phương pháp ARIMA đã chọn.
Tiến hành dùng ARIMA(3,1,2) để dự báo cho một thời đoạn tiếp theo
Dự báo cho thời đoạn 118 đạt giá trị 3669.14 Để tính toán các chỉ số mùa (Seasonal Indices), chúng ta sử dụng phương pháp Trung bình di chuyển trung tâm (Centered Moving Average) với s là thời đoạn, được xác định thông qua đồ thị tự tương quan ACF.
Hình 2.10 Đồ thị tự tương quan cho biến V8
Biểu đồ tự tương quan (ACF) cho thấy giá trị gần 1 khi số thời đoạn là 1 và giảm dần về 0 khi số thời đoạn tăng, điều này chỉ ra rằng biến V8 (Đầu tư tư nhân cố định) có xu hướng theo thời gian.
Dữ liệu của biến V8 được thu thập theo quý và áp dụng phương pháp trung bình di chuyển trung tâm với s = 4 để tính toán các chỉ số mùa.
Bảng 2.3 Chỉ số mùa (Seasonal Indices)
2020 1 3669.469 7349.705 18376.970 2297.121 1.597421 Bảng 2.4 Chỉ số mùa cho 4 quý
Quý Trung vị Chỉ số mùa
Dựa vào dữ liệu Seasonal Index trong bảng 2.3, chúng tôi đã tính toán trung vị cho Seasonal Index của 4 quý và xác định hệ số nhân Multiphiler là 1.0000717 Sau đó, nhân trung vị của từng quý với hệ số nhân để thu được Chỉ số mùa hiệu chính (Adjusted Seasonal Index) cho các quý, như được trình bày trong bảng 2.4 Cuối cùng, tiến hành tính toán các chỉ số T, S, C, I của mô hình phân ly.
Kết quả từ Minitab cho ra hàm xu hướng cho biến V8, thoe đó, dữ liệu biến V8 phù hợp nhất với hàm xu hướng tuyến tính
Với t = 1 ứng với quý 1 năm 1991
Hình 2.11 Hàm xu hướng tuyến tính cho biến V8
Sử dụng phương pháp trung bình di chuyển trung tâm với s = 4, dựa trên dữ liệu thu thập theo quý, chúng tôi đã tính toán các chỉ số mùa (Seasonal Indices) như đã trình bày ở phần trước.
Tính chu kỳ (Cyclical) và Tính ngẫu nhiên (Irregular)
Bảng 2.5.Các giá trị T, S,C,I cho biến V8
2020 1 3669.47 3471.99 1.05688 0.99854 3674.82 1.05842 h) Nhận xét tính chu kỳ, tính mùa và tính xu hướng
Kết quả từ Minitab cho thấy dữ liệu của biến V8 phù hợp với Hàm xu hướng tuyến tính
Với t = 1 ứng với quý 1 năm 1991
Theo đó, mức đầu tư cố định của tư nhân tăng trung bình 21.695 tỷ USD mỗi quý
Bảng 2.6.Chỉ số mùa cho 4 quý trong năm
Bảng 2.6 trình bày các chỉ số mùa (Seasonal Indices) của bốn quý trong năm cho dữ liệu V8 Kết quả cho thấy rằng cả bốn quý đều có chỉ số mùa gần bằng 1, với quý 1 và quý 2 có những chỉ số tương đối tương đồng.
4 có chỉ số mùa cao hơn 1, quý 2 và 3 có chỉ số mùa lớn hơn 1, nhưng mức chênh lệch không đáng kể, được thể hiện qua hình 2.12
Hình 2.12 Chỉ số mùa cho 4 quý
Hình 2.13.Biểu đô Time Series cho giá trị CI và C
Biểu đồ trong Hình 2.13 minh họa sự biến động theo thời gian của giá trị cyclical-irregular (CI) và giá trị irregular (C) của biến V8 Để tính toán các giá trị C từ các giá trị CI, phương pháp trung bình dịch chuyển 3 thời đoạn đã được áp dụng.
Chỉ số chu kỳ (Cyclical) của biến V8 phân bổ từ 0.792 đến 0.156, giai đoạn từ Quý 1/2006 đến Quý 4/2009 có chỉ số chu kỳ dao động lớn nhất
Tiến hành dự báo cho 4 quý tiếp theo
Sử dụng mô hình phân ly để dự báo Chi phí đầu tư tư nhân cố định (V8) cho 4 quý tiếp theo, bao gồm quý 2, 3, 4 năm 2020 và quý 1 năm 2021, cho phép phân tích và đưa ra những dự đoán chính xác hơn về xu hướng đầu tư Mô hình này giúp tách biệt các yếu tố ảnh hưởng, từ đó cung cấp cái nhìn rõ ràng về biến động chi phí đầu tư trong thời gian tới.
Dự báo xu hướng (Trend)
Với t = 1 ứng với quý 1 năm 1991
Dự báo cho quý 2,3,4 năm 2020 và quý 1 năm 2021, tương ứng với t = 118,119,120,121
Bảng 2.7 Dự báo giá trị T cho biến V8
Dự báo Tính chu kỳ (Cyclical) và Tính ngẫu nhiên (Irregular)
Do không thể tiến hành dự báo giá trị cho 2 chỉ số này, giả định các giá trị C và I đều bằng 1 ở các chu kỳ tiếp theo
Dự báo cho 4 quý tiếp theo
Với t = 1 ứng với quý 1 năm 1991
Kết quả dự báo được trình bày ở bảng X
Bảng 2.8 Kết quả dự báo cho 4 quý tiếp theo
PHÂN TÍCH GIAI ĐOẠN KHỦNG HOẢNG
Vẽ Time Series Plot cho dữ liệu từ năm 1991 – 2020 và từ năm 2008 - 2010 của V8 trên Minitab ta được kết quả:
Hình 3.1 Time Series Plot cho dữ liệu từ năm 1991 – 2020 và từ năm 2008 - 2010 cho biến
Dữ liệu về Đầu tư tư nhân cố định (FPI) cho thấy xu hướng tăng trưởng ổn định qua các năm, nhưng đã giảm trong giai đoạn 2008 – 2010, cho thấy tác động tiêu cực của cuộc khủng hoảng kinh tế trong thời gian này đến giá trị FPI.
Xem xét mức độ suy giảm
Bảng 3.1Tổng hợp lại kết quả thống kê mô tả
Giai đoạn trước khủng hoảng
Giai đoạn trong khủng hoảng
Giai đoạn sau khủng hoảng
Kết quả thống kê mô tả cho ba khoảng thời gian cho thấy sự suy giảm rõ rệt trong giai đoạn 2008 – 2010 so với giai đoạn 2005 – 2007 Cụ thể, giá trị trung bình của giai đoạn 2008 – 2010 thấp hơn khoảng 13.66% so với giai đoạn trước, tương ứng với mức giảm 352.8.
Xem xét mức độ ảnh hưởng từ khủng hoảng
Time Series Plot of Phan 2 Data
Hình 3.2 Time series plot và Autocorrelation function cho biến V8 – giai đoạn 1991 - 2007
Dựa trên biểu đồ chuỗi thời gian và ACF, chúng ta nhận thấy rằng dữ liệu từ năm 1991 đến 2007 có xu hướng rõ rệt Do đó, chúng tôi tiến hành dự báo dữ liệu cho giai đoạn 2008 – 2010, thời điểm diễn ra khủng hoảng kinh tế.
A ut oc or re la ti on
Autocorrelation Function for 1991 - 2007 (with 5% significance limits for the autocorrelations)
Hình 3.3 Dự báo dữ liệu cho biến V8 – gia đoạn 1991 - 2007
Ta thấy sai số của Quaradtic Trend Model là nhỏ nhất, nên ta chọn Quadractic Trend Model làm mô hình dự báo, kết quả thu được như sau
Bảng 3.2Kết quả dự báo bằng phương pháp Double Exponential Smoothing
Giá trị trung bình dự báo cho giai đoạn 2008 – 2010 là 2489.0425, trong khi giá trị trung bình thực tế chỉ đạt 2232.9 Điều này cho thấy khủng hoảng đã ảnh hưởng đến khoảng 11% trị số FPI so với xu hướng dự báo.
Xem xét mức độ phục hồi
Trong giai đoạn khủng hoảng từ 2008 đến 2010, giá trị FPI đạt mức thấp nhất vào quý I năm 2010 với 2039.398 Kể từ đó, giá trị FPI có xu hướng tăng dần qua các năm Điều này cho thấy giai đoạn phục hồi bắt đầu sau năm 2010, và việc phân tích chuỗi dữ liệu từ năm 2010 sẽ giúp xác định rõ xu hướng phục hồi của giá trị FPI.
Hình 3.4 Time series plot và Autocorrelation function cho biến V8 – giai đoạn 2008 – 2010
Dựa trên biểu đồ chuỗi thời gian và ACF, dữ liệu cho thấy một xu hướng tăng rõ rệt Để xác định đường xu hướng cho chuỗi dữ liệu, bạn có thể sử dụng công cụ Phân tích Xu hướng trong Minitab.
Hình 3.5 Hàm xu hướng bậc 1 cho biến V8 – giai đoạn 2008 – 2010
Ta thu được kết quả: Yt = 2070.5 + 42.541*t
Kết luận: Giá trị dữ liệu giảm mạnh trong giai đoạn bắt đầu từ quý 3/2008 đến quý
2/2009, sự suy giảm chậm dần trong năm 2009 và đạt giá trị thấp nhất vào quý 1/2010, rồi sau đó dần phục hồi trở lại ở các quý tiếp theo
A ut oc or re la ti on
Autocorrelation Function for 2010 - 2020 (with 5% significance limits for the autocorrelations)
PHÂN TÍCH HỒI QUY ĐA BIẾN 23 TÀI LIỆU THAM KHẢO
Source DF Adj SS Adj MS F-Value P-Value
Từ bảng phân tích phương sai, giá trị F – Value = 42.27 và p – value = 0.000 ( 0.05 nên giữa 2 biến không có tương quan với nhau
V8 – V6: Hệ số tương quan giữa V8 và V6 là 0.151 và p-value > 0.05 nên giữa 2 biến không có tương quan với nhau
V8 – V7: Hệ số tương quan giữa V8 và V7 là - 0.070 và p-value > 0.05 nên giữa 2 biến không có tương quan với nhau
V8 – V9: Hệ số tương quan giữa V8 và V9 là 0.243 và p-value < 0.05 nên giữa 2 biến có tương quan tuyến tính yếu với nhau
Xét tương quan giữa các biến độc lập với nhau:
V3 – V5: Hệ số tương quan giữa V3 và V5 là -0.488 và p-value < 0.05 nên giữa 2 biến có tương quan tuyến tính yếu với nhau
V3 – V6: Hệ số tương quan giữa V3 và V6 là 0.231 và p-value < 0.05 nên giữa 2 biến có tương quan tuyến tính yếu với nhau
V3 – V7: Hệ số tương quan giữa V3 và V7 là 0.280 và p-value < 0.05 nên giữa 2 biến có tương quan tuyến tính yếu với nhau
V3 – V9: Hệ số tương quan giữa V3 và V9 là -0.037 và p-value > 0.05 nên giữa 2 biến không có tương quan tuyến tính với nhau
V5 – V6: Hệ số tương quan giữa V5 và V6 là – 0.153 và p-value > 0.05 nên giữa 2 biến không có tương quan tuyến tính với nhau
V5 – V7: Hệ số tương quan giữa V5 và V7 là 0.286 và p-value < 0.05 nên giữa 2 biến có tương quan tuyến tính yếu với nhau
V5 – V9: Hệ số tương quan giữa V5 và V9 là 0.046 và p-value > 0.05 nên giữa 2 biến không có tương quan tuyến tính với nhau
V6 – V7: Hệ số tương quan giữa V6 và V7 là -0.409 và p-value < 0.05 nên giữa 2 biến có tương quan tuyến tính với nhau
V6 – V9: Hệ số tương quan giữa V6 và V9 là 0.030 và p-value > 0.05 nên giữa 2 biến không có tương quan tuyến tính với nhau
V7 – V9: Hệ số tương quan giữa V7 và V9 là -0.127 và p-value > 0.05 nên giữa 2 biến không có tương quan tuyến tính với nhau c) Phân tích tính chất đa cộng tuyến (multicollinearity)
(i) Đưa ra nhận định về sự tương tác giữa các biến độc lập
Bảng 4.5 Sự tương tác giữa các biến độc lập
Biến độc lập VIF Nhận xét
Không có mối tương quan giữa biến V3 với các biến độc lập khác
Không có mối tương quan giữa biến V5 với các biến độc lập khác
Không có mối tương quan giữa biến V6 với các biến độc lập khác
Không có mối tương quan giữa biến V7 với các biến độc lập khác
Không có mối tương quan giữa biến V9 với các biến độc lập khác
(ii) So sánh với kết quả thu được ở câu b) Nhận định biến số nào nên loại/giữ trong mô hình
Dựa vào kết quả từ câu b, có thể khẳng định rằng không tồn tại sự tương quan giữa các biến trong mô hình, điều này cho thấy không có hiện tượng đa cộng tuyến trong mô hình hồi quy.
Giữ lại tất cả các biến trong mô hình d) Hồi quy từng bước (Stepwise Regression) i) Dựa vào Correlation Matrix:
Biến V3 sẽ được đưa vào mô hình đầu tiên vì có hệ số tương quan lớn nhất (0.614)
Biến V9 sẽ được đưa vào mô hình thứ 2 vì có hệ số tương quan lớn gần kề (0.243)
Do không có hiện tượng đa cộng tuyến giữa các biến độc lập, chúng ta có thể thêm các biến V5, V6, V7 vào mô hình theo thứ tự giảm dần hệ số tương quan: V6 (0.151), V5 (0.150), V7 (0.070) Sử dụng phần mềm Minitab với phương pháp Stepwise, chúng ta thu được kết quả như mong đợi.
Mallows’ Cp 468.15 72.86 72.97 53.07 α to enter = 0.05, α to remove = 0.05
The stepwise procedure added terms during the procedure in order to maintain a hierarchical model at each step
S R-sq R-sq(adj) R-sq(pred)
Kết quả phân tích trên Minitab cho thấy sự khác biệt rõ rệt so với nhận định sơ bộ Sự chênh lệch này xuất phát từ việc các hệ số tương quan chỉ phản ánh mối quan hệ tuyến tính giữa các biến, trong khi phương pháp Hồi quy từng bước (Stepwise Regression) đã xem xét các yếu tố tương tác bậc 2.
Để xác định mô hình hồi quy tốt nhất, cần áp dụng phương pháp tập con tốt nhất, bao gồm cả yếu tố tương tác bậc 2 giữa các biến độc lập.
Bảng 4.7 Phương pháp best subsets
Kết quả phân tích bằng phần mềm Minitab cho thấy mô hình hồi quy tối ưu nhất được xác định thông qua phương pháp tập con tốt nhất bao gồm các biến độc lập V3, V5, V6, V7 và V9, nhờ vào giá trị Mallows.
Cp nhỏ nhất (6.0) , R-sq (65.6) và R-Sq hiệu chỉnh (64.0) lớn nhất, và S (460.06 nhỏ nhất so với kết quả từ các tập con khác
Xét đến yếu tố tương tác bậc 2 (two-way interaction) trong Minitab thu được mô hình sau:
- 32.1 V6*V9 - 330.3 V7*V9 i) So sánh với mô hình xác định ở câu d)
Mô hình thu được từ phương pháp tập con tốt nhất có hiệu suất vượt trội so với mô hình Stepwise, với R-sq hiệu chỉnh đạt 88.15%, cao hơn 5.97% so với R-sq hiệu chỉnh 83.18% của mô hình Stepwise Dựa trên mô hình tốt nhất này, chúng tôi tiến hành dự báo cho bốn quý trong năm tiếp theo và tính toán khoảng tin cậy 98% cho các giá trị dự báo.
Công thức tính khoảng tin cậy:
Bảng 4.8 Giá trị dự báo t V3 V5 V6 V7 V9 V8 Khoảng tin cậy
124 116.131 100.916 1.35 6.25793 0 2914.8871 2290.687084 3539.087116 f) Từ mô hình này, giải thích các giá trị trong
∗ V7 + 11.13 V5 ∗ V9 + 0.48 V6 ∗ V7 − 32.1 V6 ∗ V9 − 330.3 V7 ∗ V9 i) Bảng phân tích phương sai (ANOVA)
Source DF Adj SS Adj MS F-Value P-Value
Từ bảng phân tích phương sai, giá trị F – Value = 58.51 và p – value = 0.000 ( 0.05 nên sai số tuân theo phân phối chuẩn
Kiểm định trung bình sai số bằng one – sample t- test trên Minitab
N Mean StDev SE Mean 95% CI for μ
Kết quả cho giá trị p-value = 1.000 > 5%, vậy ta chưa đủ cơ sở để bác bỏ giả thuyết tại mức ý nghĩa 5% và kết luận trung bình của sai số bằng 0
Kiểm định phương sai không đổi (homoscedastic) sử dụng Kiểm định Breusch-
H1: 𝛾 1 ≠ 0 (Phương sai không đồng nhất)
Trị tới hạn được tính bởi công thức: X 2 = SSR/2
P-value = 0.97027866 > 0.05 Chưa thể bác bỏ giả thiết H0, kết luận phương sai đồng nhất
Kiểm định sự độc lập lẫn nhau giữa các biến (Durbin-Wastion)
Sử dụng Minitab thu được hệ số Durbin-Watson Statistic d = 1.12594
Nếu giá trị d nhỏ hơn 𝐷 𝐿, ta bác bỏ giả thuyết 𝐻 0 và kết luận rằng tồn tại sự tương quan bậc 1 Trong trường hợp các giả định về sai số bị vi phạm, nhóm cần thực hiện các bước sửa chữa để đảm bảo rằng công tác dự báo không còn bị ảnh hưởng bởi những vi phạm này.
Sau kiểm định, nhận thấy sai số giữa các biến không độc lập lẫn nhau Để giải quyết vấn đề này có thể tiến hành sửa chữa bằng cách:
Thêm một biến độc lập (lagged variable hoặc omitted variable)
Sử dụng mô hình dự báo Autoregressive
Vì không có biến độc lập nào bị bỏ sót trong mô hình nên tiến hành phương pháp thứ
2 là sai phân các biến
Sai phân với lag = 1 thu được kết quả Durbin-Watson Statistic = 1.08724 Tra bảng với n = 116, k = 3 𝐷 𝐿 = 1.66221, 𝐷 𝑈 = 1.73228 Do giá trị d < 𝐷 𝐿 Bác bỏ 𝐻 0 Kết luận rằng có sự tương quan bậc 1
Khi sai phân đến lag = 4, Durbin-Watson Statistic cho thấy giá trị càng gần 0, điều này chỉ ra rằng có sự tương quan rất mạnh giữa các biến Do đó, phương pháp này không hiệu quả trong việc xử lý vấn đề tương quan giữa các biến độc lập.
Tiến hành sử dụng mô hình dự báo Autoregressive trên Minitab kết quả thu được trình bày ở phần 1
[1] John E Hanke, Dean W Wichern, 2008 Business Forecasting, 9 th edition Published by Pearson Education Limited 2014
Minitab® 18 provides essential support for validating model assumptions in regression and ANOVA analyses For comprehensive guidance, users can access detailed resources through the official Minitab support page.
[3] The Pennsylvania State University Tests for Constant Error Variance Available at: https://online.stat.psu.edu/stat501/lesson/7/7.6
[4] Nguyễn Vạng Phúc Nguyên, 2020 Bài giảng môn Kỹ thuật dự báo Thành phố Hồ Chí
Minh, NXB Đại học Quốc gia Thành phố Hồ Chí Minh
PHỤ LỤC A DỰ BÁO CHO BIẾN V3, V5, V6 VÀ V7
Dự báo cho biến V3 (Global price of Industrial Materials)
Time series plot cho biến V3
Dựa vào Time Series Plot có thể dự đoán được V5 có tính xu hướng, tăng dần qua các năm
Cần tiến hành vẽ biểu đồ tự tương quan Autocorrelation trong Minitab (Stat Time Series
AutoCorrelation) để vẽ biểu đồ ACF để xác định