thời điểm phù hợp để ứng dụng vào các mô hình. Theo Joannès Vermorel (2013), Backtesting được định nghĩa là phương pháp sử dụng dữ liệu quá khứ để xác định độ chính xác của các mô hình dự báo. Backtesting được sử dụng để ước tính độ chính xác kỳ vọng của các mô hình dự báo, nhằm tìm ra thời điểm phù hợp cũng như mô hình dự báo chính xác nhất.
Cách thức hoạt động của Backtesting được hiểu ngắn gọn như sau: Đầu tiên, dữ liệu quá khứ được chia thành từng mốc thời điểm khác nhau. Đối với từng mốc thời điểm cụ thể, các mô hình sẽ được sử dụng để hồi quy dựa trên dữ liệu tương ứng. Tiếp theo, các kết quả sẽ được so sánh với dữ liệu thực tế. Cuối cùng, sai số dự báo trung bình sẽ được tính toán dựa trên từng mốc thời điểm.Sai số trung bình được giải thích là mức độ chênh lệch giữa kết quả dự báo và kết quả thực tế của dữ liệu. Việc gia tăng các mốc thời điểm sẽ làm tăng độ tin cậy của việc dự báo, tránh tình trạng dự báo chính xác ảo (overfitting).
Ví dụ:
Cho một chuỗi dữ liệu quá khứ. Đầu tiên, ta phân tách dữ liệu thành 4 mốc thời điểm là T1, T2, T3, T4 với khoảng cách từ T1 đến T2, từ T2 đến T3, từ T3 đến T4 và từ T4 đến hiện tại là bằng nhau. Sau đó, dự báo thời điểm T2 bằng dữ liệu T1, dự báo T3 bằng dữ liệu T2, dự báo T4 bằng dữ liệu T3 và cuối cùng dự báo thời điểm hiện tại bằng dữ liệu của T4. Sau khi dự báo, ta tìm sai số dự báo trung bình của các mốc thời điểm và tính trung bình các sai số dự báo trên. Nếu trung bình các sai số trên là đáng tin cậy, đồng nghĩa với việc có thể sử dụng dữ liệu quá khứ để dự báo với khoảng thời gian bằng T1 đến T2 hay nói cách khác, ta có thể sử dụng dữ liệu hiện tại để dự báo cho tương lai.
Hình 3.2. Mô tả kiểm định quá khứ (Back-Testing).
Khoảng thời gian của dữ liệu quá khứ
Ghi chú:
Dữ liệu quá khứ được phân tách Khoảng thời gian dự báo
Trong bài này, bài nghiên cứu muốn sử dụng dữ liệu hiện tại của công ty để dự báo tình trạng sức khỏe trong tương lai tại thời điểm t+1, t+2 dựa trên bộ dữ liệu của năm t-1 và t-2 tương ứng, lý do bài nghiên cứu chỉ sử dụng 2 thời kỳ t-1 và t-2 trong bài là nhằm mục đích loại bỏ những ảnh hưởng trung và dài hạn của các yếu tố thị trường cũng như vĩ mô tác động đến công ty, giúp làm tăng độ chính xác trong việc dự báo. Nên theo lý thuyết kiểm định quá khứ, hồi quy dữ liệu tại t-1 và t-2 được tiến hành để dự báo tình hình sức khỏe hiện tại của công ty. Nếu kết quả hồi quy tại t-1 và t-2 có kết quả dự báo đáng tin cậy thì theo lý thuyết kiểm định quá khứ, ta có thể sử dụng dữ liệu tại thời điểm t để dự báo cho tình trạng sức khỏe của công ty tương ứng với thời điểm t+1, t+2. Điều này giúp cho các nhà quản trị sớm nhận biết được tình trạng sức khỏe của công ty để có thể đưa ra các giải pháp nhằm cải thiện tình hình hoạt động, còn đối với các nhà đầu tư, việc dự báo sớm sẽ giúp họ có những điều chỉnh thích hợp trong danh mục đầu tư.