3.1.1 Chuẩn bị dữ liệu
- Dữ liệucác chỉ số VNINDEX, HNXINDEX đƣợc lấy từ trang web của công ty chứng khoán Bảo Việt.
- Dữ liệu đƣợc lấy từ ngày 2/1/2007 đến ngày 30/6/2013 thu đƣợc:
o VNINDEX gồm1610 dữ liệu quan sát hàng ngày. Do các mô hình học máy cần có 2 tập dữ liệu là tập dữ liệu huấn luyện và tập dữ liệu kiểm tra nên ta chia dữ liệu thu thập đƣợc thành 2 tập nhƣ sau:
Tập dữ liệu huấn luyện – 1/2007 đến 6/2012 gồm 1362 quan sát
Tập dữ liệu thử nghiệm – 7/2012 đến 6/2013 gồm 248 quan sát
o HNXINDEX gồm1601dữ liệu quan sát hàng ngày, đƣợc chia làm 2 tập nhƣ sau:
Tập dữ liệu huấn luyện – 1/2007 đến 6/2012 gồm 1359quan sát
Tập dữ liệu thử nghiệm – 7/2012 đến 6/2013 gồm 242 quan sát
- Độ biến động của thị trƣờng đƣợc xác địnhlàđộ lệch chuẩn trên tập dữ liệu hàng ngày.Sử dụng cách tính dựa trên giá đóng cửa của chỉ số (hoặc cổ phiếu) nhƣ đã trình bầy trong phần 1.1.3 ở trên.
- Theo phƣơng pháp phân tích kỹ thuật[23] thì các nhà đầu tƣ hay sử dụng dữ liệu của 5,10, 15, 20 ngày trƣớc để phân tích và dự báo ngắn hạn thị trƣờng các ngày tiếp theo. Do đó trong phạm vi của thử nghiệp
này chúng tôi sử dụng dữ liệu 10 ngày trƣớc làm tham số đầu vào cho các mô hình học máy để dự báo biến động 1 ngày tiếp theo, cụ thể dự báo biến động thị trƣờng ngày 01/07/2013 (sử dụng dữ liệu 10 ngày từ ngày 17/06/2013 đến 28/06/2013)
Các hình dƣới đây hiển thị độ biến động của các chỉ số VNINDEX và HNXINDEX trên các tập dữ liệu:
Hình 3.1: Biến động VNINDEX trên cả tập dữ liệu
Hình 3.3: Biến động của VNINDEX 10 ngày trƣớc ngày dự báo
Hình 3.5: Biến động của HNXINDEX trên tập dữ liệu kiểm tra
Hình 3.6: Biến động của HNXINDEX 10 ngày trƣớc ngày dự báo
VNINDEX HNXINDEX
0.2034469 0.1514522
Bảng 3.1: Giá trị biến động thực tế ngày 01/07/2013
Hình 3.1 và 3.3 thể hiện biến động của thị trƣờng chứng khoán Việt Nam trong giai đoạn 2007-2013, trong đó có giai đoạn 2008-2009 thể hiện sự biến động mạnh của thị trƣờng ứng với giai đoạn khủng hoảng tài chính thế giới.
3.1.2Ngôn ngữ sử dụng
- Sử dụng ngôn ngữ R[19] để chạy thử nghiệm các mô hình dự báo trên với bộ dữ liệu thu thập đƣợc.R là ngôn ngữ đƣợc sử dụng nhiều trong lĩnh vực tính toán thống kê.
- Cài đặt các thƣ viện của ngôn ngữ R để chạy mô hình. Các thƣ viện này của ngôn ngữ R đã cài đặt các thuật toán khai phá dữ liệu tƣơng ứng với các mô hình đã trình bầy ở phần trên.
o Thƣ viện “fGarch” cài đặt mô hình GARCH.
o Thƣ viện “caret” cài đặt các thuật toán tƣơng ứng với mô hình mạng nơ ron nhân tạo.
o Thƣ viện “e1071” cài đặt các thuật toán tƣơng ứng với mô hình hồi quy vector hỗ trợ SVR.
3.1.3Lựa chọn tiêu chí đánh giá mô hình
- Sử dụng các hàm sai số sau để kiểm tra mô hình o Sai số căn bình phƣơng trung bình: RMSE o Sai số tuyệt đối – MAE
o Sai số phần trăm tuyệt đối – MAPE
- So sánh giá trị dự báo đƣợc của các mô hình với giá trị biến động xác định đƣợc trong thực tế để đánh giá độ chính xác của kết quả dự báo.