THIẾT KẾ VÀ ỨNG DỤNG MẠNG THẦN KINH NHÂN TẠO ĐỂ DỰ BÁO GIÁ CHỨNG KHOÁN TRÊN THỊ TRƯỜNG
2.1.4. Phân chia dữ liệu được thu thập để huấn luyện ANN
Trong giai đoạn huấn luyện ANN, luận án phân chia chuỗi dữ liệu theo thời gian được thu thập thành ba tập hợp dữ liệu tách biệt nhau, lần lượt được gọi là: tập hợp dữ liệu huấn luyện, kiểm tra và xác nhận tính hiệu quả.
· Tập hợp dữ liệu huấn luyện là tập hợp có số lượng mẫu lớn nhất trong số 3 tập hợp vừa nêu. Tập hợp huấn luyện được ANN sử dụng để học tập các mẫu hình
tồn tại trong mối quan hệ giữa các biến đầu vào. Trong trường hợp này luận án sử dụng 80% số quan sát để huấn luyện mạng ANN trong tổng số 104 quan sát. · Tập hợp dữ liệu kiểm tra và xác nhận kết quả, luận án sử dụng số lượng mẫu
bằng khoảng 10% tập hợp dữ liệu quan sát, quá trình này được dùng để ước lượng khả năng khái qt hóa trong phân tích mà ANN đã học tập được sau khi trải qua bước huấn luyện trước đó. Như đã trình bày, trong bước huấn luyện, đầu tiên, ANN sẽ đọc qua tập hợp dữ liệu huấn luyện và tìm ra mẫu hình tổng quát nhất trong mối quan hệ giữa các biến đầu vào. Tổng quan mà nói, ANN có thể hoặc sẽ tìm ra mẫu hình khái quát, hoặc sẽ rơi vào một hiện tượng phù hợp quá mức. Tập hợp dữ liệu kiểm tra có nhiệm vụ hỗ trợ nghiên cứu trong việc xác minh xem, liệu ANN đã xây dựng sau khi được huấn luyện, có tìm ra được mẫu hình tổng qt nhất để phục vụ cho dự báo tương lai.
· Bước cuối cùng trong quá trình huấn luyện là kiểm tra hiệu quả hoạt động của ANN đã trải qua tập hợp huấn luyện và kiểm tra là xác minh hiệu quả dự báo của ANN trên một tập hợp dữ liệu mà ANN chưa từng nhìn thấy trước đó. Tập hợp dữ liệu này được gọi là tập hợp xác nhận tính hiệu quả, chúng được sử dụng để dự báo ngoài mẫu.