Bắt đầu ngày giao dịch tức là giá đóng cửa của ngày hôm trƣớc đã là bản ghi lịch sử. Đây chính là dữ liệu lịch sử mới. Dữ liệu này cũng nói lên xu hƣớng giá tại thời điểm hiện tại. Nếu sử dụng một mạng nơ ron để dự báo theo cách thông thƣờng thì những dữ liệu lịch sử hiện có không đƣợc học trong mạng. Điều này làm cho khả năng dự báo của mạng bị giảm sút. Theo thời gian mạng không đƣợc cập nhật dữ liệu lịch sử mới mạng sẽ đi vào trạng thái hoạt động kém hiệu quả. Giải pháp cho vấn đề trên là ngay khi các biến số đi vào lịch sử hết thì mạng sẽ tiến hành học thêm các giá trị mới. Điều này có nghĩa các trọng số trong mạng sẽ biến đổi theo lịch sử giá, biến cố của thị trƣờng.
3.6. Phân chia tập dữ liệu
Trong thực tế, khi huấn luyện, ngƣời ta thƣờng chia tập dữ liệu thành các tập: Huấn luyện, kiểm tra và kiểm định. Tập huấn luyện thƣờng là tập lớn nhất đƣợc sử dụng để huấn luyện cho mạng. Tập kiểm tra thƣờng chứa khoảng 10% đến 30% tập dữ
Đồ thị thời gian thực
Đầu ra Mạng nơ ron
Đầu vào
liệu huấn luyện, đƣợc sử dụng để kiểm tra mức độ tổng quát hóa của mạng sau khi huấn luyện. Kích thƣớc của tập kiểm định cần đƣợc cân bằng giữa việc cần có đủ số mẫu để có thể kiểm tra mạng đã đƣợc huấn luyện và việc cần có đủ các mẫu còn lại cho cả pha huấn luyện và kiểm định. Có hai cách thực hiện xác định tập kiểm tra. Một là lấy ngẫu nhiên các mẫu từ tập huấn luyện ban đầu. Ƣu điểm của cách này là có thể tránh đƣợc nguy hiểm khi mà đoạn dữ liệu đƣợc chọn có thể chỉ điển hình cho một tính chất của dữ liệu. Hai là chỉ lấy các dữ liệu ở phần sau của tập huấn luyện, trong trƣờng hợp các dữ liệu gần với hiện tại là quan trọng hơn các dữ liệu quá khứ.
Trong bài toán dự báo giá hàng hóa tƣơng lai, giá ở thời điểm hiện tại quan trọng hơn giá trong quá khứ. Chính vì vậy tác giả đã lựa chọn tập dữ liệu gần hiện tại làm dữ liệu kiểm tra, kiểm định. Trong luận văn này dữ liệu của các biến số đƣợc thu thập từ năm 2008 – 2013. Bộ dữ liệu thu đƣợc từ 2008-2012 làm tập dữ liệu huấn luyện cho mạng. Sử dụng dữ liệu 2013 làm tập dữ liệu đánh giá.