Phân chia tập dữ liệu

Một phần của tài liệu Ứng dụng khai phá dữ liệu vào dự báo giá mặt hàng trên sang giao dịch (Trang 37 - 38)

Trong thực tế, khi huấn luyện, ngƣời ta thƣờng chia tập dữ liệu thành các tập: Huấn luyện, kiểm tra và kiểm định. Tập huấn luyện thƣờng là tập lớn nhất đƣợc sử dụng để huấn luyện cho mạng. Tập kiểm tra thƣờng chứa khoảng 10% đến 30% tập dữ

Đồ thị thời gian thực

Đầu ra Mạng nơ ron

Đầu vào

36 liệu huấn luyện, đƣợc sử dụng để kiểm tra mức độ tổng quát hóa của mạng sau khi huấn luyện. Kích thƣớc của tập kiểm định cần đƣợc cân bằng giữa việc cần có đủ số mẫu để có thể kiểm tra mạng đã đƣợc huấn luyện và việc cần có đủ các mẫu còn lại cho cả pha huấn luyện và kiểm định. Có hai cách thực hiện xác định tập kiểm tra. Một là lấy ngẫu nhiên các mẫu từ tập huấn luyện ban đầu. Ƣu điểm của cách này là có thể tránh đƣợc nguy hiểm khi mà đoạn dữ liệu đƣợc chọn có thể chỉ điển hình cho một tính chất của dữ liệu. Hai là chỉ lấy các dữ liệu ở phần sau của tập huấn luyện, trong trƣờng hợp các dữ liệu gần với hiện tại là quan trọng hơn các dữ liệu quá khứ.

Trong bài toán dự báo giá hàng hóa tƣơng lai, giá ở thời điểm hiện tại quan trọng hơn giá trong quá khứ. Chính vì vậy tác giả đã lựa chọn tập dữ liệu gần hiện tại làm dữ liệu kiểm tra, kiểm định. Trong luận văn này dữ liệu của các biến số đƣợc thu thập từ năm 2008 – 2013. Bộ dữ liệu thu đƣợc từ 2008-2012 làm tập dữ liệu huấn luyện cho mạng. Sử dụng dữ liệu 2013 làm tập dữ liệu đánh giá.

Hình 3.5: Mô hình tổ chức dữ liệu

Một phần của tài liệu Ứng dụng khai phá dữ liệu vào dự báo giá mặt hàng trên sang giao dịch (Trang 37 - 38)

Tải bản đầy đủ (PDF)

(64 trang)