Quá trình tiền xử lý dữ liệu nhằm mục đích chuẩn hóa dữ liệu cơ bản, lọc những dữ liệu gây nhiễu, dƣ thừa, giúp cải thiện quá trình học của mạng, tăng hiệu năng xử lý, cũng nhƣ kết quả đạt đƣợc của mạng. Có nhiều kỹ thuật trong tiền xử lý dữ liệu. Tiền xử lý dữ liệu có thể là thực hiện lọc dữ liệu (trong dữ liệu biến thiên theo thời gian time-series) hay các phƣơng pháp phức tạp hơn nhƣ là các phƣơng pháp kết xuất, trích chọn các đặc trƣng từ dữ liệu cơ bản [13].
Trong mạng nơ ron khi sử dụng quá ít dữ liệu hoặc không đủ dữ liệu tổng quát có thể dẫn đến trƣờng hợp thừa ăn khớp (over-fitting). Còn nếu sử dụng quá nhiều dữ liệu sẽ ảnh hƣớng tới tính khái quát của mạng (under-fitting). Để tránh các lỗi trên cần
34 chuẩn bị bộ dữ liệu học và kiểm tra có đầy đủ các trƣờng hợp có thể xẩy ra, mới có kết quả đánh giá khách quan và mạng học có hiệu quả cao.
Trong bài toán dự báo giá trên sàn giao dịch, dữ liệu cơ bản là giá đóng của của các ngày giao dịch trong lịch sử. Biểu đồ giá đóng của là một biêu đồ tuyến tính. Chính vì vậy việc lọc, trích chọn dữ liệu không đƣợc áp dụng trong bài toán. Tuy nhiên để nâng cao hiệu năng tính toán của mạng thì dữ liệu cơ bản sẽ chuyển về khoảng [0-1] theo công thức (3.1).
𝑣𝑎𝑙𝑢𝑒𝑛𝑖 = (𝑣𝑎𝑙𝑢𝑒𝑖 − 𝑀𝑎𝑥𝑣𝑎𝑙𝑢𝑒)
(𝑀𝑎𝑥𝑣𝑎𝑙𝑢𝑒 − 𝑀𝑖𝑛𝑣𝑎𝑙𝑢𝑒) (3.1) (3.1)
Trong đó: 𝑣𝑎𝑙𝑢𝑒𝑖: Giá trị thực tại bản ghi thứ 𝑖 của tập biến số 𝑣𝑎𝑙𝑢𝑒.
𝑀𝑎𝑥𝑣𝑎𝑙𝑢𝑒: Giá trị lớn nhất của tập biến số 𝑣𝑎𝑙𝑢𝑒
𝑀𝑖𝑛𝑣𝑎𝑙𝑢𝑒: Giá trị nhỏ nhất của tập biến số 𝑣𝑎𝑙𝑢𝑒
𝑣𝑎𝑙𝑢𝑒𝑛𝑖: Giá trị của biến số sau khi đã chuẩn hóa.
Vậy đầu vào của mạng nơ ron nhận đƣợc sẽ là tập bộ dữ liệu có giá trị trong khoảng [0-1]. Dữ liệu đầu ra, kết quả dự đoán của mạng sẽ nhận đƣợc giá trị trong khoảng [0-1]. Khi đó thực hiện biến đổi dữ liệu từ khoảng [0-1] về dữ liệu theo công thức 3.2 .
𝑣𝑎𝑙𝑢𝑒𝑜 =𝑣𝑎𝑙𝑢𝑒𝑝∗ 𝑀𝑎𝑥𝑣𝑎𝑙𝑢𝑒 − 𝑀𝑖𝑛𝑣𝑎𝑙𝑢𝑒 + 𝑀𝑖𝑛𝑣𝑎𝑙𝑢𝑒 (3.2)
Trong đó: 𝑣𝑎𝑙𝑢𝑒𝑝: Giá trị tính toán của mạng.
𝑣𝑎𝑙𝑢𝑒𝑜: Giá trị dự đoán của mạng.
𝑀𝑎𝑥𝑣𝑎𝑙𝑢𝑒: Giá trị lớn nhất của tập biến số giá đóng của.
𝑀𝑖𝑛𝑣𝑎𝑙𝑢𝑒: Giá trị nhỏ nhất của tập biến số giá đóng của.