3.5. Tiền xử lý và phân tích dữ liệu
3.5.1. Tiền xử lý dữ liệu
Quá trình tiền xử lý dữ liệu nhằm mục đích chuẩn hóa dữ liệu cơ bản, lọc những dữ liệu gây nhiễu, dƣ thừa, giúp cải thiện quá trình học của mạng, tăng hiệu năng xử lý, cũng nhƣ kết quả đạt đƣợc của mạng. Có nhiều kỹ thuật trong tiền xử lý dữ liệu. Tiền xử lý dữ liệu có thể là thực hiện lọc dữ liệu (trong dữ liệu biến thiên theo thời gian time-series) hay các phƣơng pháp phức tạp hơn nhƣ là các phƣơng pháp kết xuất, trích chọn các đặc trƣng từ dữ liệu cơ bản [13].
Trong mạng nơ ron khi sử dụng quá ít dữ liệu hoặc không đủ dữ liệu tổng quát có thể dẫn đến trƣờng hợp thừa ăn khớp (over-fitting). Còn nếu sử dụng quá nhiều dữ liệu sẽ ảnh hƣớng tới tính khái quát của mạng (under-fitting). Để tránh các lỗi trên cần
chuẩn bị bộ dữ liệu học và kiểm tra có đầy đủ các trƣờng hợp có thể xẩy ra, mới có kết quả đánh giá khách quan và mạng học có hiệu quả cao.
Trong bài toán dự báo giá trên sàn giao dịch, dữ liệu cơ bản là giá đóng của của các ngày giao dịch trong lịch sử. Biểu đồ giá đóng của là một biêu đồ tuyến tính. Chính vì vậy việc lọc, trích chọn dữ liệu không đƣợc áp dụng trong bài toán. Tuy nhiên để nâng cao hiệu năng tính toán của mạng thì dữ liệu cơ bản sẽ chuyển về khoảng [0-1] theo công thức (3.1).
𝑣𝑎𝑙𝑢𝑒𝑛𝑖 = (𝑣𝑎𝑙𝑢𝑒𝑖 − 𝑀𝑎𝑥𝑣𝑎𝑙𝑢𝑒)
(𝑀𝑎𝑥𝑣𝑎𝑙𝑢𝑒 − 𝑀𝑖𝑛𝑣𝑎𝑙𝑢𝑒) (3.1) (3.1)
Trong đó: 𝑣𝑎𝑙𝑢𝑒𝑖: Giá trị thực tại bản ghi thứ 𝑖 của tập biến số 𝑣𝑎𝑙𝑢𝑒.
𝑀𝑎𝑥𝑣𝑎𝑙𝑢𝑒: Giá trị lớn nhất của tập biến số 𝑣𝑎𝑙𝑢𝑒
𝑀𝑖𝑛𝑣𝑎𝑙𝑢𝑒: Giá trị nhỏ nhất của tập biến số 𝑣𝑎𝑙𝑢𝑒
𝑣𝑎𝑙𝑢𝑒𝑛𝑖: Giá trị của biến số sau khi đã chuẩn hóa.
Vậy đầu vào của mạng nơ ron nhận đƣợc sẽ là tập bộ dữ liệu có giá trị trong khoảng [0-1]. Dữ liệu đầu ra, kết quả dự đoán của mạng sẽ nhận đƣợc giá trị trong khoảng [0-1]. Khi đó thực hiện biến đổi dữ liệu từ khoảng [0-1] về dữ liệu theo công thức 3.2 .
𝑣𝑎𝑙𝑢𝑒𝑜 =𝑣𝑎𝑙𝑢𝑒𝑝∗ 𝑀𝑎𝑥𝑣𝑎𝑙𝑢𝑒 − 𝑀𝑖𝑛𝑣𝑎𝑙𝑢𝑒 + 𝑀𝑖𝑛𝑣𝑎𝑙𝑢𝑒 (3.2)
Trong đó: 𝑣𝑎𝑙𝑢𝑒𝑝: Giá trị tính toán của mạng.
𝑣𝑎𝑙𝑢𝑒𝑜: Giá trị dự đoán của mạng.
𝑀𝑎𝑥𝑣𝑎𝑙𝑢𝑒: Giá trị lớn nhất của tập biến số giá đóng của.
𝑀𝑖𝑛𝑣𝑎𝑙𝑢𝑒: Giá trị nhỏ nhất của tập biến số giá đóng của.
3.5.2. Phân tích dữ liệu
Từ biểu đồ giá close của mã KCZ13 trên chúng ta nhận thấy rằng dữ liệu giá là một đƣờng tuyến tính theo ngày giao dịch. Vậy điểm cần chú ý ở đây là các điểm cực đại, cực tiểu trên đồ thị, hay là những thời điểm thị trƣờng đảo chiều. Nếu chỉ sử dụng dữ liệu của ngày t-1 để dự đoán giá đóng cửa của ngày t thì kết quả dự báo không chính xác ở các điểm cực đại, cực tiểu. Ngay cả trên đà tăng, giảm của thị trƣờng, việc dự báo giá đóng cửa tại các thời điểm thị trƣờng đang giảm sâu, hay giảm nhẹ, tƣơng tự tới tăng mạnh hay tăng nhẹ. Nếu chỉ dựa vào giá lịch sử của ngày hôm trƣớc để xác định giá đóng của của ngày hôm sau thì chúng ta sẽ mắc phải vấn đề trên.
Để giải quyết vấn đề trên. Chúng ta sử dụng quy tắc 5 điểm nhƣ sau: Sử dụng khoảng cách từ 5 điểm liên tiếp đến điểm tiếp theo để xác định vị trí tiếp theo trên đƣờng đi tuyến tính của một đồ thị. Ta sẽ có các trƣờng hợp cần xét tới nhƣ sau:
o Trên cùng xu hƣớng giá: có hai xu lƣớng giá là trên đà tăng giá và trên đà giảm giá. Trên cả 2 xu hƣớng này các biến số cố định trong lịch sử cùng nằm trên một đƣờng thẳng xác định điểm tƣơng lai trên cùng đà xu hƣớng. Giá trị của điểm tƣơng lai đƣợc xác định thông qua khoảng cách giữa các điểm trong mạng.
o Các điểm cục bộ của thị trƣờng: ở các điểm này khó xác định nhất là điểm bắt đầu đảo chiều. Các điểm này có dấu hiệu rõ ràng trên khoảng cách các điểm xét tới điểm dự báo.