Chuẩn bị dữ liệu và tiền xử lý dữ liệu

Một phần của tài liệu 886 ứng dụng mô hình học sâu LSTM trong bài toán dự báo giá cổ phiếu ở thời điểm đóng cửa cho một số mã cổ phiếu ở thị trường chứng khoán việt nam (Trang 44 - 48)

Chứng khoán chịu ảnh bởi nhiều yếu tố bao gồm các yếu tố mang tính tuyến tính và cả phi tuyến tính. Với một mã cổ phiếu có các thuộc tính cơ bản giá đóng cửa, giá

Symbol Date Closed

O NaN NIaN NaN

1 ACB 02/01/2019 29.2 0 2 ACB 03/01/2019 28.1 0 3 ACB 04/01/2019 28.3 0 4 ACB 07/01/2019 0 28.7 571 ACB 23/04/2021 33.4 0 572 ACB 26/04/2021 33.3 0 573 ACB 27/04/2021 34.0 0 574 ACB 28/04/2021 33.8 0 575 ACB 29/04/2021 34.6 5

mở cửa, giá cao nhất, giá thấp nhất, giá điều chỉnh, số lượng giao dịch, số lượng khớp. Đây là thuộc tính các nhà đầu tư, nhà phân tích quan tâm, bởi các yếu này là một phần quyết định lãi thu được từ việc giao dịch chứng khoán. Trong bài khóa luận này, em đã thu thập tập dữ liệu của 5 mã cổ phiếu ACB, FPT, MBB, SSI, VNM gồm các thuộc tính nêu trên. Bộ dữ liệu được thu thập từ năm 2019 đến nay.

Nguồn: cafef

Hình 22. Hình thể hiện giá trị của các thuộc tính cơ bản của chứng khoán

Các thuộc tính trên đều có thể ảnh hưởng tới giá trị chứng khoán trong tương lai. Ở đây, chúng ta có thể hiểu rằng giá đóng cửa (closing price) là mức giá khớp lệnh cuối cùng trong một phiên giao dịch, khớp lệnh có nghĩa người mua và người bán chấp nhận với mức giá đó. Hơn hết, giá đóng cửa sẽ là giá tham chiếu cho ngày hôm sau. Giá đóng cửa đóng một phần quyết định các thuộc tính khác của chứng khoán. Đây cũng là thuộc tính gần tương lai nhất, xác suất dự đoán giá tương lai cao hơn các thuộc tính khác. Xét về đặc điểm của thuộc tính giá đóng cửa, trong bài khóa luận này em sẽ sử dụng giá đóng cửa để dự báo xu hướng giá cổ phiếu.

576 rows X 3 columns

Hình 23. Hình thể hiện dữ liệu dự báo

Với tập dữ liệu khoảng 576 dòng dữ liệu của từng mã cổ phiếu, em chia bộ dữ liệu thành các tập dữ liệu đào tạo (train) và dữ liệu để kiểm tra (test) với tỷ lệ 8:2, 80 % cho bộ dữ liệu train và 20% cho bộ dữ liệu test.

Đoạn mã Python xử lý bộ dữ liệu: lb=10

X,y = processData(cl,lb)

X_train1,X_test1 = X[:int(X.shape[0]*0.80)],X[int(X.shape[0]*0.80):] y_train1,y_test1 = y[:int(y. shape[0]* 0.80)],y[int(y.shape[0]*0.80):] print(X_train1.shape[0],X_train1.shape[1])

print(X_test1.shape[0], X_test1.shape[ 1]) print(y_train1.shape[0])

print(y_test 1.shape[0])

Dưới đây là đồ thị thể hiện đường giá cổ phiếu của ACB, FPT, SSI, VNM, MBB: trục hoành thể hiện thời gian, trục tung thể hiện giá cả:

Hình 24. Đồ thị thể hiện đường giá đóng cửa của mã cổ phiếu ACB

Hình 25. Đồ thị thể hiện đường giá đóng cửa của mã cổ phiếu FPT

Hình 27. Đồ thị thể hiện đường giá đóng cử của mã cổ phiếu SSI

Hình 28. Đồ thị thể hiện đường giá đóng cửa của mã cổ phiếu VNM

Từ các đồ thị thể hiện giá cổ phiếu qua hai năm ở trên, em nhận thấy giá cổ phiếu Việt Nam đầy biến động, độ dốc của đồ thị không ổn định.

Một phần của tài liệu 886 ứng dụng mô hình học sâu LSTM trong bài toán dự báo giá cổ phiếu ở thời điểm đóng cửa cho một số mã cổ phiếu ở thị trường chứng khoán việt nam (Trang 44 - 48)