Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 92 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
92
Dung lượng
2,72 MB
Nội dung
TRƯỜNG ĐẠI HỌC SƯ PHẠM TPHCM KHOA CÔNG NGHỆ THÔNG TIN DƯƠNG THỊ HỊA BÌNH NGỤY THẾ DƯƠNG XÂY DỰNG MƠ HÌNH HỌC SÂU DỰ ĐỐN XU HƯỚNG GIÁ CHỨNG KHỐN KHĨA LUẬN TỐT NGHIỆP TP HỒ CHÍ MINH - NĂM 2022 TRƯỜNG ĐẠI HỌC SƯ PHẠM TPHCM KHOA CÔNG NGHỆ THƠNG TIN DƯƠNG THỊ HỊA BÌNH NGỤY THẾ DƯƠNG XÂY DỰNG MƠ HÌNH HỌC SÂU DỰ ĐỐN XU HƯỚNG GIÁ CHỨNG KHỐN CHUN NGÀNH: KHOA HỌC MÁY TÍNH KHĨA LUẬN TỐT NGHIỆP NGƯỜI HƯỚNG DẪN KHOA HỌC: TS KIỀU MY TS NGUYỄN KHẮC VĂN TP HỒ CHÍ MINH - NĂM 2022 Lời cảm ơn Đầu tiên, xin gởi lời cảm ơn chân thành đến TS Kiều My, TS Nguyễn Khắc Văn, người tận tình hướng dẫn, động viên, giúp đỡ nhóm chúng em suốt thời gian thực đề tài Trong thời gian làm việc với Thầy chúng em học hỏi nhiều kiến thức bổ ích mà cịn học tinh thần thái độ làm việc nghiêm túc kiến thức sống quý báu Thầy Chúng em xin gởi lời cảm ơn đến tất Thầy Cô khoa Công nghệ Thông tin dạy dỗ truyền đạt cho chúng em nhiều kiến thức suốt năm học vừa qua Cảm ơn quý thầy, cô hội đồng chấm luận văn giúp chúng em có thêm nhiều kiến thức biết thiếu sót luận văn nhóm Xin gởi lời cảm ơn chân thành đến gia đình bè bạn ln nguồn động viên to lớn, giúp đỡ, chia sẻ khó khăn, vui buồn chúng em suốt thời gian qua Mặc dù chúng em cố gắng hoàn thiện luận văn với tất nỗ lực tránh khỏi thiếu sót Chúng em kính mong nhận thông cảm bảo quý Thầy, Cô bạn đồng môn Mục lục Lời cảm ơn Một số kí hiệu viết tắt Danh sách hình vẽ Danh sách bảng 11 Mở đầu 12 TỔNG QUAN VỀ BÀI TOÁN DỰ ĐOÁN XU HƯỚNG GIÁ CHỨNG KHOÁN 17 1.1 Tổng quan thị trường chứng khoán 17 1.1.1 Khái niệm chứng khoán 17 1.1.2 Tầm quan trọng thị trường chứng khoán 17 1.1.3 Khái niệm cổ phiếu 18 Tổng quan toán hồi quy 19 1.2.1 Khái niệm hồi quy 19 1.2.2 Bài toán hồi quy Học máy 19 1.2.3 Bài toán dự đoán xu hướng giá chứng khoán 20 Tình hình nghiên cứu 20 1.3.1 Tình hình nghiên cứu nước 22 1.3.2 Tình hình nghiên cứu nước 23 1.2 1.3 CƠ SỞ LÝ THUYẾT 25 2.1 Tổng quan phân tích 25 2.2 Tổng quan phân tích kỹ thuật 26 2.2.1 Một số báo kỹ thuật 27 Giới thiệu mơ hình chuỗi thời gian ARIMA 28 2.3.1 Lý thuyết mơ hình 28 2.3.2 Ưu nhược điểm mơ hình ARIMA 30 2.4 Ưu nhược mơ hình Machine Learning 31 2.5 Giới thiệu mạng nơron nhân tạo 33 2.5.1 Các thành phần ANN 33 2.5.2 Lan truyền thẳng 39 2.5.3 Lan truyền ngược 39 Giới thiệu mạng Convolutional Neural Network 40 2.6.1 Kiến trúc CNN 41 2.6.2 Lớp tích chập (Convolutional Layer) 41 2.6.3 Lớp Pooling (Lớp tổng hợp) 45 2.6.4 Lớp Fully connected 45 Giới thiệu mạng Recurrent Neural Network 46 2.7.1 Kiến trúc mơ hình 46 2.7.2 Các vấn đề mạng RNN 47 2.7.3 Các biến thể phổ biến 48 Giới thiệu mạng Long-short term Memory 50 2.8.1 Cổng quên (Forget gate) 51 2.8.2 Cổng cập nhật (Update gate) 52 2.8.3 Cổng đầu (Output gate) 53 Phương pháp huấn luyện 54 2.9.1 Gradient Descent (GD) 55 2.9.2 Stochastic Gradient Descent (SGD) 56 2.9.3 Momentum 57 2.3 2.6 2.7 2.8 2.9 58 2.9.5 RMSprop (Root Mean Square Propagation) 59 2.9.6 Adam 59 61 3.1 Kiến trúc mơ hình CNN - LSTM kết hợp 61 3.1.1 Tổng quan 61 3.1.2 Các lớp thành phần đề xuất 62 Phương pháp đánh giá 65 3.2.1 MAPE 65 3.2.2 MAE 65 3.2.3 RMSE 66 3.2.4 MSE 67 3.2.5 AMSE 67 3.2.6 Accuracy 68 THỰC NGHIỆM 69 4.1 Dữ liệu thực nghiệm 69 4.1.1 Bộ liệu thị trường chứng khoán Việt Nam 69 4.1.2 Bộ liệu thị trường chứng khoán nước 70 4.1.3 Tiền xử lý liệu chuẩn hóa 70 Quá trình thực nghiệm đánh giá mơ hình đề xuất 74 4.2.1 Môi trường thực nghiệm 74 4.2.2 Q trình huấn luận mơ hình thành phần kết thực 4.2 4.3 Adagrad MƠ HÌNH ĐỀ XUẤT 3.2 2.9.4 nghiệm 75 So sánh với công trình cơng bố 81 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 84 5.1 Kết luận 84 5.2 Hướng phát triển 85 Tiếng Việt 86 Tiếng Anh 88 Danh mục viết tắt KÝ HIỆU TÊN TIẾNG ANH TKGD Tài khoản giao dịch FA Fundamental Analysis TA Techincal Analysis RF Reinforcement Learning SVM Support Vector Machine ANN Artificial Neural Network CNN Convolutional Neural Network RNN Recurrent Neural Network DRNN Deep Recurrent Neural Network LSTM Long-Short term memory GRU Gated Recurrent Unit ARMA Autoregressive Moving Average ARIMA Autoregressive Integrated Moving Average Bi-LSTM Bidirectional Long-Short term memory SVR Support Vector Regression MA Moving Average SMA Simple Moving Average EMA Exponential Moving Average RSI Relative Strength Index ROC Rate of Change MFI Money Flow Index OBV On-Balance Volume MACD Moving Average Convergence Divergence AIC Akaike Information Criterion KNN K-Nearest Neighbour ReLU Rectified Linear Unit GD Gradient Descent SGD Stochastic Gradient Descent RMSprop Root Mean Square Propagation MAPE Mean Absolute Percentage Error MAE Mean Absolute Error RMSE Root Mean Squared Error MSE Mean Squared Error AMSE Adjusted Mean Squared Error CKVN Chứng khoán Việt Nam CKNN Chứng khốn nước ngồi Danh sách hình vẽ 1.1 Mơ hình tổng qt tốn dự đốn xu hướng giá chứng khốn 21 2.1 Mơ hình mạng nơron sinh học 33 2.2 Đơn vị xử lý 34 2.3 Minh họa mơ hình Logistic regression [3] 35 2.4 Mơ hình mạng nơron tổng quát [3] 37 2.5 Mơ hình mạng nơron tầng [3] 38 2.6 Mơ hình CNN [15] 41 2.7 Biểu diễn hình ảnh đầu vào lọc dạng ma trận [10] 42 2.8 Tính tích chập ảnh đầu vào với lọc x [10] 43 2.9 Phép tính convolution ảnh màu với k=3 [10] 43 2.10 Minh hoạt phép tích chập với đệm = [6] 44 2.11 Minh hoạt phép tích chập với sải bước theo chiều dài theo chiều rộng [6] 44 2.12 Minh hoạt Max pooling với lọc 2x2 stride [6] 45 2.13 Mơ hình RNN truyền thống [12] 46 2.14 Mơ tả bên mơ hình RNN [12] 47 2.15 Kiến trúc mơ hình BiRNN DeepRNN [12] 49 2.16 Kiến trúc mơ hình GRU [12] 49 2.17 Kiến trúc mơ hình LSTM [1] 50 2.18 Trạng thái tế bào LSTM [1] 51 X yi − yˆ i MAE = n (3.2) i=1 Ưu điểm: • Vì lấy giá trị tuyệt đối, tất sai số tính theo thang đo tuyến tính, khơng đặt nhiều trọng số cho giá trị ngoại lai • Dễ dàng so sánh mẫu khác với Nhược điểm: • Nếu mơ hình bị ảnh nhiều giá trị ngoại lai, MAE không hiệu Các lỗi lớn đến từ giá trị ngoại lai tính trọng số giống hệt lỗi nhỏ Điều dẫn đến việc mơ hình thường dự đoán tốt, thường xuyên đưa vài dự đốn 3.2.3 RMSE Sai số trung bình bình phương gốc (Root Mean Squared Error - RMSE) tính bậc hai trung bình sai số bình phương giá trị dự đoán thực tế mẫu v t RMSE = n 2 1X yi − yˆ i n (3.3) i=1 Ưu điểm: • RMSE đảm bảo cho mơ hình hạn chế dự đốn giá trị ngoại lai với sai số lớn, RMSE đặt trọng số lớn cho lỗi lớn phần bình phương cơng thức tính tốn Nhược điểm: • Nếu mơ hình đưa dự đốn tệ, phần bình phương hàm phóng đại sai số Tuy nhiên, nhiều trường hợp thực tế, không quan 66 tâm nhiều đến ngoại lệ hướng tới mơ hình tồn diện, hoạt động đủ tốt số đông Điểm giống MAE RMSE hai giá trị không âm, với giá trị đánh giá thấp tốt Sự khác biệt quan trọng RMSE so với MAE lỗi bình phương trước lấy trung bình, nên RMSE cho trọng số tương đối cao với lỗi lớn Điều có nghĩa RMSE hữu ích gặp lỗi lớn 3.2.4 MSE Sai số trung bình bình phương (Mean Squared Error - MSE) tính trung bình bình phương sai số giá trị dự đoán thực tế mẫu Ngoài việc sử dụng làm phương pháp đánh giá, MSE thường sử dụng để làm hàm mát cho toán hồi quy n 2 1X MSE = yi − yˆ i n (3.4) i=1 3.2.5 AMSE RMSE, MAPE, MAE, phương pháp đánh giá thường dùng cho toán hồi quy Tuy nhiên phương pháp không xem xét đến “hướng” kết dự đoán Để giải vấn đề đó, luận văn đề xuất metric đánh giá để đo hiệu suất mơ hình việc dự đoán xu hướng giá chứng khoán, cụ thể phương pháp Sai số trung bình bình phương có điều chỉnh (Adjusted Mean Squared Error - AMSE) với công thức xác định sau: n 2 1X ˆ ) AMSE = yi − yˆ i ∗ c(yi , yi+1 , yˆi , yi+1 n i=1 67 (3.5) với: 1, sign(yi+1 − yi ) = sign( yˆ i+1 − yˆ i ), ˆ )= c(yi , yi+1 , yˆi , yi+1 2, sign(yi+1 − yi ) , sign( yˆ i+1 − yˆ i ) (3.6) 1, x ≥ 0, sign(x) = 0, x < (3.7) Trong đó: AMSE giải vấn đề cách nhân hàm c vào MSE Hàm c cho phép AMSE phạt gấp hai lần cho dự đoán sai “hướng” so với dự đoán độ lệch “hướng” 3.2.6 Accuracy Thơng thường tốn dự đốn xu hướng chứng khốn xem tốn phân lớp (classification) Để đánh giá chất lượng dự đoán, ta sử dụng Accuracy phương pháp đánh giá Accuracy thể tỷ lệ dự mẫu dự đoán tổng số lượng mẫu Accuracy cao thể hiệu suất dự đốn mơ hình tốt Accuracy tính cơng thức sau: Accuracy = Ncorrect Nall (3.8) Với Ncorrect đại diện cho số mẫu có xu hướng với số mẫu thực tế, Nall đại diện cho toàn mẫu 68 Chương THỰC NGHIỆM 4.1 Dữ liệu thực nghiệm Dữ liệu thành phần cốt lõi, khơng thể thiếu tốn máy học Dữ liệu ví vàng giới khoa học, liệu chất lượng tối quan trọng để có mơ hình dự đốn xác Thơng thường thực nghiệm máy học, liệu chia làm thành phần để thực nghiệm đánh giá gồm tập huấn luyện (training set), tập kiểm định (validation set) tập kiểm thử (test set) Cơ sở liệu sử dụng gồm liệu, liệu thị trường chứng khoán Việt Nam liệu thị trường chứng khoán nước (Mỹ) 4.1.1 Bộ liệu thị trường chứng khoán Việt Nam Bộ liệu chứng khoán Việt Nam (CKVN) gồm liệu lịch sử mã chứng khoán thuộc VN50 index (50 cổ phiếu hàng đầu Việt Nam) từ lúc phát hành đến 29/12/2021 Gồm trường liệu: Giá mở cửa (Open), giá đóng cửa (Close), giá cao (High), giá thấp (Low), khối lượng (Volume), lấy từ thư viện vnquant tác giả Phạm Đình Khánh Bộ liệu gồm: 69 Bảng 4.1: Bộ liệu CKVN Bộ liệu Số mã chứng khoán Tổng số liệu VN50 4.1.2 50 98915 Bộ liệu thị trường chứng khốn nước ngồi Bộ liệu chứng khốn nước ngồi (CKNN) gồm liệu mã chứng khoán thuộc S&P 100 index - tập hợp S&P 500 index (500 cổ phiếu hàng đầu Mỹ) từ lúc phát hành đến 29/12/2021 Gồm trường liệu: Giá mở cửa (Open), giá đóng cửa (Close), giá cao (High), giá thấp (Low), khối lượng (Volume), lấy từ trang tin tức kinh tế Yahoo Finance thư viện yfinance Bộ liệu gồm: Bảng 4.2: Bộ liệu CKNN Bộ liệu Số mã chứng khoán Tổng số liệu S&P100 4.1.3 100 573438 Tiền xử lý liệu chuẩn hóa Dữ liệu gồm nhiều đặc trưng, đặc trưng lại có độ lớn nhỏ khác Điều tác động hiệu thuật tốn ví dụ trình hội tụ, thời gian thực hay ảnh hưởng đến khái qt hóa mơ hình độ xác thuật tốn Với giá trị đầu vào lớn dẫn đến bùng nổ tham số Vì người ta thường điều chỉnh để đặc trưng đầu vào có khoảng tỉ lệ Hai phương pháp thường dùng để điều chỉnh tỉ lệ liệu thường sử dụng bình thường hóa liệu (data normalization) chuẩn hóa liệu (data standardization) Bình thường hóa liệu phương pháp điều chỉnh liệu từ miền giá trị bất 70 kì đoạn [0, 1] Giá trị tính theo công thức: x′ = x − xmin xmax − xmin (4.1) Trong x giá trị ban đầu, xmax xmin tương ứng giá trị lớn nhỏ liệu trước chuẩn hóa, x′ giá trị sau điều chỉnh Chuẩn hóa liệu đưa liệu dạng phân phối chuẩn có giá trị trung bình độ lệch chuẩn Cơng thức chuẩn hóa sau: x′ = x−x σ (4.2) Với x σ kỳ vọng phương sai thành phần tồn liệu huấn luyện Luận văn sử dụng phương pháp bình thường hóa liệu, đưa đặc trưng đoạn [0, 1] Dữ liệu gồm liệu giá cổ phiếu 100 mã chứng khoán thuộc S&P 100 index 50 mã chứng khoán thuộc VN50 index, mã bình thường hóa liệu cách độc lập mơ tả hình 4.1 Hình 4.1: Bình thường liệu độc lập 71 Sau điều chỉnh khoảng giá trị đặc trưng, nhãn cần dự đốn mơ hình Yi , giá ngày thứ i, sử dụng chuỗi giá lịch sử 40 ngày trước là: Xi = {xi−40 , xi−39 , , xi−2 , xi−1 } (4.3) Hình 4.2: Minh họa phương pháp tạo liệu Với xi−t giá ngày thứ t trước đó, gồm năm đặc trưng chuỗi giá (giá đóng, mở, thấp nhất, cao nhất, volume) đặc trưng đầu vào để dự đốn giá trị Yi Hình 4.3: Minh họa liệu đầu vào cho mơ hình Dữ liệu sau chuẩn hóa xử lý Hình 4.3, liệu chia thành 72 Bảng 4.3: Mô tả liệu Train, Validation, Test Bộ liệu Train Validation Test Tổng VN50 67843 16418 S&P100 447399 101551 24488 573438 Tổng 515242 117969 39142 672353 14654 98915 ba tập: tập huấn luyện (train dataset), tập kiểm định (validation dataset) tập kiểm thử (test dataset) Tập huấn luyện sử dụng để huấn luyện tinh chỉnh tham số mơ hình Tập kiểm định nhằm lựa chọn mơ hình tốt ngăn chặn mơ hình bị học tập q mức (overfitting) Tập kiểm thử dùng để so sánh khả dự báo kiểm tra khả khái qt hóa mơ hình Dữ liệu chia làm ba phần, 76.66% liệu dùng cho tập huấn luyện, 17.54% liệu dùng cho tập kiểm định 5.8% liệu dùng cho tập kiểm thử Hình 4.4: Minh họa chia tập liệu 73 4.2 Quá trình thực nghiệm đánh giá mơ hình đề xuất 4.2.1 Mơi trường thực nghiệm 4.2.1.1 Mơi trường lập trình • Ngơn ngữ lập trình: Python • Thư viện: Pandas, Numpy, Sklearn, Tensorflow, Keras, Pickle, Matplotib • Text editor: VSCode 4.2.1.2 Mơi trường huấn luyện Mơ hình luận văn đề xuất huấn luyện tảng Google Colab với cấu sau: • Processor: Intel(R) Xeon(R) CPU @ 2.20GHz • Memory: 12GB RAM • VGA: Tesla P100 16GB 4.2.1.3 Mơi trường thực nghiệm Luận văn thực nghiệm phần cứng với cấu sau: • Hệ điều hành: Microsoft Windows 10 Home (21H1) • Processor: Processor Intel(R) Core(TM) i7-6700HQ CPU @ 2.60GHz, 2601 Mhz, Core(s), Logical Processor(s) • Memory: 16GB RAM • VGA: NVIDIA GeForce GTX 960M 74 4.2.2 Q trình huấn luận mơ hình thành phần kết thực nghiệm Dựa kết thực nghiệm, nhóm nhận định rằng, sử dụng liệu mã cổ phiếu (Đơn) để dự đoán giá trị ngày kết dự đốn mơ hình khơng thật tốt Bởi lý sau: • Mơ hình khơng dự đốn tốt liệu khứ mẫu (pattern) gần tương tự • Dữ liệu mã cổ phiếu không đủ nhiều để phản ánh biến động thị trường Để giải vấn đề đó, luận văn đề xuất cách gộp liệu cổ phiếu VN50 index liệu từ thị trường chứng khoán nước ngồi S&P100 để mơ hình học mẫu đa dạng góp phần giảm thiểu sai lệch với giá trị thực tế Bảng 4.4 kết thực nghiệm việc sử dụng liệu đơn mã cổ phiếu liệu gộp VN50 index S&P100 Bảng 4.4: So sánh kết liệu đơn liệu gộp Đầu Mã cổ phiếu High Đơn Low Gộp Đơn Close Gộp Đơn Gộp FPT 1.41E-03 3.43E-04 1.38E-03 2.50E-04 1.47E-03 5.32E-04 KBC 2.86E-04 1.32E-04 2.87E-04 1.61E-04 4.83E-04 3.09E-04 VCB 2.22E-04 1.73E-04 1.75E-04 1.57E-04 3.51E-04 2.83E-04 VNM 9.90E-05 4.66E-05 7.66E-05 2.85E-05 9.02E-05 6.57E-05 APPL 1.59E-05 6.71E-06 8.10E-06 6.41E-06 1.48E-05 1.15E-05 AMZN 1.14E-03 1.11E-04 3.22E-04 1.16E-04 8.11E-04 1.89E-04 FB 4.68E-04 1.65E-04 1.02E-03 1.67E-04 1.05E-03 2.71E-04 WFC 8.78E-05 9.34E-05 1.16E-04 8.45E-05 1.66E-04 1.37E-04 75