Dựa vào lí do trên, tác giả lựa chọn thực hiện bài khóa luận về đề tài “Ứng dụng mô hình Machine Learning trong dự báo dữ liệu thị trường chứng khoán Việt Nam" để nghiên cứu và đánh giá
Trang 1TRƯỜNG ĐẠI HỌC NGÂN HÀNG TP HỒ CHÍ MINH
KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC
ỨNG DỤNG MÔ HÌNH MACHINE LEARNING TRONG
DỰ BÁO DỮ LIỆU THỊ TRƯỜNG CHỨNG KHOÁN
Trang 2TRƯỜNG ĐẠI HỌC NGÂN HÀNG TP HỒ CHÍ MINH
KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC
ỨNG DỤNG MÔ HÌNH MACHINE LEARNING TRONG
DỰ BÁO DỮ LIỆU THỊ TRƯỜNG CHỨNG KHOÁN
VIỆT NAM
NGÀNH: TÀI CHÍNH – NGÂN HÀNG
MÃ SỐ : 7340201
NGƯỜI HƯỚNG DẪN KHOA HỌC
TS ĐÀO LÊ KIỀU OANH
TP HỒ CHÍ MINH, NĂM 2024
Trang 3TÓM TẮT
Dự báo biến động của chỉ số chứng khoán là một thách thức bởi tính không ổn định và phi tuyến tính xu hướng của chuỗi thời gian tài chính Tuy nhiên, với sự phát triển của công nghệ khoa học, cụ thể là học máy, học sâu và trí tuệ nhân tạo, việc áp dụng các phương pháp thiên hướng công nghệ để xử lý dữ liệu lớn và phát hiện các
mô hình phức tạp đã mở ra nhiều tiềm năng trong lĩnh vực tài chính Do sự phức tạp của dữ liệu thị trường chứng khoán, việc phát triển các mô hình hiệu quả để dự đoán
là rất khó khăn Bài khóa luận này đã cố gắng phát triển hai mô hình và so sánh hiệu suất của chúng trong việc dự đoán hướng đi của chỉ số VN-Index Sở Giao dịch Chứng khoán Thành phố Hồ Chí Mình (HOSE) hàng ngày Giai đoạn thu thập từ ngày 3/1/2012 đến ngày 29/12/2023 Hai mô hình học máy Support Vector Machine (SVM), Artificial Neural Network (ANN) được sử dụng với 9 biến đầu vào để phục
vụ dự báo Mục tiêu là đánh giá hiệu suất dự đoán của các mô hình này và đem so sánh chúng Các mô hình đã được huấn luyện và đánh giá bằng các chỉ số như Mean Squared Error (MSE), Mean Absolute Error (MAE), Root Mean Squared Error (RMSE) Những chỉ số này sẽ giúp đánh giá độ chính xác và xác định đâu là mô hình
có khả năng dự đoán tốt nhất và ít sai sót nhất Kết quả thí nghiệm cho thấy hiệu suất
dự báo của mô hình ANN tốt hơn so với mô hình SVM
Từ khóa: Thị trường chứng khoán, học máy, dự báo, Mạng Nơ-ron Nhân Tạo,
Máy Vec-tơ Hỗ trợ
Trang 4ABSTRACT
Predicting stock market index fluctuations is a challenging task due to the instability and non-linear trends of financial time series However, with the advancement of technology, specifically in machine learning, deep learning, and artificial intelligence, the application of technology-oriented methods to handle big data and detect complex patterns has opened up numerous potentials in the financial field Due to the complexity of stock market data, developing efficient models for prediction is very difficult This thesis attempts to develop two models and compare their performance in predicting the daily movement direction of the VN-Index of the
Ho Chi Minh City Stock Exchange (HOSE) The data collection period spans from January 3, 2012, to December 29, 2023 Two machine learning models, Support Vector Machines (SVM) and Artificial Neural Network (ANN), are employed along with nine input variables for forecasting purposes The goal is to evaluate and compare the prediction performance of these models The models have been trained and evaluated using metrics such as Mean Squared Error (MSE), Mean Absolute Error (MAE), and Root Mean Squared Error (RMSE) These metrics will help assess accuracy and determine which model has the best prediction capability with the least errors Experimental results show that the predictive performance of the ANN model was significantly better than that of the SVM model
Keywords: Stock market, machine learning, forecast, Artificial Neural Network,
Support Vector machines
Trang 5LỜI CAM ĐOAN Tôi xin cam đoan khóa luận với đề tài “Ứng dụng mô hình Machine Learning
trong dự báo dữ liệu thị trường chứng khoán Việt Nam" được thực hiện dưới sự
hướng dẫn khoa học của TS Đào Lê Kiều Oanh Khóa luận này là công trình nghiên cứu riêng của tác giả, kết quả nghiên cứu là trung thực, trong đó không có các nội dung đã được công bố trước đây hoặc các nội dung do người khác thực hiện ngoại trừ các trích dẫn được dẫn nguồn đầy đủ trong khóa luận
TP Hồ Chí Minh, ngày tháng năm 2024
Tác giả
(Ký, ghi rõ Họ tên)
Trang 6LỜI CẢM ƠN
Lời đầu tiên, tôi xin chân thành cảm ơn TS Đào Lê Kiều Oanh đã tận tâm giúp đỡ, nhận xét từng bước chi tiết, góp ý tận tình để tôi có thể hoàn thành bài luận này thật hoàn chỉnh và đúng tiến độ theo quy định Nhà trường Bên cạnh đó, tôi cũng gửi lời cảm ơn chân thành đến Quý Thầy/Cô Ban lãnh đạo, các phòng ban quản lý và hỗ trợ sinh viên Chất lượng cao trường Đại học Ngân hàng Thành phố Hồ Chí Minh đã tạo cho tôi cơ hội tiếp cận với môi trường nghiên cứu học thuật thông qua thực hiện Khóa luận, để tôi có cái nhìn sâu hơn so với kiến thức nền đã học tại trường Trong suốt thời gian làm bài, rất cảm ơn bạn bè và gia đình luôn bên cạnh giúp đỡ, tạo điều kiện tôi hoàn thành khóa luận thật tốt Trân trọng cảm ơn!
TP Hồ Chí Minh, ngày tháng năm 2024
Tác giả
Trang 7MỤC LỤC
TÓM TẮT i
ABSTRACT ii
MỤC LỤC v
DANH MỤC TỪ VIẾT TẮT viii
DANH MỤC BẢNG x
DANH MỤC HÌNH ẢNH xi
MỞ ĐẦU 1
CHƯƠNG 1: GIỚI THIỆU ÐỀ TÀI NGHIÊN CỨU 1
1.1 LÝ DO CHỌN ĐỀ TÀI NGHIÊN CỨU 1
1.2 MỤC TIÊU NGHIÊN CỨU 2
1.2.1 Mục tiêu tổng quát 2
1.2.2 Mục tiêu cụ thể 3
1.3 CÂU HỎI NGHIÊN CỨU 3
1.4 ĐỐI TƯỢNG VÀ PHẠM VI NGHIÊN CỨU 3
1.4.1 Đối tượng nghiên cứu 3
1.4.2 Phạm vi nghiên cứu 4
1.5 PHƯƠNG PHÁP NGHIÊN CỨU 4
1.6 ĐÓNG GÓP CỦA NGHIÊN CỨU 6
1.7 KẾT CẤU CỦA KHÓA LUẬN 6
KẾT LUẬN CHƯƠNG 1 9
CHƯƠNG 2: CƠ SỞ LÝ THUYẾT VÀ TỔNG QUAN NGHIÊN CỨU 10
2.1 TỔNG QUAN VỀ DỰ BÁO CHỨNG KHOÁN 10
2.1.1 Khái niệm về dự báo chứng khoán 10
2.1.2 Ứng dụng học máy dự báo chứng khoán 12
2.2 TỔNG QUAN VỀ HỌC MÁY 14
2.3 TỔNG QUAN MỘT SỐ THUẬT TOÁN HỌC MÁY 17
2.3.1 Mô hình Suport Vector Machine (SVM) 17
2.3.2 Mô hình Artificial Neural Network (ANN) 20
Trang 82.4 TỔNG QUAN CHUNG VỀ DỮ LIỆU 22
2.4.1 Dữ liệu chỉ số cơ bản 22
2.4.2 Dữ liệu chỉ số kỹ thuật 22
2.5 CÁC NGHIÊN CỨU THỰC NGHIỆM CÓ LIÊN QUAN 23
2.5.1 Các nghiên cứu trong nước 23
2.5.2 Các nghiên cứu nước ngoài 24
2.5.3 Thảo luận về các nghiên cứu thực nghiệm và khoảng trống nghiên cứu 26 KẾT LUẬN CHƯƠNG 2 31
CHƯƠNG 3: PHƯƠNG PHÁP NGHIÊN CỨU 32
3.1 TỔNG QUAN VỀ NGÔN NGỮ LẬP TRÌNH PYTHON 32
3.2 TRÌNH TỰ THỰC HIỆN MÔ HÌNH NGHIÊN CỨU 34
3.3 PHƯƠNG PHÁP THU THẬP DỮ LIỆU 35
3.3.1 Dữ liệu 35
3.3.2 Phương pháp lựa chọn biến 37
3.4 TIỀN XỬ LÝ DỮ LIỆU 44
3.5 XÂY DỰNG MÔ HÌNH HỌC MÁY 46
3.5.1 Support Vector Machines 46
3.5.2 Artificial Neural Network 48
3.7 CÁC KIỂM ĐỊNH, ĐÁNH GIÁ HIỆU SUẤT MÔ HÌNH 49
KẾT LUẬN CHƯƠNG 3 51
CHƯƠNG 4: KẾT QUẢ NGHIÊN CỨU VÀ THẢO LUẬN 52
4.1 KẾT QUẢ NGHIÊN CỨU 52
4.1.1 Thống kê mô tả 52
4.1.2 Kết quả hiệu suất mô hình 55
4.1.3 Trực quan hóa kết quả 56
4.2 THẢO LUẬN KẾT QUẢ NGHIÊN CỨU 58
KẾT LUẬN CHƯƠNG 4 60
CHƯƠNG 5: KẾT LUẬN VÀ HÀM Ý CHÍNH SÁCH 61
Trang 95.1 KẾT LUẬN 61
5.2 HÀM Ý CHÍNH SÁCH 63
5.3 HẠN CHẾ CỦA ĐỀ TÀI VÀ HƯỚNG NGHIÊN CỨU TIẾP THEO 65 5.3.1 Hạn chế của đề tài 65
5.3.2 Hướng nghiên cứu tiếp theo 66
KẾT LUẬN CHƯƠNG 5 67
TÀI LIỆU THAM KHẢO 68
PHỤ LỤC 1: DỮ LIỆU ĐẦU VÀO 73
PHỤ LỤC 2: THỐNG KÊ MÔ TẢ 73
PHỤ LỤC 3: KẾT QUẢ MÔ HÌNH SVM 73
PHỤ LỤC 4: KẾT QUẢ MÔ HÌNH ANN 73
PHỤ LỤC 5: CÁC CÂU LỆNH TRONG BÀI 74
Trang 10DANH MỤC TỪ VIẾT TẮT
1 AI Artificial Intelligence Trí tuệ nhân tạo
Network Mạng nơ-ron nhân tạo
Index Chỉ số kênh hàng hóa
4 CPI Consumer Price Index Chỉ số giá tiêu dùng
Product Tổng sản phẩm nội địa
Exchange
Sở Giao dịch Chứng khoán Thành phố Hồ Chí
Minh
Convergence Divergence
Trang 1112 MSE Mean Squared Error
Average Đường trung bình động
Hồ Chí Minh
21 VN-INDEX
Chỉ số biến động giá cổ phiếu niêm yết tại Thị trường Giao dịch Chứng khoán Thành phố Hồ Chí
Minh
Trang 12DANH MỤC BẢNG
Bảng 2.1 Tổng hợp các nghiên cứu thực nghiệm trong và ngoài nước 27
Bảng 3.1 Mô tả các biến sử dụng trong mô hình 41
Bảng 3.2 Hai biến Price và Lag14 sau khi được chuẩn bị 43
Bảng 4.1 Bảng thống kê mô tả các biến trong mô hình nghiên cứu 52
Bảng 4.2 Hiệu suất của hai mô hình SVM và ANN 55
Trang 13DANH MỤC HÌNH ẢNH
Hình 2.1 Quy trình làm việc của một mô hình dự đoán thị trường chứng khoán
sử dụng học có giám sát 16
Hình 2.2 Mô hình SVM 18
Hình 3.1 Quy trình nghiên cứu 34
Hình 3.2 Giải thích cách tính biến phụ thuộc 43
Hình 3.3 Trực quan hóa hai biến Price và Lag14 44
Hình 3.4 Câu lệnh thuật toán SVR bằng hàm RBF Kernel 47
Hình 3.5 Câu lệnh thuật toán FNN 48
Hình 4.1 Trực quan hóa kết quả của mô hình SVM 56
Hình 4.2 Trực quan hóa kết quả của mô hình ANN 57
Trang 14MỞ ĐẦU
CHƯƠNG 1: GIỚI THIỆU ÐỀ TÀI NGHIÊN CỨU
1.1 LÝ DO CHỌN ĐỀ TÀI NGHIÊN CỨU
Trong suốt hơn hai mươi năm hình thành và trải qua nhiều giai đoạn, xu hướng biến động của thị trường chứng khоán Việt Nаm ngày càng phức tạp và khó kiểm soát Việc dự đoán chính xác các chỉ số chứng khoán trong tương lai là một lĩnh vực quan trọng được các nhà nghiên cứu và nhà đầu tư quan tâm (Phuoc và cộng sự, 2024) Tại Việt Nam, làn sóng dịch COVID - 19 lần thứ tư xuất hiện với biến chủng mới đã ảnh hưởng nghiêm trọng đến nền kinh tế nước nhà Có nghiên cứu cho rằng,
số lượng các nhà đầu tư cá nhân mới tham gia trong giai đoạn đó tăng nhanh chóng khiến chỉ số VN-Index lần đầu tiên vượt mốc 1500 điểm, đạt mức cao nhất kể từ trước đến nay (Toàn và cộng sự, 2022) Tuy nhiên, điều này đặt ra những thách thức đáng
kể đối với việc dự đoán xu hướng tương lai của các chỉ số chứng khoán trên thị trường đầy rủi ro này
Giá cổ phiếu là yếu tố được các nhà đầu tư, phân tích viên đặc biệt quan tâm khi nghiên cứu thị trường hay đưa ra các quyết định đầu tư Lý thuyết thị trường hiệu quả cho rằng giá của cổ phiếu phải phản ánh tất cả các thông tin sẵn có liên quan đến cổ phiếu đó (Fama, 1970) Dựa trên sự biến động ngẫu nhiên và khó khăn trong trong quá trình dự đoán tương lai của các thị trường tài chính, việc tìm kiếm các mô hình
dự báo chính xác cao và hệ thống sinh lợi vẫn thu hút rất nhiều sự chú ý từ giới học thuật (Weng và cộng sự, 2017) Việc nắm rõ xu hướng biến động các chỉ số chứng khoán trên thị trường chứng khoán không chỉ giúp đưa ra quyết định đầu tư phù hợp
mà còn giúp tối ưu hóa lợi nhuận trên thị trường, Vì vậy, quá trình phân tích dự đoán
xu hướng tương lai chỉ số chứng khoán luôn vấn đề thiết yếu đối với nhà đầu tư và chuyên gia tài chính
Cùng với sự tiến bộ về khoa học công nghệ và khả năng tính toán, lĩnh vực Học Máy hay Machine Learning đã trở thành một công cụ tiềm năng trong việc dự báo thị
Trang 15trường đầy biến biến động như chứng khoán Học máy đại diện cho một phần của trí tuệ nhân tạo, trong đó máy tính học hỏi từ các bộ dữ liệu và cải thiện hiệu suất theo thời gian sau đó tìm ra các quy luật và mô hình dự đoán từ các dữ liệu mẫu thu thập được Trên thực tế, đã có nhiều nghiên cứu thực nghiệm trong lĩnh vực dự báo, Tripathy (2019), Rajihy và cộng sự (2017) và Sen (2017) đã sử dụng các mô hình học máy hiện đại và tuyền thống như SVM, ANN, ARIMA để phân tích chuỗi thời gian
để dự báo giá cổ phiếu và đạt được kết quả có độ chính xác đáng kể Hơn nữa, việc
áp dụng các thuật toán học máy và học sâu để dự báo giá cổ phiếu ngắn hạn cũng cho thấy độ chính xác rất cao từ nghiên cứu của (Sen và cộng sự, 2016); (Sen và cộng sự, 2018) Ngoài ra, Mehtab & Sen (2021) đã nghiên cứu khả năng dự đoán chỉ số chứng khoán là NIFTY từ thuật toán mạng nơ-ron tổng hợp (CNN), kết quả dự đoán chỉ số chứng khoán có độ chính xác cao
Tuy nhiên, trong phạm vi lược khảo các bài nghiên cứu thực nghiệm, tác giả chưa tìm thấy nghiên cứu so sánh thuật toán SVM, ANN trong dự báo chỉ số chứng khoán
ở nước ngoài nói chung và trong nước nói riêng, mặc dù đây là 2 phương pháp có khả năng dự báo hiệu quả và phổ biến trong các nghiên cứu dự báo chuỗi dữ liệu thời
gian Dựa vào lí do trên, tác giả lựa chọn thực hiện bài khóa luận về đề tài “Ứng dụng
mô hình Machine Learning trong dự báo dữ liệu thị trường chứng khoán Việt Nam" để nghiên cứu và đánh giá hiệu suất dự đoán của các mô hình học máy hiện
đại được thực hiện trong bài, từ đó tìm ra mô hình phù hợp hơn trong việc dự báo chỉ
số chứng khoán trên TTCK Việt Nam
1.2 MỤC TIÊU NGHIÊN CỨU
1.2.1 Mục tiêu tổng quát
Mục tiêu của bài nghiên cứu là xây dựng mô hình học máy hiện đại để dự báo chỉ
số chứng khoán VN – Index Từ đó so sánh khả năng dự đoán chính xác của các thuật toán trong bài và góp ý nhà đầu tư đưa ra quyết định phù hợp
Trang 161.2.2 Mục tiêu cụ thể
Từ mục tiêu tổng quát, đề tài xác định các mục tiêu cụ thể như sau:
Một là, phân tích đặc điểm các mô hình học máy được sử dụng trong bài để dự báo
chỉ số chứng khoán trên TTCK Việt Nam
Hai là, xác định mức độ quan trọng của quá trình thu thập, tiền xử lý dữ liệu và
huấn luyện dữ liệu đến kết quả xây dựng mô hình dự báo chỉ số chứng khoán trên TTCK Việt Nam
Ba là, so sánh kết quả từ các thuật toán sử dụng trong bài để chọn ra thuật toán
hiệu suất dự báo tối ưu nhất Từ đó, đề xuất gợi ý, khuyến nghị cho nhà đầu tư trong việc dự báo chỉ số chứng khoán trên TTCK Việt Nam
1.3 CÂU HỎI NGHIÊN CỨU
Xuất phát từ những mục tiêu nghiên cứu vừa nêu trên, khóa luận sẽ trả lời lần lượt những câu hỏi sau đây:
Câu hỏi thứ nhất: Những đặc điểm của các mô hình học máy được sử dụng trong
bài để dự báo chỉ số chứng khoán trên TTCK Việt Nam là gì?
Câu hỏi thứ hai: Quá trình thu thập, tiền xử lý dữ liệu có ảnh hưởng như thế nào
đến hiệu suất dự báo chỉ số chứng khoán trên TTCK Việt Nam?
Câu hỏi thứ ba: Thuật toán nào được sử dụng trong bài có hiệu suất dự báo tối ưu
nhất và các khuyến nghị, gợi ý cho nhà đầu tư trong việc dự báo chỉ số chứng khoán trên TTCK Việt Nam là gì?
1.4 ĐỐI TƯỢNG VÀ PHẠM VI NGHIÊN CỨU
1.4.1 Đối tượng nghiên cứu
Đề tài tập trung nghiên cứu cách xây dựng mô hình học máy cho dự báo chỉ số
chứng khoán trên TTCK Việt Nam
Trang 171.4.2 Phạm vi nghiên cứu
Phạm vi không gian:
Đề tài sử dụng giá, khối lượng giao dịch trong ngày của chỉ số VN-Index đại diện TTCK Việt Nam kết hợp với 7 chỉ báo kỹ thuật bao gồm Đường SMA 10 ngày, Đường SMA 20 ngày, Đường EMA 10 ngày, Chỉ số RSI, CCI, MACD, Momentum để dự báo giá VN-Index 14 ngày tiếp theo Vì được lựa chọn nhằm đảm bảo các biến thu thập có đầy đủ thông tin dựa vào nguồn dữ liệu, các biến chỉ báo kỹ thuật bị thiếu sót
dữ liệu từ trong giai đoạn 2012 - 2023 sẽ bị loại khỏi mẫu nghiên cứu
Phạm vi thời gian:
Dữ liệu sử dụng trong bài nghiên cứu là dữ liệu ngày được thu thập, xử lý và đưa vào mô hình dự báo trong giai đoạn từ tháng 01/2012 - tháng 12/2023 Sau cuộc khủng hoảng tài chính toàn cầu năm 2009, từ năm 2012 đến 2023, TTCK Việt Nam
đã trải qua những biến động và sự phục hồi nhất định Đặc biệt, trong giai đoạn
2020-2021, TTCK chịu ảnh hưởng đáng kể từ đại dịch COVID-19 Bộ dữ liệu VN-Inex được cung cấp liên tục và đầy đủ trong suốt giai đoạn này
1.5 PHƯƠNG PHÁP NGHIÊN CỨU
Để có thể dự báo chỉ số VN-Index của TTCK Việt Nam, tác giả lựa chọn ngôn ngữ lập trình Python làm công cụ để thu thập, xử lý dữ liệu và xây dựng các mô hình học máy Tác giả lựa chọn sử dụng ngôn ngữ lập trình này để phục vụ chính cho khóa luận không chỉ vì sự phổ biến của nó, mà còn về tính đa dạng trong nhiều lĩnh vực đặc biệt là lĩnh vực mà bài luận đang hướng tới
Khi so sánh Python với các ngôn ngữ lập trình khác như C++, R, Java, một trong những lý do chính khiến Python được ưa chuộng chính là cú pháp rõ ràng và dễ hiểu, làm cho việc học và viết các câu lệnh trở nên dễ dàng hơn so với nhiều ngôn ngữ lập trình khác Điều này quan trọng trong môi trường học thuật, nơi mà việc nhanh chóng tiếp thu ngôn ngữ lập trình là cần thiết để tập trung vào các vấn đề nghiên cứu cốt lõi Ngoài ra, Python được biết đến với sự phong phú, đa dạng các thư viện như NumPy,
Trang 18Pandas, Matplotlib, SciPy và Scikit-Learn Những thư viện này cung cấp các công cụ cần thiết để xử lý dữ liệu, phân tích thống kê, trực quan hóa dữ liệu, giúp tối ưu thời gian và công sức nghiên cứu Vì là ngôn ngữ lập trình phổ biến nhất nên có rất nhiều diễn đàn, cộng đồng lớn luôn hoạt động sôi nổi Quan trọng hơn cả, điều này có nghĩa
là có rất nhiều nguồn tài liệu, hướng dẫn và hỗ trợ trực tuyến, giúp các nhà nghiên cứu dễ dàng tìm kiếm sự trợ giúp và học hỏi thêm kiến thức
Tác giả đã sử dụng phương pháp định lượng để tiến hành tổng hợp dữ liệu Đối với chỉ số đại diện, tác giả đã thu thập dữ liệu giá đóng cửa hàng của chỉ số VN - Index từ đầu năm 2012 – 2023 thông qua thư viện VnStock của Python Ngoài ra, các chỉ báo kỹ thuật được tác giả tính toán bằng Excel và đưa vào sử dụng làm biến độc lập Sau đó, khóa luận tiến hành xây dựng mô hình học máy dự báo bằng ngôn ngữ Python trên nền tảng Google Colab Hai mô hình học máy được lựa chọn là SVM và ANN Cụ thể, thuật toán Support Vector Machines (SVM) có khả năng mạnh mẽ về phân loại và hồi quy, phù hợp cho dữ liệu tuyến tính và phi tuyến tính Trong việc dự báo chỉ số chứng khoán, có thể được sử dụng để phân loại các xu hướng của thị trường, dự báo giá cổ phiếu, tối ưu hóa hiệu suất dự báo và giảm thiểu sai số Mạng Nơ-ron Nhân Tạo (ANN) được lấy cảm hứng từ cách hoạt động của não bộ con người,
có thể được sử dụng để xây dựng các mô hình học tập tự động từ dữ liệu lịch sử, từ
đó dự báo giá chứng khoán trong tương lai Mạng nơ-ron trong ANN bao gồm các lớp nơ-ron kết nối với nhau qua các trọng số Các mô hình ANN có thể được đào tạo thông qua các thuật toán như lan truyền ngược (backpropagation) để điều chỉnh các trọng số sao cho dự báo của mô hình tiến gần đến thực tế nhất có thể Để tăng khả năng dự báo giá chứng khoán TTCK Việt Nam cho mô hình, chia dữ liệu thành hai tập, tập huấn luyện để mô hình có thể học, sau đó sử dụng tập kiểm tra để đánh giá hiệu suất của mô hình, bằng cách so sánh giữa giá thực tế và giá dự báo được mô hình đưa ra Nếu cần thiết, thực hiện tinh chỉnh các siêu tham số của mô hình để cải thiện hiệu suất dự báo, dựa trên kết quả từ tập validation Các thước đo đánh giá được khóa luận sử dụng để kiểm tra hiệu suất hoạt động, chọn ra mô hình nào dự báo tốt nhất bao gồm R-squared (R2), MSE (Mean Squared Error), RMSE (Root Mean Squared
Trang 19Error), MAE (Mean Absolute Error) Qua đó, tác giả thảo luận kết quả nghiên cứu và
đề xuất các gợi ý, khuyến nghị có liên quan
1.6 ĐÓNG GÓP CỦA NGHIÊN CỨU
Bài nghiên cứu cung cấp thêm góc nhìn khách quan cho quá trình đầu tư thông qua các phương pháp lĩnh vực Học Máy, ngoài ra còn đóng góp cho sự phát triển trong việc ứng dụng lĩnh vực ML vào mảng tài chính trong và ngoài nước Nghiên cứu này đóng góp một công cụ vô cùng hữu ích, giúp nhà đầu tư đưa ra những quyết định hợp
lí mà còn xây dựng những chiến lược đầu tư hiệu quả, kiểm soát rủi ro một cách tối
ưu nhất Những đóng góp của nghiên cứu không chỉ dừng lại ở giá trị học thuật mà còn mang lại lợi ích thực tiễn
Nghiên cứu cung cấp cho các nhà đầu tư những công cụ học máy hiện đại để hỗ trợ quá trình ra quyết định Nhờ đó, các nhà đầu tư có thể xây dựng chiến lược đầu tư phù hợp, quản lý rủi ro một cách chủ động và tối ưu hóa lợi nhuận từ các quyết định đầu tư của mình Hơn nữa, nghiên cứu còn đề xuất những hướng phát triển tiềm năng, khuyến khích việc áp dụng rộng rãi hơn của Machine Learning trong lĩnh vực tài chính nói chung và chứng khoán nói riêng trên thị trường Việt Nam Điều này không chỉ giúp nâng cao hiệu quả của các hoạt động đầu tư mà còn thúc đẩy sự phát triển và đổi mới của thị trường tài chính trong nước trong bối cảnh toàn cầu hóa và cách mạng công nghệ
1.7 KẾT CẤU CỦA KHÓA LUẬN
Ngoài các phần mở đầu và kết luận, danh sách từ viết tắt, danh sách bảng biểu, danh sách tài liệu tham khảo, và phụ lục, nội dung của đề tài bao gồm 05 chương như sau:
Chương 1: Giới thiệu đề tài nghiên cứu
Chương 1 của bài luận sẽ trình bày các khía cạnh nền tảng của đề tài nghiên cứu, bao gồm lý do chọn đề tài, mục tiêu nghiên cứu, câu hỏi nghiên cứu, phạm vi và phương pháp nghiên cứu Lý do chọn đề tài giải thích tầm quan trọng của nghiên cứu,
Trang 20mục tiêu nghiên cứu xác định những gì cần đạt được, và câu hỏi nghiên cứu định hướng các vấn đề chính cần giải quyết Phạm vi nghiên cứu mô tả giới hạn về không gian, thời gian và đối tượng, trong khi phương pháp nghiên cứu trình bày cách thức thu thập và phân tích dữ liệu Đồng thời, chương này nêu rõ các đóng góp của đề tài
và cấu trúc bài luận, giúp người đọc có cái nhìn tổng quát và tạo tiền đề để hiểu sâu hơn các chương tiếp theo
Chương 2: Cơ sở lý thuyết và tổng quan nghiên cứu
Chương 2 sẽ trình bày tổng quan lý thuyết về thị trường chứng khoán, việc dự báo thị trường trong tương lai, phân loại dữ liệu, khai phá dữ liệu và giới thiệu các thuật toán Machine Learning Mục tiêu của chương này là giúp người đọc nắm vững những kiến thức cơ bản và chuyên sâu được sử dụng trong bài nghiên cứu
Chương 3: Phương pháp nghiên cứu
Trong chương 3 này, tác giả mô tả quy trình nghiên cứu, bao gồm việc thu thập và tiền xử lý dữ liệu Phương pháp thu thập dữ liệu và các bước tiền xử lý cụ thể được trình bày chi tiết, đồng thời mô tả quá trình kiểm tra tính dừng của bộ dữ liệu Chương này cũng đề cập đến việc xây dựng các mô hình học máy, một bước quan trọng trong quá trình nghiên cứu
Chương 4: Kết quả nghiên cứu và thảo luận
Chương này trình bày chi tiết các bước từ việc thu thập giá trị biến đầu vào, xử lý biến, nguyên tắc xây dựng mô hình cho đến việc tiến hành đánh giá và so sánh các
mô hình Machine Learning Những kết quả thu được sẽ là cơ sở quan trọng để quyết định mô hình nào sẽ được sử dụng trong ứng dụng thực tế, đảm bảo tính hiệu quả và khả thi cao nhất
Chương 5: Kết luận và hàm ý chính sách
Chương 5 được tác giả nội dung kết luận, tổng hợp các kết quả đạt được, đánh giá khả năng dự bảo của các mô hình, và đưa ra các hạn chế Các khuyến nghị được đề
Trang 21xuất, bao gồm hướng phát triển tiềm năng và ứng dụng thực tế, nhấn mạnh sự quan trọng của nghiên cứu trong việc đóng góp vào sự phát triển của lĩnh vực Machine Learning trong tài chính tại Việt Nam
Trang 22KẾT LUẬN CHƯƠNG 1
Chương 1 trình bày tổng quan về đề tài nghiên cứu như lý do chọn đề tài, mục tiêu nghiên cứu mà tác giả hướng đến, phạm vi và đối tượng nghiên cứu, đóng góp của đề tài và cấu trúc của bài nghiên cứu gồm có 5 chương cụ thể giúp tiếp cận nghiên cứu
dễ dàng hơn
Trang 23CHƯƠNG 2: CƠ SỞ LÝ THUYẾT VÀ TỔNG QUAN
NGHIÊN CỨU
2.1 TỔNG QUAN VỀ DỰ BÁO CHỨNG KHOÁN
2.1.1 Khái niệm về dự báo chứng khoán
Theo Kranthi (2018), dự đoán thị trường chứng khoán là hoạt động cố gắng xác định giá trị tương lai của một cổ phiếu hoặc công cụ tài chính được giao dịch trên sàn giao dịch chứng khoán Đây là quá trình sử dụng các phương pháp và công cụ để ước tính được giá trị hay xu hướng biến động trong tương lai Theo Badolia (2016), sự quan tâm của đại đa số người dân đối với thị trường chứng khoán đã trải qua một sự tăng trưởng theo cấp số nhân trong vài thập kỷ qua Nếu một người gia nhập TTCK với vai trò như nhà đầu tư cá nhân hoặc tổ chức có thể dự báo chính xác hành vi của thị trường, điều này sẽ cho phép họ liên tục đạt được lợi nhuận cao hơn so với thị trường Mặc dù vậy, đầu tư cổ phiếu có rủi ro cao do sự không chắc chắn và biến động trên thị trường chứng khoán (Hyndman và cộng sự, 2018) Do đó, các nhà đầu
tư phải hiểu bản chất của từng cổ phiếu riêng lẻ và các yếu tố phụ thuộc của chúng ảnh hưởng đến giá cổ phiếu để tăng cơ hội đạt được lợi nhuận cao hơn (Lê Văn Tuấn
và cộng sự, 2021)
Kara và cộng sự (2011) cho rằng việc dự đoán chỉ số giá cổ phiếu và xu hướng biến động của nó được xem là một trong những thách thức lớn nhất trong dự đoán chuỗi thời gian tài chính Mặc dù có nhiều nghiên cứu thực nghiệm đã giải quyết các vấn đề về dự đoán chỉ số giá cổ phiếu, phần lớn các phát hiện thực nghiệm tập trung vào các thị trường tài chính đã phát triển
Dự báo sự biến động TTCK là một chủ đề quan trọng trong lĩnh vực tài chính Dự báo chính xác sẽ giúp nhà đầu tư xây dựng các chiến lược đầu tư tối ưu và giảm thiểu rủi ro Lê Văn Tuấn và cộng sự (2021) cho rằng dự báo một số chỉ số tài chính dựa trên một số yếu tố tác động có thể dễ dàng, nhưng kết quả có thể không chính xác vì
Trang 24có những yếu tố khác chưa được đưa vào mô hình mà vẫn có thể ảnh hưởng quan trọng đến sự biến động của các chỉ số tài chính
Trương Đông Lộc (2014) đưa ra ý kiến rằng trên TTCK, giá cổ phiếu là một yếu
tố mà các nhà đầu tư đặc biệt quan tâm khi đưa ra các quyết định mua, bán Theo lý thuyết thị trường hiệu quả, giá cổ phiếu phải phản ánh tất cả các thông tin có sẵn liên quan đến cổ phiếu đó Nói cách khác, nếu thị trường hiệu quả, giá cổ phiếu sẽ chịu ảnh hưởng bởi nhiều nhân tố bao gồm vi mô và vĩ mô Tuy nhiên, nhiều nghiên cứu thực nghiệm đã chỉ ra rằng thị trường chứng khoán ở nhiều quốc gia không hiệu quả
Do đó, các thông tin khi được công bố có thể không được phản ánh đầy đủ vào giá
cổ phiếu Trong những năm gần đây, các nhân tố ảnh hưởng đến giá cổ phiếu đã trở thành chủ đề được nhiều nhà nghiên cứu tài chính đặc biệt quan tâm vì ý nghĩa quan trọng của chúng Nhiều nghiên cứu thực nghiệm đã chỉ ra rằng các yếu tố cơ bản của công ty, chẳng hạn như tỷ lệ cổ tức, có ảnh hưởng trực tiếp đến giá cổ phiếu Ngoài
ra, một số nghiên cứu khác lại tìm thấy bằng chứng về sự ảnh hưởng của các yếu tố
vĩ mô (như lãi suất, lạm phát, và tăng trưởng kinh tế) đến giá cổ phiếu Tuy nhiên, có rất ít nghiên cứu trong tài liệu học thuật đề cập đến việc dự đoán xu hướng biến động của chỉ số giá cổ phiếu trong các thị trường mới nổi, đặc biệt là thị trường chứng khoán Việt Nam
Cohen và cộng sự (2011) cho rằng các nhà đầu tư đã sử dụng các công cụ khác nhau để hỗ trợ đưa ra quyết định mua và bán cổ phiếu Hai phương pháp được sử dụng phổ biến nhất bao gồm phân tích cơ bản và phân tích kỹ thuật Phân tích cơ bản
sử dụng các dữ liệu kinh tế tập trung vào việc đánh giá giá trị nội tại của cổ phiếu dựa trên các yếu tố kinh tế, tài chính của công ty như doanh thu, lợi nhuận, tân suất, tỷ lệ chi trả cổ tức, và các yếu tố ngành và chỉ số kinh tế vĩ mô như lãi suất, lạm phát, tỷ giá, giá vàng, dầu, Trong khi phương pháp thứ hai dựa trên Lý thuyết Dow từ nghiên cứu của Murphy (1999) và sử dụng các biến động giá, khối lượng giao dịch lịch sử cũng như vô số công thức toán học, các biểu đồ và chỉ báo để dự đoán xu hướng chuyển động giá tăng hoặc giảm trong tương lai
Trang 25S Kim & Kang (2019) cho rằng việc đưa ra quyết định đúng đắn trong khoảng thời gian kịp thời là một thách thức lớn do cần một lượng thông tin khổng lồ để dự đoán sự biến động của giá thị trường chứng khoán Những thông tin này rất quan trọng đối với các nhà đầu tư vì sự biến động của thị trường chứng khoán có thể dẫn đến tổn thất đầu tư đáng kể Do đó, việc phân tích thông tin lớn này rất hữu ích cho các nhà đầu tư và cũng hữu ích cho việc phân tích xu hướng biến động của các chỉ số chứng khoán
Hơn nữa, Zhang và cộng sự (2017) chỉ ra việc dự đoán chuỗi thời gian giá trong các thị trường tài chính, vốn có tính chất không ổn định, là rất khó khăn bởi vì chúng
là các chuỗi động, hỗn loạn, nhiễu, và phi tuyến tính (Bezerra & Albuquerque, 2017)
Do đó, tài liệu về dự đoán thị trường tài chính rất phong phú về phương pháp và ứng dụng thực tiễn liên quan đến dữ liệu lịch sử để đánh giá khả năng sinh lợi của các kỹ thuật
2.1.2 Ứng dụng học máy dự báo chứng khoán
Theo S Kim & Kang (2019) trong những năm gần đây, sự thành công vượt bậc của các mô hình học máy trong nhiều lĩnh vực cũng như việc ứng dụng học máy trong tài chính ngày càng được chú ý và phát triển mạnh mẽ Quá trình sử dụng các thuật toán học máy để dự báo chỉ số TTCK và cổ phiếu đã trở nên phổ biến trên toàn thế giới, không chỉ trong nghiên cứu học thuật mà còn trong thực tiễn Điều này được thực hiện với mục tiêu cung cấp những phương pháp mới giúp các nhà đầu tư đưa ra quyết định hiệu quả hơn khi đầu tư vào TTCK
Theo Xiao và cộng sự (2013), những phương pháp kỹ thuật học máy tích hợp trí tuệ nhân tạo được sử dụng để tìm cách phân tích mẫu từ dữ liệu lịch sử được gọi là huấn luyện sau đó đưa ra dự báo Cụ thể, quá trình này diễn ra bằng cách xác định các mẫu và mối quan hệ trong bộ dữ liệu được chọn để huấn luyện, từ đó máy tính có thể đưa ra dự đoán về các giá trị và sự kiện trong tương lai Trong khi các phương pháp truyền thống sử dụng các quy tắc được xác định trước để đưa ra dự đoán, ngược lại học máy có khả năng học và thích nghi từ bất kỳ lượng dữ liệu nào Trong các bài
Trang 26toán dự báo của các nghiên cứu trước đây, các tác giả thường sử dụng dữ liệu lịch sử của chuỗi thời gian để đưa ra các ước lượng cho giá trị tương lai Gần đây, các nhà nghiên cứu đã bắt đầu phát triển các kỹ thuật học máy dựa trên quá trình sinh học và tiến hóa để giải quyết các vấn đề phức tạp và phi tuyến tính, trái ngược với các phương pháp truyền thống như các phương pháp thống kê cổ điển Ví dụ về các kỹ thuật học máy bao gồm Mạng thần kinh nhân tạo (Artificial Neural Networks - ANN), Máy vectơ hỗ trợ (Support Vector Machines - SVM), Lập trình di truyền (Genetic Programming - GP), thuật toán K-lân cận (K-nearest neighbors - KNN), Mô hình hồi quy Logistic, phân tích phân biệt tuyến tính (Linear Discriminant Analysis – LDA),
và phân tích phân biệt toàn phương (Quadratic Discriminant Analysis - QDA) Các nghiên cứu lĩnh vực tài chính thực nghiệm sử dụng học máy thường có hai giai đoạn chính Giai đoạn đầu tiên là việc lựa chọn các biến số tài chính và mô hình phù hợp cho việc dự đoán thị trường, sau đó tách một phần dữ liệu để huấn luyện các
mô hình, từ đó tối ưu hóa chúng Giai đoạn thứ hai áp dụng các mô hình đã được tối
ưu hóa vào dữ liệu dự định để kiểm tra, đo lường hiệu suất dự đoán Các kỹ thuật cơ bản được sử dụng trong tài liệu bao gồm: mạng nơ-ron nhân tạo (ANNs), máy vector
hỗ trợ (SVMs)
Ngoài các mô hình dự báo TTCK, Kumbure và cộng sự (2022) bổ sung rằng dữ liệu là thành phần thiết yếu trong việc dự báo TTCK và đóng vai trò quan trọng trong quá trình dự đoán Cụ thể, tất cả các phương pháp phân tích được thảo luận ở trên đều
sử dụng bộ dữ liệu hay các biến số trong một khoảng thời gian cụ thể để xây dựng
mô hình Dữ liệu liên quan đến thị trường chứng khoán thường chứa các chuỗi thời gian dưới nhiều dạng khác nhau, như giá chỉ số cổ phiếu, lợi nhuận, động lượng và lãi suất Trong bài luận này, tác giả tập trung vào việc đánh giá mô hình dự báo chỉ
số đại diện TTCK Việt Nam với dữ liệu được sử dụng chính trong bài là các chỉ báo
kỹ thuật
Một trong những khả năng mà các mô hình học máy được ứng dụng phổ biến đó
là dựa vào thông tin đầu vào để đưa ra dự đoán theo yêu cầu của người sử dụng Ví
Trang 27dụ như dự đoán hành vi tiêu dùng, hiểu xu hướng thị trường, dự báo các chỉ số kinh
tế, tài chính vi mô hay vĩ mô, hoặc thậm chí là giá cổ phiếu của một công ty được niêm yết trên sàn chứng khoán Thực tế, nó có thể được áp dụng cho bất kỳ vấn đề nào có dữ liệu theo chuỗi thời gian và mục tiêu là dự đoán tương lai Ưu điểm chính của việc sử dụng học máy là, một khi thuật toán học được cách xử lý dữ liệu, nó có thể tự động thực hiện công việc của mình Bài báo này sẽ cung cấp một cái nhìn tổng quan ngắn gọn và triển vọng tương lai về các ứng dụng rộng lớn của các thuật toán học máy
2.2 TỔNG QUAN VỀ HỌC MÁY
Học máy hay Machine Learning được định nghĩa là lĩnh vực nghiên cứu về các thuật toán cho phép máy tính thực hiện một nhiệm vụ cụ thể mà không cần được lập trình chi tiết (Mahesh, 2020) Học máy được áp dụng để cải thiện hiệu quả xử lý dữ liệu bởi máy tính Những thuật toán học máy sử dụng cho nhiều mục đích như khai thác dữ liệu, xử lý hình ảnh, hay dự đoán tương lai Lợi thế chính của việc sử dụng học máy là khi đã học được cách xử lý dữ liệu, nó có thể tự động thực hiện công việc của mình
Ryabtsev (2024) cho rằng, Học Máy (Machine Learning) và Trí tuệ Nhân tạo (Artificial Intelligence) hiện nay là xu hướng mới trong lĩnh vực CNTT Trong khi các cuộc thảo luận về sự an toàn của việc phát triển nó ngày càng phổ biến, các nhà phát triển đang mở rộng khả năng và năng lực của các mô hình học máy và trí tuệ nhân tạo để có thể áp dụng cho nhiều lĩnh vực khác như tài chính, xã hội, y tế Chúng được sử dụng rộng rãi để xử lý và phân tích khối lượng dữ liệu khổng lồ, đồng thời giúp giải quyết những công việc mà con người không thể làm thủ công được nữa do khối lượng và cường độ của chúng tăng lên đáng kể
Một trong những ứng dụng phổ biến hiện nay khi sử dụng trí tuệ nhân tạo và học máy trong TTCK đó là khả năng phân tích để xây dựng các dự đoán giá cổ phiếu, các chỉ số đại diện thị trường, giúp người dùng hiểu rõ xu hướng biến động, tạo ra các chiến lược phù hợp và tìm kiếm giải pháp hiệu quả hơn
Trang 28Theo Kubat (2017), đằng sau học máy là trích xuất những kiến thức học được từ
dữ liệu Vì là một nhánh của trí tuệ nhân tạo (AI) cho phép các hệ thống tự động cải thiện và học hỏi từ kinh nghiệm mà không cần phải lập trình lại cụ thể cho từng nhiệm
vụ Machine Learning sử dụng các thuật toán và mô hình thống kê để phân tích và rút
ra kiến thức từ dữ liệu, Mahesh (2020) tổng hợp các phương pháp học máy này được chia thành ba loại chính:
Supervised Learning (Học có giám sát):
Học có giám sát là một nhiệm vụ trong học máy, nơi mà máy học cách kết nối giữa biến đầu vào và đầu ra dựa trên các cặp dữ liệu mẫu Mô hình được đào tạo dựa trên một tập dữ liệu có gắn nhãn, nghĩa là mỗi mẫu dữ liệu đầu vào đi kèm với một đầu ra mong muốn Các thuật toán học máy có giám sát cần sự hỗ trợ từ bên ngoài, với tập
dữ liệu đầu vào được chia thành hai phần gồm tập huấn luyện và tập kiểm tra Tập huấn luyện chứa các biến đầu ra mà chúng ta cần dự đoán hoặc phân loại Các thuật toán học từ các mẫu trong tập huấn luyện và sau đó áp dụng kiến thức này vào tập kiểm tra để dự đoán hoặc phân loại Các thuật toán học máy có giám sát như Cây quyết định (Decision Tree), Máy vec-tơ hỗ trợ (Support Vector Machine),
Unsupervised Learning (Học không giám sát):
Học không giám sát là khi mô hình được đào tạo trên một tập dữ liệu không có nhãn, nghĩa là chỉ có dữ liệu đầu vào mà kết quả đầu ra không được xác định cụ thể Các thuật toán tự do khám phá cấu trúc dữ liệu mà không cần trợ giúp Khi dữ liệu mới xuất hiện, chúng sử dụng các đặc trưng đã học trước đó để nhận diện lớp của dữ liệu Học không giám sát chủ yếu được sử dụng cho việc phân cụm và giảm số lượng đặc trưng Mục tiêu của phương pháp này là để tìm kiếm một cấu trúc hoặc mẫu cụ thể trong dữ liệu đã chuẩn bị, chẳng hạn như phân cụm các điểm dữ liệu có đặc trưng tương tự hoặc giảm số chiều của dữ liệu Một trong số đó là phân cụm khách hàng dựa trên hành vi mua sắm, giảm số chiều của dữ liệu hình ảnh Một số thuật toán phổ biến như thuật toán giảm chiều (Principal Component Analysis), K-Means Clustering,
Trang 29Reinforcement Learning (Học tăng cường):
Học tăng cường là một trong ba mô hình cơ bản của học máy, bên cạnh học có giám sát và học không giám sát Học tăng cường được sử dụng khi một tác nhân học cách tương tác với môi trường để tối đa hóa khả năng định dạng, phân tích được tích lũy theo thời gian Thông qua nhiều thử nghiệm và sai lầm, mô hình nhận phản hồi dưới dạng phần thưởng hoặc hình phạt và điều chỉnh hành động của chính nó để đạt mục tiêu tốt nhất Ứng dụng có thể kể đến là trò chơi điện tử giúp phát triển mô hình
có khả năng chơi và chiến thắng trong cờ vây, cờ vua Trong lĩnh vực robot, học tăng cường được sử dụng để điều khiển các robot tự thực hiện bằng cách học di chuyển, tránh chướng ngại vật được cung cấp nhiều lần và theo mức độ khác nhau
Hình 2.1 Quy trình làm việc của một mô hình dự đoán thị trường chứng
khoán sử dụng học có giám sát
Nguồn: Tổng hợp từ Kumbure và cộng sự, 2022
Trang 30Để tối ưu hiệu suất dự báo của các thuật toán học máy, bước chuẩn bị dữ liệu đóng vai trò quan trọng trong đó Hình 2.1 được cung cấp bởi nghiên cứu của Kumbure và cộng sự, 2022 cho thấy, quá trình bắt đầu bằng việc thu thập, chọn dữ liệu chuỗi thời gian tài chính như giá cổ phiếu, lợi nhuận hoặc các thông tin liên quan trong một khoảng thời gian cụ thể Nếu mục tiêu nghiên cứu là một bài toán phân loại hoặc cần được dự đoán Trước tiên, dữ liệu liên quan cần được tiền xử lý, bao gồm việc làm sạch và loại bỏ dữ liệu bị thiếu hoặc không liên quan Tiếp theo, các chỉ số kỹ thuật
có thể được tính toán dựa trên dữ liệu chuỗi thời gian cơ bản, chẳng hạn như giá đóng cửa cửa Khi đã có được dữ liệu “sạch” bao gồm các chỉ số kỹ thuật, dữ liệu tiếp tục được tiền xử lý thêm bằng việc chuẩn hóa và giảm chiều tức là lựa chọn các đặc trưng, trích xuất đặc trưng, và tạo đặc trưng để có được các biến liên quan và lọc ra những biến không liên quan
2.3 TỔNG QUAN MỘT SỐ THUẬT TOÁN HỌC MÁY
2.3.1 Mô hình Suport Vector Machine (SVM)
Theo Sharma và cộng sự (2017), SVM hay Support Vector Machines là một trong những phương pháp hiệu quả cho việc dự báo chuỗi thời gian Vì là thuật toán học giám sát (Supervised learning) nên khi được cung cấp bất kỳ tập dữ liệu huấn luyện
có nhãn nào cho các đặc trưng riêng biệt nên có thể hoạt động với hiệu suất tối ưu dữ liệu bị hạn chế Ngoài ra, thuật toán SVM có thể được sử dụng cho mục đích hồi quy
và phân loại Các chỉ số đo lường TTCK được biểu diễn trên các mặt phẳng tọa độ khác nhau
Ngoài việc thực hiện phân loại tuyến tính, SVM còn có thể thực hiện phân loại phi tuyến hiệu quả bằng cách sử dụng "kernel trick" Phương pháp này ánh xạ đầu vào của chúng vào không gian đặc trưng có số chiều cao hơn Mục tiêu chính của SVM
là tìm ra siêu phẳng (Hyperplane) tối ưu trong không gian N-chiều để phân tách các điểm dữ liệu thuộc các lớp khác nhau và đảm bảo rằng biên giữa các điểm dữ liệu gần nhất của các lớp khác nhau là lớn nhất có thể Số chiều của siêu phẳng (hyperplane) sẽ phụ thuộc vào các điểm dữ liệu đầu vào Nếu số biến đầu vào là hai,
Trang 31thì siêu phẳng chỉ là một đường thẳng, nếu số lượng đặc trưng là ba, thì siêu phẳng trở thành một mặt phẳng 2-D (Mahesh, 2020)
Vector hỗ trợ (support vectors) là các điểm dữ liệu gần nhất với siêu phẳng, rất quan trọng trong việc xác định vị trí của siêu phẳng vì chúng xác định biên Biên (margin) là khoảng cách giữa siêu phẳng và các điểm gần nhất thuộc hai lớp khác nhau
Hình 2.2 Mô hình SVM
Nguồn: Tổng hợp từ Mahesh, 2020
Kim (2003) cho rằng thuật toán SVM sử dụng mô hình tuyến tính để thực hiện biên phân lớp phi tuyến qua việc ánh xạ phi tuyến các vector đầu vào “x” vào không gian đặc trưng cao chiều Một mô hình tuyến tính được xây dựng trong không gian mới có thể biểu diễn một ranh giới quyết định phi tuyến trong không gian ban đầu Trong không gian mới, một siêu phẳng phân chia tối ưu được xây dựng Do đó, SVM được biết đến là thuật toán tìm ra một loại đặc biệt của mô hình tuyến tính, gọi là siêu phẳng ranh giới cực đại Siêu phẳng ranh giới cực đại cung cấp sự phân tách tối đa giữa các lớp quyết định Các ví dụ huấn luyện gần nhất với siêu phẳng ranh giới cực đại được gọi là vector hỗ trợ Tất cả các ví dụ huấn luyện khác là không quan trọng
để định nghĩa các biên phân lớp nhị phân Đối với trường hợp phân chia tuyến tính, một siêu phẳng phân chia các lớp quyết định nhị phân trong trường hợp ba thuộc tính
có thể được biểu diễn như sau:
𝑦 = 𝑤0+ 𝑤1𝑥1+ 𝑤2𝑥2+ 𝑤3𝑥3 Trong đó:
• 𝑦 : Biến phụ thuộc
Trang 32Khi dữ liệu không thể phân loại dễ dàng bằng một siêu phẳng tuyến tính, SVM sử dụng các hàm hạt nhân (kernel) để ánh xạ dữ liệu vào không gian đặc trưng cao hơn, nơi nó có thể được phân chia tuyến tính Các hàm hạt nhân phổ biến bao gồm hạt nhân tuyến tính (linear kernel), hạt nhân đa thức (polynomial kernel), và hạt nhân RBF (Radial Basis Function kernel) Giống với nghiên cứu của (Cao và cộng sụ, 2019), tác giả sử dụng hàm kernel RBF để mô hình có thể xử lý các mối quan hệ phi tuyến tính giữa các biến đầu vào và biến mục tiêu trong trong trường hợp dữ liệu không thể phân loại hoặc mô tả bằng một siêu phẳng tuyến tính Hàm kernel RBF có thể được biểu diễn như sau:
𝐾(𝑥, 𝑥′) = exp(−𝜎‖𝑥 − 𝑥′‖2)
Trong đó:
• 𝐾(𝑥, 𝑥′) : là giá trị của hàm kernel RBF giữa hai điểm dữ liệu 𝑥, 𝑥′
• 𝜎 : là tham số gamma
• ‖𝑥 − 𝑥′‖2: là khoảng cách giữa biến độc lập 𝑥, 𝑥′
Không giống với các phương pháp truyền thống khác như ARIMA đặt giả sử rằng
dữ liệu có mối quan hệ tương quan, SVR vượt trội hơn trong việc xử lý các mẫu phi tuyến tính phức tạp thường có trong chuỗi thời gian Ví dụ, giá cổ phiếu rất hiếm đi theo một đường thẳng mà có thể sẽ biến động theo mùa hoặc điều chỉnh với biên độ
Trang 33lớn Với sức mạnh của các hàm kernel, thuật toán này có thể nắm bắt các xu hướng phi tuyến tính này và đưa ra dự báo chính xác hơn Tiếp theo là khả năng xử lý giá trị ngoại lai (Outliers), tất cả các loại dữ liệu từ bảng đến chuỗi thời gian đều dễ bị nhạy cảm với các ngoại lai, SVR tập trung vào các vectơ hỗ trợ, ưu tiên các điểm dữ liệu
có nhiều thông tin nhất để xác định siêu phẳng nên các ngoại lai sẽ ít ảnh hưởng hơn đến dự đoán của mô hình SVR nhằm mục đích tìm ra một siêu phẳng có biên độ lớn, giúp ngăn chặn tình trạng quá khớp (overfitting) và đẩy mạnh khả năng đọc hiểu tốt hơn cho các điểm dữ liệu khuất Bằng cách tập trung vào việc nắm bắt xu hướng cơ bản thay vì ghi nhớ các điểm dữ liệu cụ thể, thuật toán này có thể đưa ra những dự đoán đáng tin cậy hơn cho các bước thời gian trong tương lai
2.3.2 Mô hình Artificial Neural Network (ANN)
Mạng Nơ-ron Nhân Tạo (ANN) là mô hình được lấy cảm hứng từ cách các mạng neural sinh học trong não con người xử lý thông tin Nó bao gồm các lớp nút (nơ-ron) được kết nối với nhau hoạt động cùng nhau để nhận dạng mẫu, phân loại dữ liệu và đưa ra dự đoán Theo cách đơn giản nhất, Mạng Nơ-ron Nhân tạo lấy một hoặc nhiều biến đầu vào và xử lý chúng thông qua một loạt các phương trình để tạo ra một hoặc nhiều đầu ra Thông thường, một mạng có ba lớp: lớp đầu vào, lớp ẩn và lớp đầu ra
Lớp đầu vào (Input Layer): Lớp đầu vào nhận dữ liệu đầu vào thô Mỗi neuron
trong lớp này tương ứng với một đặc trưng trong dữ liệu đầu vào
Lớp ẩn (Hidden Layers): Các lớp ẩn thực hiện xử lý trung gian Có thể có nhiều
lớp ẩn, và mỗi nơ-ron trong lớp ẩn nhận đầu vào từ lớp trước và gửi đầu ra của nó đến lớp tiếp theo
Lớp đầu ra (Output Layers): Lớp đầu ra tạo ra các dự đoán hoặc phân loại cuối
cùng Số lượng nơ-ron trong lớp này tương ứng với số lượng lớp đầu ra hoặc mục tiêu hồi quy
Chhajer và cộng sự (2022) cho rằng, lớp đầu vào chứa tất cả các biến đặc trưng, được biểu thị là (x1, x2, x3) cho đến (xn) Lớp ẩn bao gồm một hoặc nhiều nút (đơn vị
Trang 34ẩn), được biểu thị bằng các vòng tròn trong các sơ đồ Cuối cùng là lớp đầu ra, có thể
có một hoặc nhiều đầu ra Số lượng nút và lớp càng nhiều, mạng càng có khả năng
xử lý các phép tính phức tạp hơn Chìa khóa để có được một mô hình hiệu quả là dự đoán chính xác các trọng số Thuật toán Lan truyền Ngược (Back Propagation Algorithm) thực hiện nhiệm vụ này; đây là thuật toán làm cho ANN trở thành một
mô hình học Nó học từ các sai lầm và tự điều chỉnh phù hợp ANN có thể mô hình hóa dữ liệu tốt hơn khi dữ liệu có độ biến động cao và phương sai không cố định ANN cũng đã được chứng minh là hiệu quả nhất trong việc dự đoán chuỗi thời gian tài chính, vì dữ liệu này thường rất biến động
Theo nghiên cứu của Rajihy và cộng sự (2017), Mạng nơ-ron ba lớp tiến layer feed-forward neural network) được coi là phù hợp để dự đoán trong lĩnh vực tài chính nhờ vào sự đơn giản và khả năng lấy xấp xỉ bất kỳ hàm liên tục phức tạp Vì vậy, tác giả sử dụng thuật toán FeedForward Neural Network để thực hiện dự báo chỉ
(three-số VN-Index Để tối ưu hóa thuật thoán, việc xác định sô lượng nơ-ron được đánh giá là khá quan trọng Nếu sử dụng quá ít nơ-ron trong lớp ẩn sẽ dẫn đến vấn đề dưới khớp (underfitting), ảnh hưởng tiêu cực đến khả năng dự báo Ngược lại, việc sử dụng quá nhiều nơ-ron trong lớp ẩn có thể gây ra nhiều vấn đề, bao gồm quá khớp (overfitting) và tăng thời gian huấn luyện mạng Về cơ bản, việc xác định số nơ-ron trong lớp ẩn sẽ các ba quy tắc Số nơ-ron lớp ẩn ở giữa số nơ-ron trong lớp đầu vào
và đầu ra, số nơ-ron trong lớp ẩn bằng 2/3 số nơ-ron trong lớp đầu vào cộng với số lượng nơ-ron trong lớp đầu ra Những quy tắc này giúp thiết kế cấu trúc mạng nơ-ron một cách hiệu quả dựa trên số lượng nơ-ron trong các lớp đầu vào và đầu ra, giúp cho thuật toán tránh được tình trạng quá khớp hay dưới khớp và cải thiện khả năng dự báo chuối thời gian TTCK
Trang 352.4 TỔNG QUAN CHUNG VỀ DỮ LIỆU
2.4.1 Dữ liệu chỉ số cơ bản
Các chỉ số cơ bản hay còn gọi là Fundamental Indicators được sử dụng cho phân tích cơ bản không chỉ dùng để dự báo thị trường chứng khoán, mà còn đo lường giá trị nội tại của doanh nghiệp và so sánh với ngành hoặc doanh nghiệp khác trên thị trường Khi sử dụng phương pháp này, giá trị cổ phiếu được xác định bởi tin tức tài chính, tâm lý thị trường và các yếu tố kinh tế Nhà đầu tư ước tính hiệu quả hoạt động của các công ty niêm yết trên sàn chứng khoán, từ đó có thể dự báo xu hướng biến động giá cổ phiếu trên TTCK (Kim & Kang, 2019)
Cụ thể, các chỉ số cơ bản đó sẽ được trích xuất, tính toán từ các mục trong báo cáo tài chính của công ty theo quý hoặc theo năm, từ đó có thể đánh giá tình hình kinh doanh, sức khỏe tài chính của doanh nghiệp nói riêng và tình hình của ngành nói chung Một số các chỉ số tài chính như chỉ số lợi nhuận trên khoản đầu tư (Return on Investment - ROI), tỷ lệ giá trên thu nhập (Price to Earnings Ratio - P/E), chỉ số đo lường lợi nhuận trên một cổ phiếu (Earnings per share – EPS), giá trị sổ sách (Price-to-Book Ratio - P/B), … Trên TTCK, những chỉ số này được tổng hợp và đóng vai trò quan trọng đối với các nhà đầu tư trong việc phân tích, đánh giá cũng như dự đoán tiềm năng tăng trưởng của doanh nghiệp, ngành và nền kinh tế
2.4.2 Dữ liệu chỉ số kỹ thuật
Dữ liệu chỉ số kỹ thuật hay Technical Indicators là các chỉ báo mà giao dịch viên
và nhà đầu tư sử dụng để dự báo biến động giá trong tương lai trên thị trường tài chính Theo Kim & Kang (2019), phương pháp này dựa trên cung và cầu trong thị trường tài chính Những chỉ báo được tính toán dựa vào lịch sử giá, khối lượng giao dịch theo khung thời gian giờ, ngày, tuần hoặc tháng, giá đóng cửa, giá mở cửa, giá cao nhất hoặc thấp nhất trong khoảng thời gian xác định Phương pháp này giúp dễ dàng xây dựng các mô hình vì chỉ xem xét các biến số định lượng, nó tập trung vào
Trang 36các mô hình giá và hành vi mua bán của thị trường thay vì các yếu tố cơ bản của công
ty
Ở phương pháp này, các nhà phân tích sẽ căn cứ vào biểu đồ, đồ thị diễn biến giá
và khối lượng giao dịch cổ phiếu đưa ra khuyến nghị mua - bán cổ phiếu trên thị trường Xét về bản chất, quan điểm phân tích kỹ thuật cho rằng có mẫu hình trong quá khứ có xu hướng quy luật (lặp lại) vì vậy có thể dùng để dự đoán giá cổ phiếu trong tương lai
2.5 CÁC NGHIÊN CỨU THỰC NGHIỆM CÓ LIÊN QUAN
2.5.1 Các nghiên cứu trong nước
Lê Văn Tuấn và cộng sự (2021) đã thực hiện việc áp dụng một số mô hình và thuật toán học máy để dự báo xu hướng biến động (tăng/giảm) của chỉ số chứng khoán Việt Nam Kết quả cho thấy rằng trong số các mô hình hồi quy Logistic, mô hình phân tích phân biệt tuyến tính (LDA), phân tích phân biệt toàn phương (QDA) và mô hình
K – lân cận (KNN) Kết quả cho thấy, mô hình KNN(10) đã đạt được độ chính xác khoảng 55,6%, đánh giá dự báo tốt nhất so với các mô hình còn lại
Tran Phuoc và cộng sự (2024) đã sử dụng thuật toán Long Short Term Memory (LSTM) và các chỉ báo phân tích kỹ thuật tương ứng cho từng mã cổ phiếu bao gồm: đường SMA (Simple Moving Average), đường MACD (Convergence Divergence Moving Average), và chỉ số RSI (Relative Strength Index), với dữ liệu thứ cấp từ các
cổ phiếu VN-Index và VN-30 Kết quả nghiên cứu cho thấy mô hình dự báo có độ chính xác đạt 93% đối với hầu hết dữ liệu cổ phiếu được sử dụng, chứng minh tính phù hợp của mô hình LSTM trong việc phân tích và dự báo biến động giá cổ phiếu trên nền tảng học máy
Đào Lê Kiều Oanh & Nguyễn Thị Minh Châu (2024) đã nghiên cứu đánh giá hiệu quả trong việc dự đoán biến động chỉ số VN-Index dựa trên hai phương pháp học máy gồm Mạng tích chập thời gian (Temporal Convolutional Networks - TCN) và
Trang 37Mạng bộ nhớ dài ngắn (Long Short - Term Memory - LSTM) Kết quả cho thấy, thuật toán LSTM đạt hiệu suất dự báo tốt hơn
Bui Thanh Khoa & Tran Trong Huynh (2022) đã dự báo tỷ giá hối đoái của tháng tiếp theo bằng cách xem xét chênh lệch tỷ giá hối đoái giữa hai quốc gia là biến đầu vào và dự báo bằng mô hình máy vector hỗ trợ (SVM) Bài nghiên nghiên cứu cho thấy mô hình SVM đạt được kết quả sai lệch thấp nhất so với hai mô hình khác, tức
là hồi quy bình phương nhỏ nhất và bước ngẫu nhiên
Nguyen Anh Tu và cộng sự (2024) đã dự đoán tỷ giá VND/USD bằng cách kết hợp giữa đường trung bình động tích hợp tự hồi quy (ARIMA) và hai thuật toán học máy, rừng ngẫu nhiên (RF) và mạng nơ-ron nhân tạo (ANN) Kết quả cho thấy sự cải thiện
dự đoán so với các mô hình đơn lẻ RF và ARIMA-RF đã vượt trội hơn so với các mô hình khác trong khả năng dự báo
Vũ Thị Loan & Vũ Thị Hậu (2017) đã ứng dụng mô hình SVM nhằm kiểm định vai trò của biến giá thị trường của cổ phiếu trong dự báo khó khăn tài chính của các công ty niêm yết trên thị trường chứng khoán Việt Nam Kết quả nghiên cứu cho thấy, khi bổ sung biến giá thị trường của cổ phiếu, khả năng dự báo chính xác của mô hình được tăng lên đáng kể
2.5.2 Các nghiên cứu nước ngoài
Vijh và cộng sự (2020) sử dụng mô hình học máy Mạng Nơ-ron Nhân tạo (ANN)
và Rừng Ngẫu nhiên (RF) để dự đoán giá đóng cửa ngày tiếp theo cho năm công ty thuộc các ngành khác nhau Dữ liệu gồm giá Mở cửa, Cao nhất, Thấp nhất và Đóng cửa của cổ phiếu được sử dụng để tạo ra các biến mới làm đầu vào cho mô hình Phân tích so sánh dựa trên các giá trị RMSE, MAPE và MBE cho thấy rõ ràng rằng Mạng Nơ-ron Nhân tạo (ANN) dự đoán giá cổ phiếu tốt hơn so với Rừng Ngẫu nhiên (RF) Kim & Kang (2019) đã so sánh các mô hình học sâu gồm Mạng nơ-ron đa lớp (MLP), Mạng nơ-ron tích chập một chiều (1D CNN), Long Short-Term Memory chồng lớp (Stacked LSTM), Mạng chú ý (attention networks), và Mạng chú ý có
Trang 38trọng số (Weighted Attention Networks) để dự đoán xu hướng chỉ số KOSPI 200 Đặc biệt, attention LSTM không chỉ được sử dụng để dự đoán mà còn để trực quan hóa các đầu ra trung gian nhằm phân tích lý do của dự đoán Ngoài ra, tác giả tập trung vào thời gian và các yếu tố khác để dễ dàng hiểu các xu hướng được dự đoán Sau
đó, tác giả điều chỉnh hàm mất mát của mô hình Attention Network bằng cách sử dụng entropy chéo phân loại có trọng số Mô hình Weighted Attention Networks đạt
tỷ lệ chính xác 0.76, vượt trội so với các phương pháp khác trong việc dự đoán Cao và cộng sự (2019) đã cố gắng kết hợp phương pháp mạng lưới phức tạp với học máy để dự đoán các mô hình giá cổ phiếu Đầu tiên, đề xuất một phương pháp mới để xây dựng mạng lưới mô hình cho chuỗi thời gian cổ phiếu đa biến Các mô hình kết hợp biến động giá của Chỉ số Standard & Poor’s 500 (S&P 500), NASDAQ,
và Chỉ số Dow Jones (DJIA) được chuyển đổi thành các mạng lưới có hướng có trọng
số Tiếp theo, các biến này được sử dụng làm biến đầu vào cho các thuật toán K-lân cận (KNN) và máy vector hỗ trợ (SVM) để dự đoán các mô hình biến động ngày tiếp theo của một cổ phiếu duy nhất Kết quả cho thấy khả năng dự đoán của thuật toán SVM tốt hơn so với thuật toán KNN
Kara và cộng sự (2011) đã cố gắng phát triển hai mô hình hiệu quả và so sánh hiệu suất của chúng trong việc dự đoán hướng di chuyển trong Chỉ số 100 quốc gia hàng ngày của Sở giao dịch chứng khoán Istanbul (ISE) Các mô hình dựa trên hai kỹ thuật phân loại, mạng thần kinh nhân tạo (ANN) và máy vector hỗ trợ (SVM) Mười chỉ số
kỹ thuật đã được chọn làm đầu vào của các mô hình được đề xuất Hai thử nghiệm cài đặt thông số toàn diện cho cả hai mô hình đã được thực hiện để cải thiện hiệu suất
dự đoán của chúng Kết quả thí nghiệm cho thấy hiệu suất trung bình của mô hình ANN (75,74%) được tìm thấy tốt hơn đáng kể so với mô hình SVM (71,52%) Kumar & Thenmozhi (2014) đã phát triển ba mô hình khác nhau kết hợp mô hình tuyến tính ARIMA và các mô hình phi tuyến như máy vector hỗ trợ (SVM), mạng nơ-ron nhân tạo (ANN) và rừng ngẫu nhiên (RF) để dự đoán lợi suất chỉ số chứng khoán Hiệu suất của ARIMA-SVM, ARIMA-ANN và ARIMA-RF được so sánh với
Trang 39hiệu suất của các mô hình ARIMA, SVM, ANN và RF Các mô hình cạnh tranh khác nhau được đánh giá dựa trên các chỉ số thống kê và tiêu chí hiệu suất giao dịch thông qua một chiến lược giao dịch Phân tích cho thấy rằng mô hình lai ARIMA-SVM là
mô hình dự báo tốt nhất để đạt được độ chính xác dự báo cao và lợi suất tốt hơn
2.5.3 Thảo luận về các nghiên cứu thực nghiệm và khoảng trống nghiên cứu
Ứng dụng mô hình học máy trong dự báo dữ liệu TTCK Việt Nam đã là chủ đề của một số nghiên cứu khoa học trong nước và quốc tế trước đây Tuy nhiên, phần lớn các nghiên cứu này tập trung nghiên cứu các thuật toán học máy khác như Linear Regression, Random Forest, K-Nearest Neighbors Kết quả lược khảo chưa tìm thấy nghiên cứu nào được thực nghiệm dự báo chỉ số TTCK với các biến đầu vào là các chỉ báo kỹ thuật tại Việt Nam nói riêng và trên thế giới nói chung
Hơn nữa, nhiều nghiên cứu đã được thực hiện tại Việt Nam với mục đích dự báo
dữ liệu TTCK Tuy nhiên hầu như các nghiên cứu này chỉ được thực nghiệm với các biến là các mã cổ phiếu riêng lẻ, dữ liệu thu thập trong khoảng thời gian tương đối ngắn và không đồng đều vì thế dẫn đến kết quả của những nghiên cứu này vẫn có sự khác biệt Ngoài ra, đối với các nghiên cứu ngoài nước, sự khác biệt về kết quả có thể được giải thích bởi sự khác nhau về tình hình nền kinh tế, thay đổi cung cầu của các quốc gia Vì vậy, đề tài sẽ chọn hướng nghiên cứu dữ báo chỉ số VN-Index đại diện cho TTCK Việt Nam trong giai đoạn 2012-2023, mẫu nghiên cứu này không có
sự trùng lặp so với các nghiên cứu đã được thực nghiệm tại Việt Nam
Ngoài ra, có một số khác biệt giữa khóa luận và các nghiên cứu trước Thông thường, đối với các nghiên cứu trước đây, các tác giả trong và ngoài nước thường dự báo biến phụ thuộc là tỷ suất sinh lời của cổ phiếu, Tuy nhiên, đối với mục tiêu nghiên cứu của khóa luận, tác giả chỉ dự báo chỉ số VN -Index bằng các đặc trưng là chỉ báo
kỹ thuật vì thực tế mục tiêu của khóa luận không liên quan đến danh mục đầu tư hay tìm cách tối đa lợi nhuận trên TTCK Việc dự báo chỉ số TTCK kết hợp với chỉ báo
kỹ thuật giúp mô hình nắm rõ xu hướng thị trường cũng như tìm ra mô hình học máy
Trang 40dự báo phù hợp, điều này hoàn toàn phù hợp với mục tiêu nghiên cứu của đề tài Vì thế, việc dự báo chỉ số VN – Index trong nghiên cứu này được tác giả sử dụng các chỉ báo kỹ thuật gồm SMA(10), SMA(20), EMA(10), MACD, RSI, CCI, Momentum
Bảng 2.1 Tổng hợp các nghiên cứu thực nghiệm trong và ngoài nước Nội
dung
Nghiên cứu thực nghiệm
Logistic Regression (LR), Linear Discriminant Analysis (LDA), Quadratic Discriminant Analysis (QDA)
và K-nearest neighbors (KNN)
Dữ liệu theo ngày chỉ số VN-Index từ 26/8/2016 -26/8/2020 9 biến đầu vào: Date, Volume, Lợi suất %, Chiều tăng/giảm của VN-Index, Độ trễ từ 1 đến 5 của lợi suất % của các ngày thứ 1, …, thứ
5 liền trước ngày hiện tại
Mô hình KNN(10) có
độ chính xác khoảng 55,6%, dự báo tốt nhất
so với các mô hình còn lại
Tran Phuoc và cộng sự (2024)
Long Short Term Memory (LSTM)
- Dữ liệu lấy từ các mã cổ phiếu VN – Index và VN – 30
- Chỉ báo kỹ thuật: MACD, SMA, RSI
LSTM dự báo độ chính xác đạt 93%
dữ liệu cổ phiếu được sử dụng Nguyen
Anh Tu
ARIMA, RF, ANN, ARIMA-
Tỷ giá VND/USD theo ngày, thu thập từ
RF và ARIMA-RF