Danh mục hình ảnhHình 1 Đồ thị về chuỗi nhiệt độ trung bình theo tháng thể hiện yếu tố mùa vụ...16Hình 2 Đồ thị về yếu tố xu hướng trong chuỗi thời gian của chuỗi giá...17Hình 3 Biểu đồ
GIỚI THIỆU VẤN ĐỀ NGHIÊN CỨU
Vấn đề nghiên cứu
Thị trường chứng khoán Việt Nam trong những năm gần đây thu hút sự tham gia đông đảo của các nhà đầu tư, trong đó, nhóm cổ phiếu ngân hàng luôn là tâm điểm chú ý bởi tiềm năng tăng trưởng và tính thanh khoản cao Tuy nhiên, thị trường chứng khoán cũng biến động mạnh mẽ, khó lường, do đó, việc phân tích và dự đoán giá chứng khoán các ngân hàng Việt Nam đóng vai trò quan trọng trong việc hỗ trợ nhà đầu tư đưa ra quyết định đầu tư sáng suốt Dự đoán giá cổ phiếu được coi là một trong những nhiệm vụ khó khăn nhất để thực hiện trong báo cáo tài chính do tính chất phức tạp của thị trường chứng khoán Trong đó, mô hình hóa và phân tích dữ liệu tài chính đóng vai trò quan trọng trong việc ra quyết định sáng suốt trong ngành tài chính Tuy nhiên, lĩnh vực này cũng gặp phải nhiều thách thức do sự phức tạp trong việc xử lý dữ liệu Các vấn đề về tích hợp dữ liệu, chất lượng dữ liệu làm gián đoạn và giảm đi hiệu suất của các mô hình nghiên cứu dự báo tài chính Giải quyết những thách thức nghiên cứu này trong mô hình hóa và phân tích dữ liệu tài chính là điều cần thiết để cải thiện độ chính xác, độ tin cậy và hiệu quả của quá trình ra quyết định tài chính, đặc biệt là trong bối cảnh ngành tài chính luôn thay đổi.
Những thách thức nêu trên trong mô hình hóa và phân tích dữ liệu tài chính thúc đẩy các nghiên cứu nhằm phát triển các giải pháp hiệu quả và tiên tiến hơn Đầu tiên, với nhu cầu ngày càng tăng về thông tin chi tiết chính xác và đáng tin cậy cũng như ngành tài chính ngày càng cạnh tranh và phức tạp, đòi hỏi các nhà ra quyết định phải có quyền truy cập vào thông tin chi tiết chính xác và kịp thời để đưa ra quyết định sáng suốt Thêm vào đó, lượng dữ liệu tài chính có sẵn ngày càng tăng theo cấp số nhân,tạo ra cơ hội to lớn để có được những hiểu biết sâu sắc hơn về thị trường và xu hướng.Việc cải thiện mô hình hóa và phân tích dữ liệu tài chính có thể giúp đáp ứng nhu cầu hơn Nhờ những tiến bộ này, các tổ chức tài chính có thể khai thác thông tin chi tiết sâu sắc hơn từ dữ liệu của họ, dẫn đến việc ra quyết định sáng suốt hơn, quản lý rủi ro hiệu quả hơn và lợi nhuận cao hơn Với các xu hướng nghiên cứu gần đây, một phương pháp phổ biến là áp dụng các thuật toán học máy để học từ dữ liệu giá cả lịch sử, từ đó có thể dự đoán giá cả trong tương lai Quy mô này thể hiện sức mạnh dự đoán trên dữ liệu giá cổ phiếu lịch sử vượt trội so với các phương pháp khác do tính phù hợp của nó với loại dữ liệu này Mạng nơ-ron hồi quy (LSTM) có bộ nhớ ngắn hạn và giả thuyết được khám phá ở đây là tính năng này có thể mang lại lợi ích về kết quả so với các phương pháp truyền thống khác (Nelson và cộng sự, 2017).
Đối tượng, phạm vi nghiên cứu
Các dữ liệu chứng khoán của các ngân hàng Việt Nam Bộ dữ liệu bao gồm những thông tin cơ bản của chứng khoán bao gồm giá tham chiếu, giá trần, giá sàn, giá mở cửa, giá đóng cửa, giá trung bình, mức giá cao nhất, thấp nhất mà cổ phiếu đạt được trong suốt phiên giao dịch, khối lượng giao dịch, các giá trị giao dịch và một số thông số khác.
1.2.2 Phạm vi nghiên cứu Ở phạm vi bài nghiên cứu này, nhóm sử dụng dữ liệu của ba ngân hàng: Ngân hàng TMCP Công thương Việt Nam (CTG), Ngân hàng TMCP Sài Gòn Thương Tín (STB), Ngân hàng TMCP Đầu tư và Phát triển Việt Nam (BID) Dữ liệu được thu thập từ thời điểm 24/1/2014 đến 8/9/2023.
Phương pháp nghiên cứu
Nghiên cứu tổng hợp lý thuyết
Tổng quan và phân tích các lý thuyết, nghiên cứu liên quan đến phân tích chứng khoán, thị trường tài chính Việt Nam, ứng dụng các mô hình học máy, học sâu trong lĩnh vực tài chính
Tìm hiểu để nắm bắt được các cách phân tích và dự đoán chứng khoán hiện có trong và ngoài nước.
Thu thập, xử lý và phân tích số liệu về chứng khoán của các ngân hàng tại Việt Nam.
Xây dựng và triển khai quy trình thử nghiệm sử dụng các mô hình học máy, học sâu để xử lý và dự đoán giá chứng khoán. Đánh giá mức độ hiệu quả của mô hình nhóm nghiên cứu sử dụng thông qua các số liệu về tỷ lệ sai sót, mức độ chính xác của mô hình.
Mục tiêu nghiên cứu
Nghiên cứu này nhằm xây dựng một mô hình dự đoán giá cổ phiếu của các ngân hàng thương mại tại Việt Nam dựa trên phương pháp mạng học sâu LSTM (Long Short- Term Memory) và các yếu tố tài chính - kinh tế liên quan Các mục tiêu cụ thể của nghiên cứu bao gồm:
Thu thập, xử lý và làm sạch dữ liệu: Tập hợp dữ liệu giá cổ phiếu, dữ liệu tài chính của các ngân hàng và dữ liệu kinh tế vĩ mô từ các nguồn khác nhau, sau đó tiến hành xử lý dữ liệu bị thiếu, dữ liệu nhiễu nhằm chuẩn hóa dữ liệu để sao cho phù hợp với việc phân tích và mô hình hóa.
Phân tích dữ liệu và khám phá đặc trưng: Sử dụng các hàm và gói phân tích dữ liệu trong R để thực hiện phân tích mô tả, tìm hiểu mối quan hệ giữa các biến số và khám phá các đặc trưng quan trọng ảnh hưởng đến giá cổ phiếu của các ngân hàng.
Xây dựng mô hình dự đoán giá cổ phiếu ngân hàng: Áp dụng hiệu quả kĩ thuật học sâu mạng LSTM trong ngôn ngữ R để xây dựng mô hình dự đoán giá cổ phiếu của các ngân hàng thương mại tại Việt Nam dựa trên dữ liệu giá cổ phiếu, dữ liệu tài chính và các yếu tố kinh tế vĩ mô. Đánh giá hiệu suất của mô hình: Sử dụng các chỉ số đánh giá phù hợp như sai số bình phương trung bình (MSE) để đánh giá hiệu suất của mô hình LSTM từ đó chứng minh rằng mô hình LSTM là một trong những lựa chọn hàng đầu cho bài toán dự đoán giá cổ phiếu ngân hàng.
TỔNG QUAN TÌNH HÌNH NGHIÊN CỨU
Cơ sở lý luận
2.1.1 Dự báo giá cổ phiếu
Dự báo xu hướng biến động của giá cổ phiếu một cách chính xác thực sự là một thách thức nan giải Giá cổ phiếu chứa đựng nguồn thông tin đa dạng, phức tạp và không rõ ràng, chịu ảnh hưởng của nhiều yếu tố nhiễu cũng như tâm lý đám đông Ngoài các yếu tố nội tại của công ty như triển vọng kinh doanh, chất lượng quản trị, tình hình tài chính, giá cổ phiếu còn chịu tác động từ các chính sách vĩ mô của Chính phủ, các diễn biến kinh tế, chính trị, xã hội trong và ngoài nước, thậm chí cả biến động của thị trường chứng khoán nước ngoài.
Tuy nhiên, bất chấp những khó khăn trên, lĩnh vực dự báo giá cổ phiếu vẫn nhận được sự quan tâm rất lớn từ các nhà nghiên cứu Các công trình nghiên cứu thường đi theo hai hướng tiếp cận chính là phân tích cơ bản và phân tích kỹ thuật Phương pháp phân tích cơ bản giả định rằng mỗi cổ phiếu đều có giá trị nội tại riêng, phụ thuộc vào tiềm năng sinh lời của công ty đó dựa trên các yếu tố như chất lượng quản lý, triển vọng ngành và nền kinh tế Phân tích cơ bản sử dụng các kỹ thuật tài chính để xác định mức giá hợp lý của cổ phiếu so với giá trị nội tại và đưa ra dự báo về giá trị tương lai.
Ngược lại, phân tích kỹ thuật dựa trên giả định rằng xu hướng biến động của giá cổ phiếu trong quá khứ sẽ lặp lại ở tương lai Theo quan điểm này, giá cổ phiếu phản ánh toàn bộ thông tin liên quan đến xu hướng thị trường, biến động kinh tế vĩ mô, tâm lý nhà đầu tư và kết quả kinh doanh của doanh nghiệp Do đó, phân tích kỹ thuật tập trung nghiên cứu dữ liệu lịch sử giao dịch, khối lượng giao dịch bằng các phương pháp thống kê, toán học để nhận diện xu hướng và đưa ra dự báo.
Mặc dù phân tích cơ bản có ưu điểm phản ánh giá trị thực của cổ phiếu nhưng không thể nắm bắt được sự biến động liên tục của giá, trong khi báo cáo tài chính chỉ được công bố định kỳ Ngược lại, phân tích kỹ thuật tập trung vào dự báo xu hướng ngắn hạn của giá nhưng không đưa ra nhận định về giá trị thực của cổ phiếu Vì vậy, việc kết hợp hai phương pháp này một cách phù hợp là điều rất cần thiết để nâng cao hiệu quả dự báo giá cổ phiếu.
Chuỗi thời gian là một chuỗi các điểm dữ liệu được ghi nhận theo thứ tự liên tiếp trong một khoảng thời gian cụ thể Các điểm dữ liệu này thường phản ánh các biến đổi, sự thay đổi trong thời gian của một hiện tượng cụ thể, như giá cả, hoạt động não bộ, lượng mưa, doanh số bán lẻ, hoặc nhịp tim.
Dự báo chuỗi thời gian là một lớp mô hình quan trọng trong thống kê, kinh tế lượng và machine learning vì nó được thiết kế để xử lý dữ liệu có yếu tố thời gian Mục tiêu chính của việc áp dụng các mô hình này là dự đoán giá trị của một biến trong tương lai dựa trên các quan sát trong quá khứ.
Tên gọi "chuỗi thời gian" được sử dụng vì các mô hình này được phát triển để làm việc trên các chuỗi dữ liệu có thời gian nhất định Chúng giả định rằng các qui luật hoặc mẫu trong dữ liệu quá khứ sẽ tiếp tục xuất hiện trong tương lai Khi xây dựng mô hình chuỗi thời gian, chúng ta thực hiện việc mô hình hóa mối quan hệ giữa các biến độc lập (hay biến đầu vào) và biến phụ thuộc (hay biến mục tiêu) từ dữ liệu quá khứ. Dựa vào mối quan hệ này, chúng ta có thể dự đoán giá trị của biến phụ thuộc trong tương lai.
Do dữ liệu trong chuỗi thời gian được ảnh hưởng bởi yếu tố thời gian, nên thường xuất hiện những đặc trưng đặc biệt như chu kỳ, mùa vụ và xu hướng Những đặc trưng này thường là những mẫu hoặc qui luật xuất hiện định kỳ trong dữ liệu và có thể quan sát được qua thời gian.
Yếu tố chu kỳ thường xuất hiện khi có sự thay đổi định kỳ hoặc tuần hoàn trong dữ liệu, như các chu kỳ kinh tế, chu kỳ thời tiết, hoặc các sự kiện theo mùa.
Hình 1 Đồ thị về chuỗi nhiệt độ trung bình theo tháng thể hiện yếu tố mùa vụ
Khoa học dữ liệu (phamdinhkhanh.github.io) 1
Yếu tố xu hướng (trend) trong chuỗi thời gian thường thể hiện đà tăng hoặc giảm của dữ liệu trong tương lai Ví dụ, lạm phát thường là một xu hướng chung trong các nền
1 Nguồn hình 1 kinh tế, dẫn đến sự tăng của giá cả trung bình của hàng hóa và dịch vụ, biểu hiện qua chỉ số CPI (Chỉ số Giá tiêu dùng) Sự tăng này thường đại diện cho sự mất giá của đồng tiền
Hình 2 Đồ thị về yếu tố xu hướng trong chuỗi thời gian của chuỗi giá
Khoa học dữ liệu (phamdinhkhanh.github.io) 2 2.1.3 Chỉ báo kỹ thuật
2.1.3.1 Simple Moving Average Đường SMA (Trung bình động đơn giản) là một công cụ phân tích kỹ thuật thường được sử dụng trong giao dịch chứng khoán Đường SMA được tính toán bằng cách lấy trung bình cộng các mức giá đóng cửa của một cổ phiếu trong một khoảng thời gian giao dịch nhất định SMA giúp nhà đầu tư làm trơn các dao động ngắn hạn của giá và xác định xu hướng chung của thị trường Công thức tính đường SMA là:
Cụ thể, tổng mức giá trong khoảng thời gian đã lựa chọn sẽ chia cho tổng số phiên đã lựa chọn để ra kết quả
SMA đóng vai trò quan trọng trong việc xác định xu hướng, mức hỗ trợ/kháng cự và các điểm mua/bán tiềm năng Cụ thể, khi đường SMA có khuynh hướng tăng lên, điều này cho thấy xu hướng tăng giá đang chi phối thị trường Ngược lại, khi SMA giảm dần, thị trường đang trong xu hướng giảm giá Bên cạnh đó, đường SMA cũng có thể đóng vai trò như các mức hỗ trợ và kháng cự, khi giá cổ phiếu chạm vào đường SMA, có khả năng xảy ra hiện tượng bật ngược hoặc phá vỡ mức này.
Trong chiến lược giao dịch, nhà đầu tư có thể sử dụng SMA để xác định điểm mua và bán Một chiến lược phổ biến là mở vị thế mua khi giá cổ phiếu vượt lên trên đường SMA và đóng vị thế khi giá cắt xuống dưới SMA Những tín hiệu này có thể được kết hợp với các công cụ phân tích kỹ thuật khác như đường EMA, MACD, để tăng cường hiệu quả giao dịch.
Hình 3 Biểu đồ thể giá và khối lượng giao dịch của cổ phiếu Tesla cùng với đường
SMA https://bookdown.org/kochiuyu/technical-analysis-with-r-second-edition/simple- moving-average-sma.html 3
Trung bình động theo mô hình hàm mũ (EMA) là một chỉ báo phân tích kỹ thuật quan trọng, được tính toán bằng cách lấy trung bình có trọng số theo cấp số nhân của các mức giá đóng cửa trong một khoảng thời gian giao dịch xác định.
Công thức tính toán đường EMA là:
EMA=(Vt × k)+ (EMA(t-1) × (1 – K) Trong đó:
Vt là giá đóng cửa cổ phiếu hiện tại
Thực trạng nghiên cứu
Lúc này Việt Nam nằm trong top danh sách các thị trường sụt giảm mạnh nhất thế giới Đây là điểm hấp dẫn sinh lời cao của thị trường chứng khoán Việt Nam và cũng đầy thách thức cho bất kỳ nhà đầu tư nào không chuyên lẫn dày dặn kinh nghiệm Các nhà làm chính sách, tổ chức tư vấn và nhà đầu tư luôn cố gắng dự báo rủi ro của thị trường nhưng các nhân tố tác động vào thị trường Việt Nam rất đa dạng và biến đổi khó lường Vì thế mà các mô hình hồi quy cổ điển thường dùng để phân tích dự báo chuỗi dữ liệu cổ phiếu Việt Nam không thể nhận diện hết được các yếu tố rủi ro và các kết quả dự báo thường sai so với thực tế Tìm ra một công cụ phân tích dự báo tốt hơn đã và đang là nhu cầu bức thiết cho các nhà làm chính sách và đặc biệt là công chúng đầu tư Đây chính là cơ sở cho đề tài nghiên cứu.
Trong quá khứ cũng đã có nhiều nhà nghiên cứu trong nước đưa ra đề xuất các phương pháp khác nhau nhằm cải thiện khả năng dự báo xu hướng chứng khoán Một số kết quả từ các bài nghiên cứu gần đây như sau:
Bài nghiên cứu của Bùi Thành Khoa và đồng nghiệp (2022) tập trung vào việc dự báo hướng di chuyển của giá cổ phiếu bằng thuật toán học máy Nghiên cứu so sánh hiệu suất dự báo của ba mô hình: hồi quy logistic, máy vector hỗ trợ (SVM), và mạng nơ- ron nhân tạo (ANN), dựa trên dữ liệu lịch sử của các cổ phiếu trong danh sách VN30 từ tháng 7 năm 2000 đến tháng 7 năm 2021 Kết quả cho thấy mô hình SVM đạt độ chính xác trung bình cao nhất là 92.48%, vượt trội so với hai mô hình còn lại Nghiên cứu cũng đề xuất mô hình SVR hiệu quả hơn so với CAPM trong việc dự báo tỉ suất sinh lời của các cổ phiếu riêng lẻ
Bài báo của Trương Thị Thùy Dương (2023), nghiên cứu sử dụng thuật toán XGBoost để dự báo chiều biến động của chỉ số chứng khoán Vnindex sau 1 ngày giao dịch Mô hình được huấn luyện và kiểm tra trên dữ liệu chia thành tập huấn luyện và tập kiểm tra theo tỷ lệ 75% và 25% Kết quả cho thấy mô hình dự báo với độ chính xác trên 80%, với các chỉ số đo độ bao phủ và F1 xấp xỉ 80% Nghiên cứu cũng nhấn mạnh vai trò quan trọng của các chỉ báo kỹ thuật như khối lượng giao dịch, STOCH, RST, ADX trong việc dự báo chiều biến động của chỉ số Vnindex
Trong lĩnh vực dự đoán giá chứng khoán Việt Nam, các nghiên cứu vừa nêu sử dụng mô hình học máy đã đem lại những kết quả đáng chú ý Các phương pháp nhưLogistic Regression, Support Vector Machine (SVM), và Artificial Neural Network(ANN) đã được áp dụng để dự đoán hướng di chuyển của giá cổ phiếu với độ chính xác khá cao Nghiên cứu của Trương Thị Thùy Dương (2023) cũng đã chứng minh sự hiệu quả của việc sử dụng thuật toán XGBoost và các chỉ báo kỹ thuật để dự báo chiều biến động của chỉ số chứng khoán Vnindex
Schmidhuber (1997) với khả năng học được sự phụ thuộc trong dài hạn, có thể cải thiện khả năng dự đoán chính xác hơn cho chỉ số cổ phiếu
Với sự phát triển của công nghệ và sự gia tăng của dữ liệu, việc nghiên cứu và áp dụng các mô hình học máy tiên tiến như LSTM trong dự đoán giá chứng khoán sẽ đóng vai trò quan trọng trong việc cung cấp thông tin hữu ích cho các nhà đầu tư và quản lý tài sản Cần tiếp tục nghiên cứu và thử nghiệm để tối ưu hóa khả năng dự đoán và ứng dụng thực tế của các mô hình này trong thị trường chứng khoán Việt Nam. 2.2.2 Ngoài nước
Dự đoán giá cổ phiếu và dự báo xu hướng thị trường là những nhiệm vụ thách thức. Trong nhiều năm qua, các nhà nghiên cứu đã đề xuất nhiều giải pháp cho những thách thức này (Obthong et al 2020; Hu et al 2021; Polamuri et al 2019), và những phương pháp này sẽ được giải thích ngắn gọn dưới đây Học máy, học sâu, dự báo chuỗi thời gian và các thuật toán ensemble là một số cách tiếp cận phổ biến nhất để giải quyết các vấn đề đã đề cập Các thuật toán ensemble có thể cải thiện độ chính xác và giảm sai số RMSE Kiến trúc Hadoop cũng có thể xử lý được khối lượng dữ liệu cổ phiếu lớn (Jose et al 2019) và các thuật toán học sâu có thể dự đoán thị trường tài chính (Hu et al 2021) Dự báo cổ phiếu sử dụng LSTM, một mạng nơ-ron truy hồi (RNN) đặc biệt, vượt qua được vấn đề phụ thuộc dài hạn (Qiu et al 2020; Banik et al 2022). Nhưng các vấn đề gradient biến mất và gradient phình to thường cần được giải quyết trong các kiến trúc dựa trên RNN (Li và Pan 2021; Zhu 2020) Khan et al., trong (Khan et al 2020), đã sử dụng Pyspark, MLlib, hồi quy tuyến tính và rừng ngẫu nhiên để đạt độ chính xác 80–98%.
Nhiều thuật toán đã được sử dụng để dự báo giá cổ phiếu, bao gồm mạng nơ-ron, trong đó dữ liệu được đào tạo trên các lớp nơ-ron kết nối với nhau, và máy vector hỗ trợ, dự đoán chuyển động giá cổ phiếu bằng cách sử dụng siêu phẳng Rừng ngẫu nhiên, được đào tạo trên nhiều cây quyết định và Nạve Bayes, dự đốn chuyển động cổ phiếu dựa trên xác suất âm hoặc dương sử dụng dữ liệu lịch sử 10 năm củaReliance và Infosys (Patel et al 2015) Thuật toán Random Forest được so sánh với các thuật toán khác trên 5767 công ty châu Âu Những thuật toán này bao gồm mạng nơ-ron, là nhiều lớp nơ-ron kết nối với nhau; hồi quy logistic, xuất ra giá trị nhị phân để dự đoán xem cổ phiếu sẽ tăng hay giảm dựa trên xác suất; máy vector hỗ trợ; Random Forest là thuật toán tốt nhất, theo sau là SVM (Ballings et al 2015).
Một nghiên cứu khác liên quan đến việc sử dụng ARIMA, LSTM và Random Forest để dự báo giá, và XG-Boost, một thuật toán học tập ensemble giống Random Forest. Dựa trên các thông số đánh giá, XG-Boost hoạt động tốt hơn ARIMA và LSTM (Zhu và He 2022) Isaac et al cũng sử dụng học máy ensemble để cải thiện kết quả dự báo thị trường chứng khoán Các thuật toán classifier hợp tác và cạnh tranh sử dụng stacking và blending Kỹ thuật bagging và boosting được sử dụng để giảm phương sai và độ chệch Hầu hết các bộ phân loại và hồi quy ensemble được phát triển bằng cách kết hợp cây quyết định, máy vector hỗ trợ và mạng nơ-ron (Nti et al 2020) Tương tự, (Xu et al 2020) cũng đã sử dụng các kỹ thuật học tập ensemble bagging để dự đoán cổ phiếu Trung Quốc Cách tiếp cận này kết hợp mô hình dự báo hai giai đoạn được gọi là "Học tập Ensemble SVR và Random Forest (E-SVR&RF)" với KNN để nhóm nó với mười chỉ số kỹ thuật Một phương pháp đề xuất khác sử dụng Tập hợp LSTM với CNN trên chỉ số cổ phiếu để đào tạo các mạng đối lập, có thể giúp dự đoán cổ phiếu tần suất cao và có lợi thế như đào tạo đối lập và giảm lỗ dự đoán hướng và lỗ dự báo (Zhou et al 2018) Để tăng hiệu quả của mô hình ensemble của XG-Boost và LSTM, XG-Boost được sử dụng để lựa chọn các đặc trưng áp dụng cho dữ liệu chuỗi thời gian đa chiều và LSTM được sử dụng để dự báo giá cổ phiếu (Vuong et al 2022). 2.3 Thông tin tập dữ liệu đang sử dụng
Trong nghiên cứu này, bộ dữ liệu được sử dụng là chứng khoán của ba ngân hàng: Ngân hàng TMCP Công thương Việt Nam (CTG), Ngân hàng TMCP Sài Gòn Thương Tín (STB), Ngân hàng TMCP Đầu tư và Phát triển Việt Nam (BID) Các dữ liệu này chứa các thông tin bao gồm ngày và thời gian giao dịch, giá đóng cửa, giá mở cửa và một số chỉ số khác. Để chuẩn bị cho quá trình huấn luyện mô hình , các dữ liệu này được đưa qua nhiều bước xử lý bao gồm để đảm bảo tính chính xác của các mô hình máy học mà nhóm lựa chọn để triển khai trong bài nghiên cứu lần này. được bảo mật nghiêm ngặt, không chia sẻ ra bên ngoài hoặc sử dụng cho bất kỳ mục đích nào khác.
Bảng 1 Ý nghĩa các cột của tệp dữ liệu
Cột Ý nghĩa code Mã định danh duy nhất cho một loại chứng khoán cổ phiếu. date Ngày diễn ra phiên giao dịch chứng khoán của cổ phiếu này. floor Sàn giao dịch chứng khoán mà cổ phiếu này được giao dịch.
Trong trường hợp này là HOSE (Sở Giao dịch Chứng khoán TP.
Hồ Chí Minh). time Thời điểm cụ thể trong ngày diễn ra giao dịch của cổ phiếu. type Loại chứng khoán giao dịch, trong trường hợp này là cổ phiếu
(STOCK). basicPrice Giá tham chiếu (giá đóng cửa của ngày giao dịch trước đó) để tính toán giá trần và giá sàn của cổ phiếu trong ngày giao dịch hiện tại. ceilingPrice Mức giá cao nhất (giá trần) mà cổ phiếu có thể được giao dịch trong ngày. floorPrice Mức giá thấp nhất (giá sàn) mà cổ phiếu có thể được giao dịch trong ngày. open Giá mở cửa của cổ phiếu trong ngày giao dịch. high Mức giá cao nhất mà cổ phiếu đạt được trong suốt phiên giao dịch của ngày hôm đó. low Mức giá thấp nhất mà cổ phiếu đạt được trong suốt phiên giao dịch của ngày hôm đó. close Giá đóng cửa cuối cùng của cổ phiếu vào cuối ngày giao dịch. average Giá trung bình của cổ phiếu trong suốt phiên giao dịch ngày hôm đó. adOpen - adClose
Các giá tương ứng (mở cửa, cao nhất, thấp nhất, đóng cửa, trung bình) đã được điều chỉnh theo một công thức nào đó để phản ánh chính xác hơn giá trị thực tế. nmVolume Khối lượng giao dịch (số lượng cổ phiếu đã mua/bán) của nhà đầu tư trong nước trong ngày giao dịch. nmValue Giá trị giao dịch tương ứng với khối lượng giao dịch của nhà đầu tư trong nước (nmVolume * giá giao dịch trung bình). ptVolume Khối lượng giao dịch của nhà đầu tư nước ngoài trong ngày. ptValue Giá trị giao dịch tương ứng với khối lượng giao dịch của nhà đầu tư nước ngoài. change Sự thay đổi về mức giá so với ngày giao dịch trước đó (giá đóng cửa hiện tại - giá đóng cửa trước đó). adChange Sự thay đổi điều chỉnh về mức giá so với ngày giao dịch trước đó. pctChange Phần trăm thay đổi giá của cổ phiếu so với ngày giao dịch trước đó, tính bằng (change / giá đóng cửa trước đó) * 100%.
CHƯƠNG 3: XÂY DỰNG MÔ HÌNH
Chương 3 trình bày quá trình xây dựng mô hình dự báo giá cổ phiếu của các ngân hàng tại Việt Nam sử dụng mạng LSTM.
Mô hình tổng quan
Hình 13 Mô hình tổng quan của dự án
Nghiên cứu này tập trung vào việc xây dựng một mô hình dự báo giá chứng khoán của các ngân hàng tại Việt Nam sử dụng mạng neural trọng lực dài ngắn hạn (LSTM). Quá trình xây dựng mô hình bao gồm các bước chính sau: Đầu tiên, dữ liệu thô được thu thập từ các nguồn tin cậy, bao gồm giá chứng khoán hàng ngày cùng với các biến kinh tế vĩ mô liên quan khác rồi chọn ra những cột cần thiết để xây dựng mô hình.
Tiếp theo, dữ liệu trải qua quá trình tiền xử lý và làm sạch để loại bỏ các giá trị khác thường hoặc bị thiếu.
Sau khi dữ liệu được chuẩn hóa, dữ liệu sẽ được chia thành hai tập: tập huấn luyện và tập kiểm tra Tập huấn luyện, chiếm khoảng 80% dữ liệu, sẽ được sử dụng để đào tạo mô hình LSTM Tập kiểm tra, chiếm 20% còn lại, sẽ được dùng để đánh giá hiệu suất của mô hình.
Mô hình LSTM sau đó được xây dựng và tối ưu hóa bằng cách điều chỉnh các siêu tham số như số lượng ẩn, hàm kích hoạt, tỷ lệ học tập, và các siêu tham số khác. Quá trình huấn luyện được lặp lại nhiều lần với các giá trị siêu tham số khác nhau để tìm ra cấu hình tối ưu.
Cuối cùng, mô hình được đánh giá trên tập kiểm tra bằng các chỉ số như sai số trung bình tuyệt đối, căn bậc hai của sai số trung bình, v.v Kết quả đánh giá sẽ cho biết khả năng dự báo giá chứng khoán của mô hình LSTM được xây dựng.
Phân tích khai phá dữ liệu
Đối với lĩnh vực ngân hàng, phân tích khai phá dữ liệu giúp các tổ chức tài chính hiểu rõ hơn về hành vi của khách hàng, phát hiện các mô hình và xu hướng, từ đó đưa ra các chiến lược kinh doanh phù hợp Trong nghiên cứu này, bộ dữ liệu của các ngân hàng bao gồm TMCP Công thương Việt Nam (CTG), TMCP Sài Gòn Thương Tín (STB) và TMCP Đầu tư và Phát triển Việt Nam (BID) sẽ được sử dụng cho việc phân tích.
3.2.1 Ngân hàng TMCP Đầu tư và Phát triển Việt Nam (BID) a Chuyển đổi và xử lý dữ liệu
Hình 14 Tập dữ liệu sau khi trích chọn đặc trưng của ngân hàng BIDV
"nmVolume", "pct_Change", "adClose" Sau đó sử dụng hàm head() để kiểm tra lại tên các cột có trong tập dữ liệu mới “df”.
Hình 15 Quy trình chuyển đổi và xử lý dữ liệu ngân hàng BIDV
Sau đó, chúng ta chuyển đổi cột "date" sang định dạng Date và kiểm tra các giá trị bị thiếu, sau đó loại bỏ chúng, đồng thời kiểm tra lại số hàng và số cột bằng hàm dim() sau khi đã loại bỏ các giá trị NA. b Thống kê mô tả
Hình 16 Thống kê mô tả biến “open” của BIDV
Giá mở cửa (open) có mức thấp nhất là 12.60 và cao nhất là 54.90, với giá trung bình là 30.59 Phân vị thứ nhất và thứ ba lần lượt là 18.46 và 40.59, trong khi giá trung vị là 32.70
Hình 17 Thống kê mô tả biến “high” của BIDV
Hình 18 Thống kê mô tả biến “low” của BIDV
Giá cao nhất trong ngày (high) dao động từ 12.70 đến 55.80, với giá trung bình là 31.06 Giá thấp nhất trong ngày (low) có mức thấp nhất là 12.50 và cao nhất là 53.80, với giá trung bình là 30.17.
Hình 19 Thống kê mô tả biến “close” của BIDV
Giá đóng cửa (close) có mức thấp nhất là 12.6 và cao nhất là 55.5, với giá trung bình là 30.6 Phân vị thứ nhất và thứ ba lần lượt là 18.4 và 4.05, trong khi giá trung vị là 32.7
Hình 20 Thống kê mô tả biến “nmVolume” của BIDV
Khối lượng giao dịch (nmVolume) dao động từ 51,430 đến 15,701,040 với khối lượng trung bình là 1,855,853 Phân vị thứ nhất và thứ ba lần lượt là 855,175 và 2,423,380 trong khi khối lượng giao dịch trung vị là 1,510,920.
Những số liệu này cung cấp cái nhìn tổng quan về phân phối giá và khối lượng giao dịch của cổ phiếu ngân hàng BIDV, giúp nhà đầu tư hiểu rõ hơn về biến động giá cổ phiếu và các thay đổi tỷ lệ phần trăm, từ đó có thể đưa ra các quyết định đầu tư phù hợp. c Trực quan hóa dữ liệu
Hình 21 Biểu đồ nến và biểu đồ khối lượng giao dịch ngân hàng BIDV Đoạn code trên sử dụng thư viện “plotly” để vẽ biểu đồ giá cổ phiếu BID và khối lượng giao dịch của nó trong giai đoạn từ ngày 24/01/2014 đến 08/09/2023
Biểu đồ nến cho giá cổ phiếu:
Các nến xanh biểu thị những ngày giá đóng cửa cao hơn giá mở cửa (tăng).
Các nến đỏ biểu thị những ngày giá đóng cửa thấp hơn giá mở cửa (giảm). Đường màu xanh lá cây biểu thị giá cổ phiếu.
Biểu đồ cột biểu thị khối lượng giao dịch:
Các cột xanh lá cây biểu thị những ngày khối lượng giao dịch tăng. Các cột đỏ biểu thị những ngày khối lượng giao dịch giảm.
Nhìn chung, đoạn code được xây dựng để vẽ biểu đồ cung cấp thông tin về diễn biến giá cổ phiếu BID và khối lượng giao dịch của nó trong suốt giai đoạn 2014-2023, giúp người xem có cái nhìn tổng quan về quá trình biến động của cổ phiếu này.
3.2.2 Ngân hàng TMCP Sài Gòn Thương Tín (STB) a Chuyển đổi và xử lý dữ liệu
Hình 22 Tập dữ liệu sau khi trích chọn đặc trưng của ngân hàng STB
Tương tư như trên, đầu tiên đọc dữ liệu từ tệp CSV "STB_stock.xlsx" và chọn các cột quan trọng như "date", "time", "open", "high", "low", "close", "nmVolume",
"pct_Change", "adClose" Sau đó sử dụng hàm head() để kiểm tra lại tên các cột có trong tập dữ liệu mới “df”.
Sau đó, chúng ta chuyển đổi cột "date" sang định dạng Date và kiểm tra các giá trị bị thiếu, sau đó loại bỏ chúng, đồng thời kiểm tra lại số hàng và số cột bằng hàm dim() sau khi đã loại bỏ các giá trị NA.
Hình 23 Quy trình chuyển đổi và xử lý dữ liệu ngân hàng STB b Thống kê mô tả
Hình 24 Thống kê mô tả biến “open” của STB
Giá mở cửa (open) có mức thấp nhất là 7.20 và cao nhất là 36.00, với giá trung bình là 16.91 Phân vị thứ nhất và thứ ba lần lượt là 11.55 và 20.40, trong khi giá trung vị là 16.05
Hình 25 Thống kê mô tả biến "high" của STB
Giá cao nhất trong ngày (high) dao động từ 7.54 đến 36.70, với giá trung bình là 17.16 Giá thấp nhất trong ngày (low) có mức thấp nhất là 7.12 và cao nhất là 35.45, với giá trung bình là 16.67.
Hình 26 Thống kê mô tả biến "close" của STB
Giá đóng cửa (close) có mức thấp nhất là 7.30 và cao nhất là 35.85, với giá trung bình là 16.91 Phân vị thứ nhất và thứ ba lần lượt là 11.50 và 20.50, trong khi giá trung vị là 16.05
Hình 27 Thống kê mô tả biến "nmVolume" của STB
Khối lượng giao dịch (nmVolume) dao động từ 25,390 đến 99,978,500, với khối lượng trung bình là 8,485,251 Phân vị thứ nhất và thứ ba lần lượt là 731,260 và 12,776,800, trong khi khối lượng giao dịch trung vị là 3,284,590.
Hình 28 Thống kê mô tả biến "pctChange" của STB
Tỷ lệ thay đổi phần trăm (pctChange) cho thấy mức giảm lớn nhất là -15.9091% và mức tăng lớn nhất là 7.0000%, với tỷ lệ trung bình là 0.0346% Phân vị thứ nhất và thứ ba lần lượt là -1.0638% và 1.0471%, trong khi tỷ lệ trung vị là 0.0000%.
Hình 29 Thống kê mô tả biến "adClose" của STB
Huấn luyện mô hình
Khi xây dựng các mô hình học máy, việc lựa chọn ngôn ngữ lập trình phù hợp đóng vai trò rất quan trọng R tuy là một công cụ mạnh mẽ trong phân tích tài chính nói riêng và phân tích dữ liệu nói riêng nhưng vẫn còn nhiều hạn chế trong việc chạy mô hình Vì vậy, nhóm chúng em quyết định kết hợp thêm việc sử dụng Python bên cạnh
R để đạt được hiệu quả cao hơn Python có thể cung cấp một môi trường lập trình hiệu suất cao và dễ sử dụng hơn giúp nhóm xây dựng và huấn luyện các mô hình học sâu như LSTM.
Sau khi hoàn thành khâu tiền xử lý dữ liệu, đoạn code xây dựng mô hình LSTM sử dụng Keras Mô hình bao gồm 2 lớp LSTM, 1 lớp Dropout và 1 lớp Dense Cụ thể, lớp LSTM đầu tiên có 50 units và trả về chuỗi kết quả, lớp LSTM thứ hai có 32 units và không trả về chuỗi Lớp Dropout với tỷ lệ 0.25 được sử dụng để giảm hiện tượng quá khớp (overfitting) trong quá trình huấn luyện Lớp Dense cuối cùng có 1 unit và sử dụng hàm kích hoạt 'linear' để dự đoán giá đóng cửa Mô hình được biên dịch với optimizer Adam và loss function là mean_squared_error.
Hình 40 Cấu trúc mô hình mạng LSTMQuá trình huấn luyện mô hình được thực hiện với 50 epochs, batch size 256 và chia lại lịch sử huấn luyện, bao gồm loss và validation loss, sau đó vẽ biểu đồ để theo dõi quá trình hội tụ của biến
Hình 41 Biểu đồ quá trình theo dõi độ hội tụ của biến đối với mô hình mạng LSTM
Cuối cùng, mô hình cũng đưa ra dự đoán giá cổ phiếu 28 ngày tiếp theo và vẽ đồ thị so sánh giá dự đoán và giá thực tế trong khoảng thời gian từ 2014 đến 2024 Việc so sánh kết quả dự đoán với giá thực tế giúp người dùng có thể đánh giá độ chính xác của mô hình và sử dụng kết quả dự đoán để hỗ trợ cho các quyết định đầu tư Bên cạnh đó, đoạn code sử dụng Mean Squared Error (MSE) để đánh giá hiệu suất của mô hình trên tập huấn luyện
Sau khi xây dựng và huấn luyện mô hình LSTM trong Python, đoạn code trên Python sẽ được kết nối với ngôn ngữ R thông qua thư viện reticulate Việc kết nối giữa R và Python mang lại nhiều lợi ích, cho phép tận dụng các ưu điểm của cả hai ngôn ngữ.
Thư viện reticulate trên R có thể kiểm tra cấu hình của Python và chỉ định đường dẫn đến trình biên dịch của Python trong môi trường ảo Điều này cho phép R có thể truy cập và chạy các mô hình LSTM được xây dựng trong Python.
KẾT QUẢ NGHIÊN CỨU
Kết quả mô hình
4.1.1 Ngân hàng TMCP Công thương Việt Nam (CTG)
Hình 42 Biểu đồ so sánh giữa giá thực tế, giá huấn luyện và đưa ra giá dự đoán của mô hình đối với mã CTG
Biểu đồ thể hiển dữ liệu giá cổ phiếu của Vietinbank (CTG) với các đường giá thực tế, giá dự đoán, và huấn luyện dự đoán từ năm 2015 đến 2023 Dựa vào biểu đồ trên có thể thấy:
Giá thực tế (màu xanh lá cây): Đây là giá đóng cửa hàng ngày của cổ phiếu, cho thấy những biến động lớn qua các năm Đặc biệt, giá đã tăng mạnh vào khoảng năm 2018-2019 và đạt đỉnh vào năm 2021 Mô hình dự đoán chính xác xu hướng của giá những có sai sót trong tỉ lệ gia tăng tuy nhiện độ chính xác đã ở mức khá cao. đường giá thực tế Điều này cho thấy mô hình có khả năng dự đoán tốt các xu hướng giá, dù có một số sai số nhỏ ở các điểm biến động mạnh.
Giá dự đoán tương lai (màu tím): Đường dự đoán cho thấy một sự tăng nhẹ trong tương lai ngắn hạn Điều này có thể do mô hình nhận diện được một số chu kì dữ liệu và chu kì giá trong dữ liệu đã được train.
4.1.2 Ngân hàng TMCP Sài Gòn Thương Tín (STB)
Hình 43 Biểu đồ so sánh giữa giá thực tế, giá huấn luyện và đưa ra giá dự đoán của mô hình đối với mã STB
Biểu đồ thể hiển dữ liệu giá cổ phiếu của Sacombank (STB) với các đường giá thực tế, giá dự đoán, và huấn luyện dự đoán từ năm 2014 đến 2023 Dựa vào biểu đồ trên có thể thấy:
Giá thực tế (màu xanh lá cây): Đây là giá đóng cửa hàng ngày của cổ phiếu Sacombank, cho thấy những biến động lớn qua các năm Đặc biệt, giá đã tăng mạnh từ năm 2020 và đạt đỉnh vào năm 2022.
Huấn luyện dự đoán (màu đỏ): Đường dự đoán này phản ánh khá chính xác giá thực tế, với các đường dự đoán hầu như chồng lên nhau và theo sát đường giá thực tế Điều này cho thấy mô hình có khả năng dự đoán tốt các xu hướng giá, dù có một số sai số nhỏ ở các điểm biến động mạnh.
Giá dự đoán tương lai (màu tím): Đường dự đoán cho thấy một sự giảm nhẹ trong tương lai ngắn hạn Điều này có thể do mô hình nhận diện được một số yếu tố hoặc xu hướng hiện tại có thể ảnh hưởng tiêu cực đến giá cổ phiếu. 4.1.3 Ngân hàng TMCP Đầu tư và Phát triển Việt Nam (BID)
Hình 44 Biểu đồ so sánh giữa giá thực tế, giá huấn luyện và đưa ra giá dự đoán của mô hình đối với mã BID
Biểu đồ tài chính mà bạn cung cấp cho thấy giá dự đoán và giá đóng cửa thực tế của cổ phiếu BIDV trong khoảng thời gian từ năm 2010 đến năm 2023 Dựa vào biểu đồ trên có thể thấy.
Giá thực tế (màu xanh lá cây): Giá cổ phiếu BIDV có xu hướng tăng chung trong giai đoạn từ năm 2010 đến năm 2023 Có một số biến động mạnh ở các năm
Huấn luyện dự đoán (màu đỏ): Giá dự đoán từ mô hình huấn luyện bám sát giá thực tế trong phần lớn thời gian Tuy nhiên ở một khoảng thời gian có sự chênh lệch khá lớn giữa giá thực tế và dự đoán.
Giá dự đoán tương lai (màu tím): Xu hướng tăng của giá cổ phiếu V sẽ tiếp tục trong thời gian tới.
Đánh giá mô hình
Đối với mô hình dự đoán giá cổ phiếu của Ngân hàng TMCP Đầu tư và Phát triển Việt Nam (BIDV), chỉ số MSE đạt 0,0091 - một con số tương đối thấp, phản ánh mô hình có khả năng giải thích và dự báo biến động giá cổ phiếu BIDV một cách khá chính xác so với giá trị thực tế Tuy nhiên, so với hai mô hình còn lại, mô hình dự đoán giá BIDV có độ chính xác thấp hơn.
Mô hình dự đoán giá cổ phiếu của Ngân hàng TMCP Sài Gòn Thương Tín (Sacombank) ghi nhận chỉ số MSE 0,0069 - thấp hơn so với BIDV Điều này cho thấy mô hình có khả năng giải thích và dự báo biến động giá cổ phiếu Sacombank chính xác hơn, với sai lệch giữa dự báo và giá thực tế thấp hơn so với BIDV Một chỉ số MSE ở mức này được xem là rất tốt trong lĩnh vực dự báo giá cổ phiếu.
Cuối cùng, mô hình dự đoán giá cổ phiếu của Ngân hàng TMCP Công Thương Việt Nam (Vietinbank) đạt chỉ số MSE thấp nhất, 0,0062 Điều này chứng tỏ mô hình có khả năng giải thích và dự báo biến động giá cổ phiếu Vietinbank chính xác và đáng tin cậy nhất so với hai mô hình còn lại Với MSE thấp như vậy, mô hình dự báo giá Vietinbank có thể trở thành công cụ hỗ trợ hiệu quả cho các nhà phân tích và nhà đầu tư chứng khoán trong việc đưa ra các quyết định đầu tư.
Tóm lại, kết quả đánh giá cho thấy cả ba mô hình LSTM đều đạt được hiệu suất dự đoán tương đối tốt với chỉ số MSE thấp Trong đó, mô hình dự đoán giá cổ phiếu Vietinbank có độ chính xác cao nhất, tiếp theo là Sacombank và cuối cùng là BIDV. Trong lĩnh vực phân tích và đầu tư chứng khoán, sai số nhỏ là yếu tố quan trọng bởi giá cổ phiếu có tính biến động cao, tác động trực tiếp đến lợi nhuận của nhà đầu tư.
Do đó, các mô hình LSTM xây dựng với chỉ số MSE thấp như trên thể hiện khả năng dự báo giá cổ phiếu có độ chính xác cao, có khả năng hỗ trợ tốt quá trình ra quyết định đầu tư của các nhà phân tích và nhà đầu tư.