CƠ SỞ LÝ THUYẾT VÀ CÁC NGHIÊN CỨU LIÊN QUAN
2 1 NHỮNG VẤN ĐỀ CƠ BẢN VỀ CHỨNG KHOÁN
Chứng khoán là các công cụ để huy động vốn trung và dài hạn, các giấy tờ có giá, có khả năng chuyển đổi, chuyển nhượng nhằm xác nhận quyền sở hữu, quan hệ vay nợ giữa người nắm giữ nó và chủ thể phát hành ra nó [3] Đối với mỗi loại chứng khoán thường có các tính chất sau:
- Tính thanh khoản của một chứng khoán là khả năng chuyển đổi giữa chứng khoán đó sang tiền mặt Thanh khoảng của chứng khoán thể hiện qua việc chứng khoán đó được mua bán, trao đổi trên thị trường
- Tính sinh lời: Thu nhập của nhà đầu tư được sinh ra từ việc tăng giá chứng khoán trên thị trường, hay các khoản tiền lãi (cổ tức) được trả hàng năm
- Tính rủi ro: Đây là đặc trưng cơ bản của chứng khoán Trong quá trình trao đổi, mua đi bán lại, giá của chứng khoán bị giảm hoặc mất hoàn toàn ta gọi là rủi ro
Cổ phiếu: là loại chứng khoán xác nhận quyền sở hữu và lợi ích hợp pháp đối với thu nhập và tài sản của công ty cổ phần Số vốn đóng góp để thành lập công ty được chia ra thành nhiều phần nhỏ bằng nhau gọi là cổ phần Người mua cổ phần gọi là cổ đông Cổ phiếu có thể được phát hành dưới dạng chứng chỉ vật chất hoặc bút toán ghi sổ, chỉ có công ty cổ phần mới có cổ phiếu Giá trị ban đầu ghi trên cổ phiếu là mệnh giá của cổ phiếu Mệnh giá là giá trị danh nghĩa Số tiền nhận được từ khoản góp vốn gọi là cổ tức Giá cổ phiếu giao động qua các phiên giao dịch trên thị trường chứng khoán và tách rời so với mệnh giá Cổ phiếu được chia thành 2 loại [3]:
- Cổ phiếu thường: Là loại cổ phiếu không có kỳ hạn, tồn tại cùng với sự tồn tại của công ty phát hành ra nó, nó không có lãi suất cố định, số lãi được chia vào cuối mỗi niên độ quyết toán Cổ đông nắm giữ cổ phiếu này có quyền bỏ phiếu, mua cổ phiếu mới, tham gia vào đại hội cổ đông
- Cổ phiếu ưu đãi: Gồm 2 loại
* Cổ phiếu ưu đãi biểu quyết: là cổ phiếu dành cho các cổ đông sáng lập Cổ đông nắm giữ loại cổ phiếu này phải nắm giữ trong một khoảng thời gian nhất định, không được chuyển nhượng, trao đổi
* Cổ phiếu ưu đãi tài chính: tương tự như cổ phiếu thường nhưng có một số hạn chế: cổ đông nắm giữ cổ phiếu này không được tham gia bầu cử, ứng cử vào hội đồng quản trị, ban kiểm soát của công ty Nhưng họ được hưởng ưu đãi về tài chính theo một mức cổ tức riêng biệt, có tính cố định hàng năm, được ưu tiên chia cổ tức và phân chia tài sản còn lại của công ty sau khi thanh lý, giải thể trước cổ phiếu thường
Trái phiếu: là loại chứng khoán quy định nghĩa vụ của người phát hành phải trả cho người nắm giữ chứng khoán đó một khoản tiền xác định vào những thời hạn cụ thể và theo những điều kiện nhất định Đây là những chứng khoán nợ, được phát hành dưới dạng chứng chỉ vật chất hoặc bút toán ghi sổ Trái phiếu bao gồm các loại sau [3]:
- Trái phiếu vô danh: loại này không ghi tên trái chủ trên cả chứng chỉ và sổ sách của các tổ chức phát hành Việc chuyển nhượng loại trái phiếu này rất dễ dàng nên nó thường được giao dịch trên thị trường chứng khoán
- Trái phiếu ghi danh: ghi tên, địa chỉ của trái chủ trên chứng chỉ và sổ sách của tổ chức phát hành Loại này ít được đem trao đổi trên thị trường
- Trái phiếu chính phủ: là loại trái phiếu do chính phủ phát hành nhằm bù đắp cho thâm hụt ngân sách Đây là loại chứng khoán mà các nhà đầu tư không ưa mạo hiểm rất ưa thích vì nó hầu như không có rủi ro thanh toán
- Trái phiếu công trình: là loại trái phiếu được phát hành để huy động vốn xây dựng các công trình cơ sở hạ tầng hay công trình phúc lợi công cộng
- Trái phiếu công ty: do công ty phát hành để vay vốn trung và dài hạn Khi công ty bán trái phiếu thì công ty là người đi vay của người mua, người mua là chủ nợ Công ty phải cam kết trả cả lãi và gốc cho trái chủ như đã nêu trong hợp đồng Nó bao gồm các loại: trái phiếu có đảm bảo, trái phiếu không có bảo đảm, trái phiếu có thể mua lại
Chứng chỉ quỹ đầu tư: là chứng khoán được phát hành bởi công ty quản lý quỹ để huy động vốn từ các nhà đầu tư Vốn được dùng để mua bán kinh doanh các loại chứng
24 khoán khác để kiếm lời, sau đó chia tiền lời đó cho các nhà đầu tư Có thể phân loại chứng chỉ quỹ đầu tư thành:
- Quỹ đầu tư chung: đây là loại quỹ mà tất cả mọi người đều có thể tham gia
- Quỹ đầu tư riêng: chỉ giới hạn ở một nhóm người nhất định
DỰ ĐOÁN GIÁ CỔ PHIẾU
Mã cổ phiếu dự đoán
3 2 1 Công ty Cổ phần sữa Việt Nam
3 2 2 Tổng công ty Điện lực Dầu khí Việt Nam
3 2 3 Công ty Cổ phần Hoàng Anh Gia Lai
3 CHƯƠNG 4: THỰC NGHIỆM DỰ ĐOÁN
4 2 1 Tiền xử lý dữ liệu
4 2 2 Phân chia tập dữ liệu
STT Thời gian Công việc
1 01/3 – 09/3 Lựa chọn và xác định đề tài khóa luận
2 10/3 – 05/4 Tìm hiểu các vấn đề chung liên quan đến đề tài (tài liệu, các bài toán,…)
Tìm hiểu về cơ sở lý thuyết của bài toán gợi ý truyền thống, các phương pháp tiếp cận
Tìm hiểu lý thuyết về ứng dụng học sâu cho bài toán gợi ý Tìm hiểu mô hình Long Short Term Memory
3 06/4 – 05/05 Thu thập bộ dữ liệu
Thực nghiệm mô hình LSTM trên Google Colab
4 06/5 – 01/06 Viết báo cáo phần nội dung lý thuyết
5 02/06 – 30/06 Chỉnh sửa thực nghiệm và bổ xung báo cáo cho phần thực nghiệm
6 30/06 – 15/07 Chỉnh sửa và hoàn thiện bài báo cáo và thuyết trình Ý kiến của giáo viên hướng dẫn (ký và ghi rõ họ tên)
PHIẾU NHẬN XÉT CỦA GIÁO VIÊN HƯỚNG DẪN 2
PHIẾU NHẬN XÉT CỦA GIÁO VIÊN PHẢN BIỆN 4
TÓM TẮT KHOÁ LUẬN 8 ĐỀ CƯƠNG KHÓA LUẬN TỐT NGHIỆP 9
DANH MỤC CÁC THUẬT NGỮ VÀ TỪ VIẾT TẮT 17
1 1 Lý do chọn đề tài 18
1 3 Đối tượng, phạm vi nghiên cứu 19
1 5 Ý nghĩa khoa học và thực tiễn 20
CHƯƠNG 2: CƠ SỞ LÝ THUYẾT VÀ CÁC NGHIÊN CỨU LIÊN QUAN 22
2 1 Những vấn đề cơ bản về chứng khoán 22
2 1 1 Khái niệm chứng khoán 22
2 1 2 Phân loại chứng khoán 22
2 2 Tổng quan về thị trường chứng khoán 24
2 2 1 Khái niệm thị trường chứng khoán 24
2 2 2 Vai trò của thị trường chứng khoán 24
2 2 3 Phân loại thị trường chứng khoán 26
2 3 Học máy (Machine Learning) và Thị trường chứng khoán 27
2 3 2 Vấn đề chung của học máy 31
2 4 2 Các thành phần cơ bản của một nơ-ron nhân tạo: 33
2 4 3 Một số kiến trúc của mạng nơ-ron nhân tạo 34
CHƯƠNG 3: DỰ ĐOÁN GIÁ CỔ PHIẾU 47
3.1 Dự đoán giá cổ phiếu 47
3.2 Mã cổ phiếu dự đoán 47
3 2 1 Công ty Cổ phần sữa Việt Nam 47
3 2 2 Tổng công ty Điện lực Dầu khí Việt Nam 49
3 2 3 Công ty Cổ phần Hoàng Anh Gia Lai 50
CHƯƠNG 4: THỰC NGHIỆM DỰ ĐOÁN 53
4 2 1 Tiền xử lý dữ liệu 57
4 2 2 Phân chia tập dữ liệu 57
Hình 1 Machine Learning giúp phát hiện gian lận [25] 29
Hình 2 Phân loại các loại học của ML[26] 30
Hình 3 Cấu trúc một mạng nơ-ron sinh học [21] 32
Hình 4 Mô hình của một nơ-ron nhân tạo được gán nhãn k [21] 33
Hình 6 Mô hình mạng nơ-ron nhiều lớp truyền thẳng [23] 35
Hình 7 Mạng nơ-ron hàm cơ sở xuyên tâm [24] 36
Hình 8 Mạng nơ-ron tích chập trong bài toán xử lý ảnh [25] 37
Hình 9 Mô hình mạng hồi quy đơn giản [8] 38
Hình 11 Logo CTCP Sữa Việt Nam [13] 48
Hình 12 Logo Tổng công ty Điện lực Dầu khí Việt Nam [15] 49
Hình 13 Logo Công ty Cổ phần Hoàng Anh Gia Lai.[17] 51
Hình 14 Logo Tập đoàn Hoà Phát [19] 52
Hình 15 Biểu đồ giá cổ phiếu của VNM 60
Hình 16 Biểu đồ giá cổ phiếu POW 60
Hình 17 Biểu đồ giá cổ phiếu của HAG 61
Hình 18 Biểu đồ giá cổ phiếu của HAG 61
Bảng 1 Bộ dữ liêu của VNM 53
Bảng 2 Bộ dữ liệu của POW 54
Bảng 3 Bộ dữ liệu của HAG 55
Bảng 4 Bộ dữ liệu của HPG 56
Bảng 5 Giá dự đoán trên tập Testing 62
Bảng 6 Kết quả đo trên tập Testing của mô hình LSTM 63
DANH MỤC CÁC THUẬT NGỮ VÀ TỪ VIẾT TẮT
Từ viết tắt Tên đầy đủ
TTCK Thị trường chứng khoán
ML Machine Learning (Học máy)
GDP Gross Domestic Product (Tổng sản phẩm nội địa)
RNN Recurrent Neural Network (Mạng nơ-ron hồi quy)
ANN Mạng nơ-ron nhân tạo (Artificial Neural Network)
LSTM Long-short Term memory (Mạng nơ-ron dài ngắn )
RMSR Root Mean Square Error ( Lỗi trung bình bình phương)
MAE Mean Absolute Error (Giá trị trung bình của các sai số tuyệt đối) MAPE Mean Absolute Percentage Error
1 1 LÝ DO CHỌN ĐỀ TÀI
Ngày nay, tất cả các quốc gia phát triển và hầu hết các nước đang phát triển đều có thị trường chứng khoán, một thị trường không thể thiếu với mọi nền kinh tế muốn phát triển vững mạnh Ở Việt Nam, dù đã trải qua 25 năm hình thành và phát triển kể từ sự kiện thành lập Uỷ ban Chứng khoán nhà nước tháng 11-1996 và Trung tâm Giao dịch Chứng khoán
TP Hồ Chí Minh (sau này được đổi tên thành Sở Giao dịch Chứng khoán TP Hồ Chí Minh
- HOSE) có phiên giao dịch đầu tiên ngày 28-7-2000, đến nay ngành Chứng khoán đã đạt được những thành tựu nhất định cùng với những chuyển mình ngày càng lớn mạnh của nền kinh tế đất nước
Tính từ khi thành lập thị trường chứng khoán (TTCK) Việt Nam đến tháng 06/2020, thông qua TTCK, Chính phủ và các doanh nghiệp đã huy động được trên 2,4 triệu tỷ đồng để đưa vào sản xuất kinh doanh, riêng trong giai đoạn 2011 đến nay, quy mô huy động vốn qua TTCK đạt khoảng 1,7 triệu tỷ đồng, đóng góp bình quân 20% tổng vốn đầu tư toàn xã hội [1]
Quy mô vốn hóa TTCK có sự tăng trưởng vượt bậc, từ mốc sơ khai, vốn hóa thị trường chỉ đạt 986 tỷ đồng, chiếm 0,28% GDP vào năm 2000, đến nay (tính đến hết tháng 6/2020) giá trị vốn hóa thị trường cổ phiếu là 3.894 nghìn tỷ đồng, đạt 64,5% GDP (quy mô tăng 3.949 lần trong vòng 20 năm) Mức vốn hóa thị trường trái phiếu tăng trưởng tích cực, tương đương trên 30,3% GDP năm 2019, trong đó riêng thị trường trái phiếu doanh nghiệp đạt gần 10,9% GDP Tính chung, giá trị vốn hóa TTCK đạt 94,8% GDP đã góp phần định hình hệ thống tài chính hiện đại trên nền tảng hài hòa giữa TTCK và thị trường tiền tệ - tín dụng
Sự phát triển của TTCK Việt Nam đã góp phần thúc đẩy quá trình cơ cấu lại nền kinh tế trên cả 3 trụ cột: cải cách doanh nghiệp nhà nước thông qua cổ phần hóa, thoái vốn nhà nước bằng các cơ chế đấu giá minh bạch, hiện đại và gắn cổ phần hóa với đăng ký giao dịch, niêm yết trên TTCK; Tái cơ cấu đầu tư công thông qua việc trở thành kênh huy động vốn quan trọng cho ngân sách nhà nước; Hỗ trợ quá trình tái cơ cấu các tổ chức tín dụng, đặc biệt là các ngân hàng thương mại tham gia niêm yết trên TTCK Qua đó, nhằm giúp
19 các nhà quản lý doanh nghiệp, các nhà đầu tư và các cá nhân muốn tham gia thị trường chứng khoán có thông tin đầy đủ và rõ ràng hơn về giá cổ phiếu giúp mình đưa ra quyết định tham gia TTCK như thế nào để có lợi nhuận cao và bền vững, cụ thể hơn trong quá trình giao dịch cổ phiếu của mình Từ đó nâng cao lòng tin, độ tin cậy cao vào thị trường cổ phiếu nhằm đem lại sự thỏa mãn tối đa cho các nhà đầu tư trên thị trường cũng là làm cho thị trường chứng khoán ngày một hiệu quả và hoạt động tốt hơn
Chính vì lẽ đó dự đoán thị trường chứng khoán là một nhu cầu cấp thiết và có ý nghĩa thực tiễn Chủ đề này đã được nhiều nhà nghiên cứu trong và ngoài nước quan tâm và đưa ra nhiều giải pháp Mỗi giải pháp có những ưu nhược điểm khác nhau, tuy nhiên sử dụng học máy là giải pháp mang lại kết quả tốt Vì các lý do trên, chúng tôi đã lựa chọn đề tài
“Dự đoán giá cổ phiếu bằng học máy” là đề tài khoá luận tốt nghiệp
Khoá luận này tập trung nghiên cứu giải quyết bài toán dự đoán giá cổ phiếu trên thị trường chứng khoán Việt Nam với các mã cổ phiểu thuộc các ngành nghề khác nhau đến đa ngành nghề như Vinamilk, Hoàng Anh Gia Lai, PV Power Trên cơ sỡ dữ liệu được thu thập từ các trang Web cung cấp thông tin, đánh giá và phân tích cổ phiếu Việt Nam như investing.com, Cafef.vn, finance.vietstock.vn,… Chúng tôi tiền xữ lý, trích xuất các đặc trưng, áp dụng các phương pháp học máy cho bài toán dự đoán giá cổ phiếu để xác định mô hình tối ưu nhất
1 3 ĐỐI TƯỢNG, PHẠM VI NGHIÊN CỨU Đối tượng nghiên cứu trong khoá luận này là các dữ liệu từ các trang Web cung cấp thông tin, đánh giá và phân tích cổ phiếu Việt Nam như investing.com, Cafef.vn, finance.vietstock.vn, … mà trong đó có liên quan đến cổ phiếu của các tập đoàn, công ty lớn ở Việt Nam
Phạm vi nghiên cứu các cổ phiếu có chuỗi ngày giao dịch trong phạm vi lớn áp dụng các phương pháp học máy, học sâu cho bài toán dự đoán giá cổ phiếu
Phương pháp nghiên cứu lý thuyết: tổng hợp, nghiên cứu các tài liệu về cổ phiếu chứng khoán Nghiên cứu các phương pháp, thuật toán sử dụng cho dự đoán giá cổ phiếu
Nghiên cứu các phương pháp học sâu vào thị trường cổ phiếu Tìm hiểu các kiến thức liên quan như thị trường chứng khoán, học máy, kỹ thuật lập trình trên máy tính
Phương pháp nghiên cứu thực nghiệm: sau khi nghiên cứu lý thuyết, phát biểu bài toán, đề xuất mô hình Xây dựng và cài đặt thử nghiệm mô hình đề xuất, đánh giá các kết quả đạt được, công bố kết quả nghiên cứu
Phương pháp so sánh và đánh giá: phân tích đánh giá mô hình đề xuất với các độ đo khác nhau
1 5 Ý NGHĨA KHOA HỌC VÀ THỰC TIỄN Ý nghĩa khoa học của khoá luận: đề xuất phương pháp giải quyết bài toán dự đoán giá cổ phiếu bằng cách trích xuất các đặc trưng, tiến hành thử nghiệm các hướng tiếp cận mô hình học máy Để đánh giá mô hình đề xuất LSTM, trên tập dữ liệu bao gồm các mẫu của các cổ phiếu Ý nghĩa thực tiễn của khoá luận: xây dựng mô hình để đưa ra kết quả dự đoán giá cổ phiếu Bên cạnh đó, cung cấp số liệu thống kê hiệu suất mô hình và phân tích dữ liệu
Bố cục của luận văn được chia làm 5 chương chính bao gồm những nội dung như sau:
• Chương 1: Giới thiệu tổng quan về lĩnh vực nghiên cứu của bài toán dự đoán giá cổ phiếu, phát biểu bài toán dự đoán và mục tiêu, đối tượng, phạm vi nghiên cứu cũng như phương pháp để đạt kết quả tối ưu nhất
THỰC NGHIỆM DỰ ĐOÁN
Chúng tôi đánh giá mô hình của chúng tôi dựa trên bộ dữ liệu cổ phiếu cảu các công ty đã nói phía trên Tất cả dữ liệu cổ phiếu được lấy từ trang https://www.investing.com Chúng tôi chọn thời gian giao dịch trong khoảng 7 năm từ 01/01/2015-01/01/2022 (bao gồm 1749 mẫu dữ liệu) Ví dụ một vài dữ liệu của VNM giao dịch cổ phiếu được chỉ ra trong bảng 1 Ngày giao dịch thì không liên tục do giới hạn giao dịch vào cuối tuần và ngày nghỉ theo qui định của Sở giao dịch
Cổ phiếp của Công ty Cổ phần Sữa Việt Nam, với giá khởi đầu, cao nhất, thấp nhất và giá kết thúc phiên giao dịch, số lượng 1749 mẫu
Bảng 1 Bộ dữ liêu của VNM
Tên Thời gian Open High Low Close Volume
5-Jan-15 66,667.00 66,667.00 67,014.00 66,319.00 101.22K 6-Jan-15 66,667.00 66,667.00 67,361.00 65,972.00 145.28K 7-Jan-15 68,056.00 66,667.00 68,403.00 66,667.00 279.55K 8-Jan-15 68,403.00 68,056.00 68,750.00 67,708.00 101.74K 9-Jan-15 71,528.00 69,097.00 71,528.00 68,750.00 418.16K VNM 12-Jan-15 69,444.00 71,528.00 71,528.00 69,444.00 213.80K
27-Dec-21 86,100.00 86,000.00 86,400.00 85,700.00 1.14M 28-Dec-21 85,500.00 86,200.00 86,200.00 85,200.00 1.54M 29-Dec-21 85,200.00 85,500.00 85,600.00 85,100.00 945.40K 30-Dec-21 85,300.00 85,300.00 85,600.00 85,100.00 893.10K 31-Dec-21 86,400.00 85,500.00 87,500.00 85,300.00 2.33M
Cổ phiếp tổng công ty Điện lực Dầu khí Việt Nam, với giá khởi đầu, cao nhất, thấp nhất và giá kết thúc phiên giao dịch, số lượng 952 mẫu
Bảng 2 Bộ dữ liệu của POW
Tên Thời gian Open High Low Close Volume
7-Mar-18 16,800.00 18,200.00 18,200.00 16,500.00 7.17M 8-Mar-18 17,200.00 17,200.00 17,500.00 16,700.00 6.82M 9- Mar-18 17,500.00 17,100.00 17,600.00 17,100.00 5.31M 12-Mar-18 17,300.00 17,700.00 17,700.00 17,200.00 4.34M 13-Mar-18 17,200.00 17,300.00 17,400.00 17,100.00 4.45M POW 14-Mar-18 17,000.00 17,200.00 17,300.00 16,900.00 4.46M
27-Dec-21 18,450.00 17,050.00 18,450.00 16,500.00 32.86M 28-Dec-21 18,350.00 18,450.00 19,200.00 18,000.00 24.94M 29-Dec-21 18,000.00 18,100.00 18,700.00 17,850.00 21.43M 30-Dec-21 17,450.00 18,000.00 18,300.00 17,350.00 23.77M 31-Dec-21 17,500.00 17,450.00 17,900.00 17,300.00 15.77M
Cổ phiếp của tập đoàn Hoàng Anh Gia Lai, với giá khởi đầu, cao nhất, thấp nhất và giá kết thúc phiên giao dịch, số lượng 1749 mẫu
Bảng 3 Bộ dữ liệu của HAG
Tên Thời gian Open High Low Close Volume
5-Jan-15 22,200.00 22,200.00 22,700.00 21,900.00 2.27M 6-Jan-15 22,500.00 21,800.00 22,500.00 21,800.00 2.39M 7-Jan-15 22,700.00 22,500.00 23,000.00 22,400.00 2.70M 8-Jan-15 22,300.00 22,700.00 22,800.00 22,300.00 1.17M 9-Jan-15 22,800.00 22,400.00 22,900.00 22,300.00 2.57M HAG 12-Jan-15 22,300.00 22,800.00 22,800.00 22,300.00 1.55M
27-Dec-21 14,500.00 14,200.00 14,700.00 13,800.00 24.04M 28-Dec-21 13,550.00 14,450.00 14,800.00 13,550.00 49.66M 29-Dec-21 14,450.00 13,750.00 14,450.00 13,550.00 30.45M 30-Dec-21 14,250.00 14,550.00 15,100.00 14,000.00 16.19M 31-Dec-21 13,300.00 14,050.00 14,250.00 13,300.00 43.16M
Cổ phiếp của tập đoàn Hoà Phát, với giá khởi đầu, cao nhất, thấp nhất và giá kết thúc phiên giao dịch, số lượng 1749 mẫu
Bảng 4 Bộ dữ liệu của HPG
Tên Thời gian Open High Low Close Volume
27-Dec-21 34,738.20 35,230.20 35,268.00 34,473.30 13.88M 28-Dec-21 34,662.50 34,738.20 35,343.70 34,511.20 16.06M 29-Dec-21 34,662.50 34,662.50 35,041.00 34,435.50 19.65M 30-Dec-21 34,586.90 35,041.00 35,041.00 34,586.90 13.37M 31-Dec-21 35,116.60 34,813.90 35,305.80 34,700.40 17.92M
4 2 1 Tiền xử lý dữ liệu
Chúng tôi chuẩn hoá dữ liệu với giả định MAR như sau:
𝜇 𝑡 và 𝜏 𝑡 : là giá trị trung bình và độ lệch chuẩn của X Chúng tôi chọn t=5 chúng tôi cố gắng dự đoán dữ liệu trong ngày tới bằng dữ liệu một tuần trước đó (giao dịch được giới hạn cuối tuần) Ví dụ, chúng tôi tính toán mô tả độ sai lệch chuẩn của dữ liệu trong 5 ngày để chuẩn hóa dữ liệu Sau đó, dữ liệu chuẩn hóa được dùng để dự đoán dữ liệu cho ngày thứ 6 Dữ liệu trong quá trình Training và Testing được xử lý cùng lúc như nhau Và xử lý định dạng ngày tháng cho phù hợp và dể quan sát
4 2 2 Phân chia tập dữ liệu
Mục đích của chúng tôi là từ các yếu tố vền giá này để dự đoán giá đóng của ngày tới từ dữ liệu t ngày trước đó Lý do sử dụng các yếu tố trong ngày tới là vì lớp tạo sẽ hỗ trợ tìm ra sự phân phối của dữ liệu thật và chúng tôi có thể lấy giá đóng từ dữ liệu đã được tạo ra Dữ liệu được chia làm hai phần cho Training và Testing Chúng tôi chọn đầu tiên từ 80% dữ liệu cổ phiếu cho Training và sử dụng 20% cho Testing.
Lỗi trung bình bình phương (Root Mean Square Error) là độ lệch chuẩn của phần dư (lỗi dự đoán) Phần dư là thước đo khoảng cách từ các điểm dữ liệu đường hồi quy, RMSE là thước đo mức độ lan truyền của những phần dư này Nói cách khác, nó cho biết mức độ tập trung của dữ liệu xung quanh dòng phù hợp nhất Lỗi bình phương trung bình thường được sử dụng trong khí hậu học, dự báo và phân tích hồi quy để xác minh kết quả thí nghiệm
RMSE được thực hiện bằng cách đo sự khác biệt giữa các giá trị dự đoán và giá trị thực tế RMSE càng nhỏ tức là sai số càng bé thì mức độ ước lượng cho thấy độ tin cậy của mô hình có thể đạt
𝑦 𝑖 : giá trị thực tế n: số điểm dữ liệu
R-square là một thước đo được sử dụng trong thống kê và nó cho chúng ta biết mức độ phù hợp của mô hình nghiên cứu với các biến đầu vào Đồng thời, hệ số này giải thích nhân tố phụ thuộc hay biến kết quả đó đạt bao nhiêu phần trăm phù hợp trong quá trình huấn luyện Phản ánh mức độ giải thích của các biến độc lập đối với biến phụ thuộc trong mô hình Ví dụ giá trị R 2 là 0.725 Như vậy, các biến độc lập giải thích được 72.5% sự biến thiên của biến phụ thuộc Phần còn lại 27.5% được giải thích bởi các biến ngoài mô hình và sai số ngẫu nhiên Kết quả sẽ trong khoảng từ 0 đến 1, nó càng cao thì mối quan hệ giữa nhân tố độc lập (biến độc lập) và nhân tố phụ thuộc càng chặt chẽ
Công thức tính hệ số tương quan R 2 đang được sử dụng như sau:
- ESS là viết tắt của Residual Sum Of Squares, tức là tổng các độ lệch bình phương của phần dư
- TSS là viết tắt của Total Sum Of Squares, tức là tổng độ lệch bình phương của toàn bộ các nhân tố nghiên cứu
Mean Absolute Error (MAE) là giá trị trung bình của các sai số tuyệt đối Tính toán sự khác biệt tuyệt đối giữa giá trị dự đoán và giá trị thực tế, tính tổng những khác biệt này và chia tổng cho số lần quan sát Chỉ số này càng nhỏ thì mô hình học máy càng chính xác MAE được tính theo công thức sau:
𝑦 𝑖 : kết quả thực tế 𝑦̂ 𝑖 : kết quả dự đoán n: số điểm dữ liệu
Mean Absolute Percentage Error ( MAPE) đo độ chính xác của hệ thống dự báo Nó đo lường độ chính xác này dưới dạng phần trăm và có thể được tính bằng sai số phần trăm tuyệt đối trung bình cho mỗi khoảng thời gian trừ đi các giá trị thực tế chia cho các giá trị thực tế
Sai số phần trăm tuyệt đối trung bình (MAPE) là thước đo phổ biến nhất được sử dụng để dự báo sai số, có thể là do các đơn vị của biến được chia tỷ lệ thành đơn vị phần trăm, điều này giúp dễ hiểu hơn Nó hoạt động tốt nhất nếu dữ liệu không có cực trị (và không có số 0) Nó thường được sử dụng như một hàm tổn thất trong phân tích hồi quy và đánh giá mô hình
𝑦 𝑖 : kết quả thực tế 𝑦̂ 𝑖 : kết quả dự đoán n: số điểm dữ liệu
Chúng tôi tiến hành chọn các cổ phiếu của các tập đoàn có khối lượng gia dịch lớn hiện đang hoạt động tại Việt Nam gồm Công ty Cổ phần Sữa Việt Nam (VNM), Tổng công ty Điện lực Dầu khí Việt Nam (POW), Tập đoàn Hoàng Anh Gia Lai (HAG) với mỗi loại cổ phiếu chúng tôi lấy thời gian giao dịch là 01/01/2015 đến 01/01/0222 , với khoảng 1749 mẫu (1400 mẫu cho Training và 349 cho Testing), số lượng có thể thay đổi với các loại cổ phiếu được niêm yết sau ngày chúng tôi chọn lấy mẫu như là POW với 952 mẫu (761 mẫu cho Training và 191 cho Testing)
Môi trường chúng tôi thực nghiệm là Google Colab https://colab.research.google.com/, vì đây là một môi trường cho phép iết và thực thi Python trong trình duyệt mà không yêu cầu cấu hình, GPU được sử dụng miễn phí và rất dễ dàng để chia sẻ là một môi trường thích hợp cho sinh viên, nhà khoa học dữ liệu hay nhà nghiên cứu AI (trí tuệ nhân tạo) Thực hiện thực nghiệm từng loại cổ phiếu trên với mô hình LSTM thực hiện trên 100 epochs Sau quá trình thực nghiệm chúng tôi thu được các kết quả như sau:
Hình 15 Biểu đồ giá cổ phiếu của VNM
Hình 16 Biểu đồ giá cổ phiếu POW
Hình 17 Biểu đồ giá cổ phiếu của HAG
Hình 18 Biểu đồ giá cổ phiếu của HAG
Nhìn vào các kết quả dự đoán trên các hình 15,16,17,18, chúng ta có thể thấy được đường dự đoán màu xanh lá trên tập Trainning cũng như màu xanh dự đoán trên tập
Testing gần như là trùng với đường màu đỏ là giá trị thực tế, cũng có một số điểm bị lệch không như giá trị đúng Nhưng nó không đáng kể nên chúng ta thấy được mô hình LSTM cho ra một kết quả dự đoán là tương đối chính xác so với thực tế, dù cho các loại cổ phiếu có giá trị thấp hay cao và tăng giảm khác nhau nhưng vẫn cho ra được một kết quả dự đoán khá tốt
Giá trị dự đoán theo ngày của các cổ phiếu:
Bảng 5 Giá dự đoán trên tập Testing
Cổ phiếu VNM POW HAG HPG
Nhìn vào bảng 5, chúng ta thấy được kết quả dự đoán của mô hình LSTM lên các tập dữ liệu cổ phiếu của các công ty như sau:
- Cổ phiếu VNM, giá trị dự đoán chênh lệch so với giá trị thực tế với biên độ giao động cao nhất là ± 1300 (VND) trên giá thực tế ở cuối năm 2021 là 86000 (VND) / cổ phiếu
- Cổ phiếu POW, giá trị dự đoán chênh lệch so với giá trị thực tế với biên độ giao động cao nhất là ± 1200 (VND) trên giá thực tế ở cuối năm 2021 là 18000 (VND) / cổ phiếu