Tuy nhiên, đa số nghiên cứu hiện tại chỉ tập trung vàođánh giá những mô hình dự đoán cho một loại hoặc một số cổ phiếu nhất định mà bỏqua sự tương quan về xu hướng của các cô phiếu với n
Trang 1ĐẠI HỌC QUOC GIA TP HO CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN KHOA KHOA HỌC VÀ KỸ THUẬT THÔNG TIN
PHAN THỊ KIM CHI
KHÓA LUẬN TÓT NGHIỆP
DỰ DOAN GIA CO PHIEU SỬ DỤNG HỌC SÂU VA PHAN TÍCH DỰ
Trang 2ĐẠI HỌC QUOC GIA TP HO CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN KHOA KHOA HỌC VÀ KỸ THUẬT THÔNG TIN
PHAN THỊ KIM CHI - 18520525
KHÓA LUẬN TÓT NGHIỆP
DU DOAN GIÁ CO PHIẾU SỬ DỤNG HỌC SAU VA PHAN TÍCH DỰ
BÁOSTOCK PRICE FORECAST USING DEEP LEARNING AND
PREDICTIVE ANALYSIS
CỬ NHÂN NGÀNH KHOA HỌC DỮ LIỆU
GIẢNG VIÊN HƯỚNG DAN
TS DO TRỌNG HỢP THS TA THU THUY
TP HO CHÍ MINH, 2022
Trang 3THÔNG TIN HỘI ĐÒNG CHÁM KHÓA LUẬN TÓT NGHIỆP
Hội đồng chấm khóa luận tốt nghiệp, thành lập theo Quyết định số
bebe beet been eeseeeeees ngày cua Hiệu trưởng Trường Dai học Công nghệ Thông tin.
Trang 4luôn truyền đạt động lực giúp em có đủ bản lĩnh dé hoàn thành khoá luận này.
Em cũng gửi lời cảm ơn sâu sắc đến quý thay cô của Trường Đại học Công nghệThông tin nói chung và quý thây cô của Khoa Khoa học và Kỹ thuật Thông tin nóiriêng đã tận tâm truyén đạt cho chúng em những kiến thức hữu ích cũng như các kỹ
năng trong suốt quá trình học tập tại trường Và em tin đó là những kỹ năng nên tảng
giúp chúng em vững bước vào doi.
Lời cuối cùng em xin gửi lời cảm ơn đến gia đình, bạn bè đã ủng hộ em trong suốtthời gian thực hiện khoá luận đây khó khăn Đặc biệt em xin cảm ơn chị Nguyễn Thị
Phương Trâm, người chị đã phổ biến những kiến thức cơ bản về thị trường chứng
khoán.
Tác giả
Phan Thị Kim Chi
Trang 5MỤC LỤC
Chương I MỞ ĐÀMU e-cce<cSCcSeeeEEE+eetrEErteetrtrkerrtrrresrrsrreerrre 3
Chương 2 TONG QUAN eeess55<< HH 7
2.1 _ Tình hình nghiên cứu trên thế giới -csecccsssecrvsse 7
2.2 _ Tình hình nghiên cứu trong nưỚC << ssesesess=s=seseseses 8
3.4 Gia thiết khoa học
3.4.1 Giả thiết thị trường hiệu qua
3.4.2 Các giả thiết thị trường hiệu quả - ¿ 222255ccce+cccvvvecrcrrrrrr 3
3.5 Phương pháp nghiên cứu đã sử dụng . -<-s-«-«<s 14
3.5.1 Phương pháp phân tích và tổng hợp -. cc+2cc+sc+czxscee 4
3.5.2 Phương pháp thực nghiỆm + + + SEvxvEeketetrrrererererree 4
Chương 4 THUC NGHIEM, KET QUA, DANH GIÁ -«- 17
AL Thực nghiệm -. -csceseseesesttstsrrsrsersrserarssrsee 17 4.1.1 Thu thập dữ liệu
4.1.2 Phân tích dữ liệu.
4.1.3 Tiền xử lý dữ liệu
4.1.4 Môi trường thực nghiệm
Trang 64.1.5 Các bước cai đặt mô hình dự đoán giá cổ phiếu - 294.1.6 Xếp hạng cổ phiếu 2222-2222+2222212122221112227112212112 2.1 cccer 32
4.2 _ Kết quả thử nghiệm và đánh giá
4.2.1 Kết quả dự đoán giá chứng khoán theo ngày (LSTM) 34
4.2.2 Kết quả dự đoán giá chứng khoán khoảng thời gian dài (SeqtoSeq) 454.2.3 Kết quả xếp hạng 2222222222 2222111 2212112221112 484.3 Phân tích kết quả -esccc+vseerrvxeesrerrreserrrreserrr 51
4.3.1 Phân tích kết qua dựa trên đặc điểm bộ dữ liệu - 5143.2 Phân tích kết qua dựa trên kết quả thực nghi@m ccc.cccecsesseeessseeeee 51
Chương 5 KET LUAN csssssssssssssssssssssssssssesessssssssssvesesssvesssssnscssssnsesessavecessanecssssseees 53
Chương 6 HUONG PHAT TRIEN
TÀI LIEU THAM KHAO vsssssssssssssssssssssssssssssssssuesssssusscssssussesssussssssuesssssnscesssanessssass 55
Trang 7DANH MỤC HÌNH
Hình 3.1.Cấu trúc của một cell trong kiến trúc LSTM s 12
Hình 3.2 Kiến trúc của mô hình Seq2Sed -.s.ereeeeeeeeeeeeeeeee LBHình 4.1 Xu hướng dịch chuyển giá của cô phiếu HST va GOOG cho đến ngày
03/06/2022 - 23
Hình 4.2 Xu hướng của 3 cổ phiếu có độ lệch chuẩn cao nhắt 2 3Hình 4.3 Xu hướng của 3 cô phiếu có độ lệch chuẩn thấp nhất ( hình trên: cổ phiếu
HST và CNP, hình dưới: cổ phiếu của OGN .24
Hình 4.4 Xu hướng biến động của cổ phiếu HST ( trên) và GOOG (dưới) và đường
trung bình 300 25
Hình 4.5 Ví dụ bảng xếp hạng các cô phiếu sss-esseesreeeseee 3B
Hình 4.6 Kết quả dự đoán của mô hình LSTM-GOOG Loại 1 36Hình 4.7 Xu hướng giá thực tế của GOOG va HST trong khoảng thời gian test và
sau đó 20 ngày giao dịch
Hình 4.8 Kết quả dự đoán cho cô phiéu GOOG của mô hình LSTM-HST Loại 1.37
Hình 4.9 Kết qua dự đoán cho cổ phiếu GPC của mô hình LSTM-HST Loại I 38Hình 4.10 Biểu diễn kết quả của cô phiếu CHTR của mô hình LSTM- HST Loại 2
(trên) trên Loại 3(dưới) 39
Hình 4.11 Kết qua du báo cổ phiếu CHTR của mô hình LSTM-HST Loại 1, chuẩnhoá dữ liệu bằng zscore ( trên) và robust (đưới) -s eeeceeeeererres 40
Hình 4.12 Kết quả dự báo cô phiếu CHTR của mô hình LSTM-GOOG Loại 1, 41
Hình 4.13 Kết qua dự báo cổ phiếu CHTR của mô hình LSTM-HST Loại 2 (trên)
Hình 4.14 Kết quả dự báo cô phiếu CHTR của mô hình LSTM- HST Loại 2 (trên)
và Loại 3 (dưới), chuẩn hoá dữ liệu bằng Robust ss-s 43Hình 4.15 Kết qua dự báo cổ phiếu CHTR của mô hình LSTM-GOOG Loại 2
(trên) và 3 (dưới), chuẩn hoá dữ liệu bằng Z-score .44
Trang 8Hình 4.16 Kết quả du báo cổ phiếu CHTR của mô hình LSTM-GOOG Loại 2
45
Hình 4.17 Kết quả dự đoán mô hình dự đoán dài hạn cho cổ phiêu WRK được huấn
we 47
Hình 4.18 Kết quả dự đoán mô hình dự đoán dài hạn cho cổ phiêu WRK của mô
hình Seq2Seq-HST Loại 2, (looking-back,predict) = (7,7) 47,
(trên) và 3 (dưới), chuẩn hoá dữ liệu bằng Robust
luyện với dữ liệu HST Loại 1, (looking-back,predict) = (7,7)
Trang 9Bảng 4.1 Danh sách 50 cổ phiếu S&P 500
DANH MỤC BẢNG
Bảng 4.2 Độ lệch chuẩn giá đóng cửa có điều chỉnh của 50 cổ phiếu từ lúc xuất
hiện giá đóng cửa có điều chỉnh — 03/06/2022 -eeeeseeeereeeeore 22Bảng 4.3 Mô tả các thuộc tính có trong bộ dữ liệu của một loại cổ phiếu trong tập
di liệu FinSD_50S& 28
Bảng 4.4 Độ biến động của cổ phiếu trong khoảng thời gian của tập test 31Bảng 4.5 Các thuộc tính trong bảng xếp hạng cé phiếu 33
Bảng 4.6 Top 5 kết qua MSE thấp nhất và cao nhất của LSTM- HST Loại I, 34
Bảng 4.7 Top 5 kết quả MSE thấp nhất và cao nhất của LSTM- Loại 1,
ua MSE thấp nhất và cao nhất của LSTM- GOOG Loại 1, 35
ua MSE thấp nhất và cao nhất của LSTM-GOOG Loại I, 36
ang cổ phiếu theo mô hin
hạng cổ phiếu theo mô hìn|
hang cô phiêu theo mô hinl
ang cô phiêu theo mô hin!
ang cô phiếu theo mô hin
hạng cổ phiếu theo mô hìn|
h LSTM-HST đa biến Loại 2
SeqtoSeq-HST 50
h SeqtoSeq-HST 51
Trang 10DANH MỤC TU VIET TAT
STT Từ viết tắt Ý nghĩa
1 LSTM Long-Short Term Memory
2 SeqtoSeq Sequence to Sequence
3 MSE Mean Squared Error
4 MDA Mean Directional Accuracy
5 MFE Mean Forecast Error/ Forecast Bias
6 RPS Ranked Probability Score
7 LSTM-HST/GOOG | Mô hình LSTM được huấn luyện với bộ dữ liệu
cô phiêu HST/GOOG
§ Seq2Seq- M6 hinh Seq2Seq duge huấn luyện với bộ dữ
HST/GOOG liệu cô phiêu HST/GOOG
Trang 11TOM TAT KHÓA LUẬN
Dự báo dữ liệu thời gian thực nói chung và giá cổ phiếu nói riêng hiện tại đang là mộtthách thức và đang có nhiều nghiên cứu về chủ đề này Do đặc thù của đữ liệu cổphiếu biến động liên tục nên việc tìm ra một mô hình phủ hợp và dữ liệu phù hợp vẫnđang gặp rất nhiều khó khăn Tuy nhiên, đa số nghiên cứu hiện tại chỉ tập trung vàođánh giá những mô hình dự đoán cho một loại hoặc một số cổ phiếu nhất định mà bỏqua sự tương quan về xu hướng của các cô phiếu với nhau Bên cạnh đó, dé việc dựđoán cô phiếu gần hơn với áp dụng thực tế, chúng ta nên có một mô hình dự xếp hạng
cỗ phiếu dựa trên kết quả dự báo Trong khoá luận này, tôi đề xuất huấn luyện môhình học sâu và áp dụng dự đoán nhiều cô phiếu khác nhau Đồng thời, từ kết quả dựbáo, tiễn hành xếp hạng cô phiếu nhằm đánh giá tính khả thi của mô hình trước khi
áp dụng vào thực tế Kết quả tốt nhất là mô hình LSTM với huấn luyện đầu vào là giá
cổ phiếu HST với kết quả xếp hạng RPS = 0,024190476 cho dự đoán giá và xếp hạng
trong thời gian theo ngày.
Trang 12Chương1 MỞ ĐẦU
Lý do chọn đề tài
Thị trường chứng khoán nói chung luôn biến động không ngừng do tác động kinh tế
và chính trị Điều này chúng ta có thể thấy ở thị trường chứng khoán Mỹ, mặc dù thịtrường chứng khoán Mỹ là một trong những thị trường tôn tại lâu đời nhất Cuộckhủng hoảng tài chính ở Mỹ năm 2008 kéo theo sự sụt giảm của các chỉ số chứngkhoán tiêu biểu như S&P 500, hay ảnh hưởng của đại dịch Covid khiến cho thị trườngchứng khoán Mỹ bị có sự biến đổi mạnh mẽ từ đầu năm 2020 Chính sách phục hồikinh tế sau đó khiến cho thị trường chứng khoán trở nên khả quan hơn Tuy nhiên,đầu năm 2022 thị trường chứng khoán Mỹ lại ghi nhận sự sụt giảm chỉ số chứng
khoán của các công ty lớn như (GOOG, META, ) Sự biến động liên tục của thị
trường chứng khoán gây ra tâm lý lo sợ cho các nhà đầu tư Đặc biệt đối với các nhà
đầu tư ngắn hạn khi thị trường Mỹ được dự báo sẽ tiếp tục ở tình trạng hiện tại Vậy
làm sao giúp các nhà đầu tư ngắn hạn dự đoán trước được xu hướng ngắn hạn của cácchỉ số chứng khoán và tối ưu đanh mục đầu tư? Hiện nay, các nghiên cứu hỗ trợ dự
báo giá cổ phiếu sử dụng học máy và học sâu đang được giới học thuật quan tâm do
tính ứng dụng của chúng trong dự báo dữ liệu dạng chuỗi thời gian Tuy nhiên, việc
dự báo thường dừng lại ở việc áp dụng mô hình dự báo và đánh giá kết quả Phương
hap phân tích kỹ thuật là một trong hai phương pháp phân tích chứng khoán phổ
biến trong giới đầu tư Phương pháp này hỗ trợ phân tích xu hướng của giá cổ phiếudựa trên dữ liệu lịch sử của cổ phiếu đó Điều này cho ta thay nét tương đồng giữa dựbáo giá cổ phiếu sử dụng các phương pháp học sâu và phương pháp phân tích kỹ
thuật Tuy nhiên, các nghiên cứu áp dụng phương pháp phân tích kỹ thuật với các mô
hình học sâu cho dự đoán giá cổ phiếu còn khá giới hạn về vấn đề xử lý dữ liệu và
phạm vi áp dụng Điều đó giải thích cho việc tôi quyết định chọn đề tài dự đoán giá
cổ phiếu sử dụng học sâu và phân tích dự báo Mục tiêu chính của tôi trong khoá luậnnày là thu thập va xử lý bộ dữ liệu cho việc huấn luyện và đánh giá các phương pháp
tiền xử lý dữ liệu và thử nghiệm mô hình học sâu cho dự đoán giá cỗ phiếu Từ dữ
liệu dự báo, tiến hành xếp hang co phiéu theo lợi nhuận
Trang 13Mục tiêu khoá luân
Trong khoá luận này, tôi tập trung nghiên cứu các phương pháp tiền xử lý đữ liệutruyền thống và kết hợp với phương pháp phân tích kỹ thuật, mô hình dự báo sử dụngphương pháp học sâu, và xếp hạng cô phiếu dựa theo lợi nhuận
e Thứ nhất, thu thập dữ liệu của các cổ phiếu theo ngày, dữ liệu được đặt tên
theo mã cô phiếu trên thị trường chứng khoán Thực hiện phương pháp EDAtrên dữ liệu dé nhận xét tong quan về dữ liệu Bộ dữ liệu có sẵn miễn phí cho
mục đích nghiên cứu.
e _ Thứ hai, tiến hành cai đặt, thử nghiệm các mô hình dự báo bằng việc sử dụng
phương pháp học sâu sử dụng mô hình Vanilla LSTM và Sequence to
Sequence trên bộ đữ liệu với các biến đầu vào khác nhau và phương pháp càiđặt mô hình khác nhau, đánh giá và phân tích kết quả lựa chọn mô hình phihợp cho bộ dữ liệu và nhu cầu sử dụng Thử nghiệm 3 nhóm dữ liệu đầu vào
thời gian theo ngày:
- Dữ liệu đầu vào chỉ có giá đóng cửa có điều chỉnh
- Dir liệu đầu vào có thêm các thuộc tính giá mở cửa, giá đóng cửa, giá đóng
cửa cao nhát, giá đóng cửa thấp nhat
- Dữ liệu đầu vào gồm 9 chỉ số kỹ thuật của cổ phiếu, ngày nghỉ lễ của Mỹ
e Thứ ba, xếp hạng cổ phiếu đựa trên lợi nhuận của cỗ phiếu
© _ Thứ tư, cung cấp một số trường hợp điển hình của bài toán va đề xuất trong
tương lai cho bài toán dự báo giá cô phiếu và xếp hạng cô phiếu cho việc tối
ưu hoá danh mục đầu tư
Đối tượng và phạm vi nghiên cứu
© Đối tượng, đối với dữ liệu để huấn luyện mô hình, tôi sử dụng dữ liệu lịch sử
của cổ phiếu Host Hostels & Resorts Inc (HST) và Alphabet Inc (GOOG),, dé
đánh giá kha năng dự báo xu hướng của mô hình được huấn luyện trên 2 bộ
dữ liệu riêng biệt trên các tài sản bao gồm 50 cổ phiếu thuộc nhóm cổ phiếu
S&P 500.
Trang 14Phạm vi nghiên cứu, dé tài chủ yếu tập trung vào tìm hiéu, tiền xử lý bộ dữliệu, cài đặt mô hình dự báo giá, xếp hạng cổ phiếu và đánh giá kết quả dựbáo:
- Nghiên cứu các phương pháp phân tích cổ phiếu và phương pháp tiền xử
lý dữ liệu.
- Cài đặt mô hình và tối ưu mô hình Tiến hành đánh giá trên nhiều bộ dữ
liệu đã được đề cập ở mục đối tượng
- _ Từ kết quả dự báo, tiễn hành xếp hạng cô phiếu và đánh giá kết quả
Kết quả nghiên cứu
Nghiên cứu của tôi đã đạt được các kết quả sau:
Thu thập và xử lý thành công tập dữ liệu FinSD_50S&P.
Nghiên cứu độ tương quan giữa các có phiếu và phân tích cơ bản xu hướngbiến động của các cô phiếu
Thực nghiệm mô hình cho dự đoán dữ liệu chuỗi thời gian đơn biến và đa biến
trên thư viện BigDL.
Đánh giá được các trường hợp điển hình về tác động của dữ liệu lên kết quả
huấn luyện mô hình và khả năng học tập của mô hình học sâu cho việc dự đoán
dữ liệu dạng chuỗi thời gian và xếp hạng cổ phiếu
Cấu trúc khoá luận
Khoá luận gồm 6 chương bao gồm các nội dung chính sau:
¢ Chương 1: Mở đầu
Giới thiệu về thị trường chứng khoán và bai toán dự báo giá cổ phiếu Thực trạng và
tam quan trong của các nghiên cứu liên quan đến thị giá cổ phiếu, tính ứng dụng của
Trang 15Chương này mô tả những lý thuyết, giả thuyết và phương pháp nghiên cứu trong đề
tài, phương pháp đánh giá.
® Chuong 4: Thực nghiệm, kết quả, đánh giá
Trong chương này, tôi trình bày phương pháp học sâu mà tôi đã nghiên cứu và áp
dụng, mô tả về bộ đữ liệu chứng khoán được sử dụng Phân tích cơ bản về đặc điểm
của bộ dữ liệu và tiền xử lý dữ liệu, đánh giá và phân tích các trường hợp giải thích
cho kết quả đạt được
® Chương 5: Kết luận
Tổng kết lại các kết quả đạt được
® Chương 6: Hướng phát triển
Đề xuất các hướng phát triển trong tương lai để cải thiện hiệu suất mô hình và tính
ứng dụng của đề tài
Trang 16Chương2 TONG QUAN
2.1 Tinh hình nghiên cứu trên thé giới
Sự phát triển của công nghệ 4.0 trong những năm gần đây làm tiền đề cho khả năng
số hoá các lĩnh vực trong cuộc sống Nhờ đó, dữ liệu được sinh ra nhiều hơn trong
quá trình vận hành các hoạt động sản xuất, kinh doanh Đi kèm với đó là khả năngsinh dé liệu trong thời gian thực Day là nguồn dữ liệu quý giá cần được tận dụng dotính khả thi khi áp dụng kết quả phân tích hay dự báo vào trong thực tế Ví dụ như dự
đoán tình trạng giao thông trên một vài đoạn đường mà Google Maps đang áp dụng.
Việc nghiên cứu các mô hình dé tăng độ chính xác cho các mô hình là một điều cầnthiết Trong suốt lịch sử phát triển, nhiều thuật toán được thiết kế và thực nghiệmtrong giới học thuật và cho thấy được tính ứng dụng thực tế của các thuật toán đó
Mô hình ARIMA [1] là một dạng mô hình biểu diễn phương trình hồi quy tuyến tính
đa biến của biến đầu vào Mô hình này được ứng dụng thành mô hình tiêu chuẩn được
dung phổ biến trong dự đoán dữ liệu chuỗi thời gian kinh tế và tài chính và là môhình baseline dé so sánh các thuật toán mới Tuy nhiên, nhược điểm của ARIMA là
hoạt động tốt trên dữ liệu có tính dừng (stationary data) [2]
Sự xuất hiện của RNN mở ra một hướng phát triển kiến trúc mô hình mới do khả
năng dự đoán dựa trên các xu hướng trong các bước dữ liệu trước đó và hoạt động tốttrên dữ liệu không tuyến tinh (non-linear) hoặc không có tính dừng (non-stationary)
YongJiong Zhu và các cộng sự [3] thử nghiệm mô hình RNN trên cổ phiếu của Applevới bước thời gian lịch sử là 5 và 10 cho kết quả mô hình có MAE cảng cao khi bước
thời gian càng tăng (MAEs = 5.903805 và MAEio=7.835381).
MK Ho và các cộng sự [4] thử nghiệm so sánh hiệu suất giữa mô hình ARIMA vàLSTM trên bộ dữ liệu giá đóng cửa của Bursa Malaysia với tập dữ liệu huấn luyện từ
02/01/2020- 28/09/2020 và tập kiểm thử từ 29/09/2020 -19/01/2021 Đây chính làkhoảng thời gian số ca mắc ở Malaysia tăng mạnh, đồng thời cũng khiến cho giá cổ
phiếu bị biến động trong suốt khoảng thời gian này Kết quả đánh giá thử nghiệmtheo MAPE và RMSE cho thấy mô hình LSTM không những dự đoán được chính
Trang 17xác 90% giá trị dự báo mà còn dự đoán chính xác cả xu hướng di chuyền của côphiếu.
Md Arif Istiake Sunny và các cộng sự [4] so sánh hiệu suất của hai mô hình học sâu
LSTM và Bi-LSTM trên dữ liệu chứng khoán của Google từ 19/08/2004 —
04/10/2019 Dữ liệu được scale lại sử dụng MinMax trước khi đưa vào huấn luyện.Các cách so sánh bao gồm số epochs được huấn luyện, số lớp an, số lớp dense Kếtquả cho thay huấn luyện mô hình với số lượng epochs càng tăng thì mô hình dự đoántốt hơn và kết quả huấn luyện trên mô hình Bi-LSTM đạt độ chính xác cao hơn so
với mô hình LSTM.
Bên cạnh sự phát triển của các nghiên cứu dự báo giá cổ phiếu Fuli Feng và các cộng
sự [5] thiết kế mô hình Relational Stock Ranking (RSR) bằng việc điều chỉnh môhình LSTM phủ hợp dé xếp hạng cổ phiếu và tận dụng quan hệ tương quan của các
cổ phiếu theo thời gian Dữ liệu được thu thập từ hai san giao dịch NASDAQ- 1,026
cổ phiếu va NYSE-1,737 cô phiếu scale lại độc lập, dữ liệu quan hệ giữa các cô phiếuWiki Company-Based Relations Điểm mới của mô hình là thêm thành phần
Temporal Graph Convolution vào mô hình mạng thần kinh Kết quả cho thấy việc
huấn luyện mô hình tận dụng mối tương quan giữa các cô phiếu giúp mô hình dự
đoán có kết quả giá cô phiếu tốt hơn, đặc biệt là dữ liệu mang tính ổn định (stabledata) Với kết quả xếp hạng, nhóm tác giả tiến hành đánh giá dựa trên lợi nhuận đầu
tư theo nhóm top 1, 5, 10 các cổ phiếu được dự đoán có lợi nhuận cao, lợi nhuận tích
luỹ của 10 ngày liên tiếp của ba nhóm cổ phiếu dau tư theo thứ tự top 1 > top 5 > top
10 Điều này cho ta thấy, thuật toán xếp hạng của nhóm tác giả có khả năng dự đoánchính xác thứ hạng tương đối của các cổ phiếu liên quan đến tỉ lệ lợi nhuận trongtương lai.
2.2 Tình hình nghiên cứu trong nước
So với thị trường Mỹ, thị trường chứng khoán Việt Nam đang còn là thị trường non
trẻ, do đó sẽ có nhiều yếu tô ảnh hưởng đến giá chứng khoán Tuy nhiên, các nghiêncứu về mô hình dự đoán cô phiếu ở Việt Nam van còn khiêm tốn
Trang 18Thang Huynh Quyet và các cộng sự [6] đã thực hiện nghiên cứu dự đoán xu thé chỉ
số chứng khoán Việt Nam VN-Index sử dụng phân tích hồi quy Gaussian Process và
mô hình tự hồi quy trung bình cộng ARMA Nhóm tác giả thực hiện phân tách dữliệu đầu vào thành các chuỗi thời gian thành phần bao gồm: xu thế, thời vụ và ngẫunhiên Sử dụng mô hình ARMA (Autoregressive moving average) để dự đoán thànhphan thời gian ngẫu nhiên ở một bước kế tiếp, phân tích hồi quy trong quá trình Gauss
(GPR: Gaussian process regression) dé dự đoán thành phan thời gian xu thế Cuối
cùng, kết quả dự đoán các thành phan riêng lẻ được tổng hợp lại dé đưa ra kết quả dựđoán cuối cùng cho phương pháp kết hợp GPR-ARMA Mô hình được đánh giá dựatrên 2 yếu tố: dự đoán xu hướng va giá cổ phiếu Kết quả dự đoán cho 81 ngày liêntiếp cho thấy mô hình dự đoán kết hợp GPR-ARMA cho kết quả dự báo giá cổ phiếutốt hơn so với mô hình được huấn luyện độc lập với mô hình ARMA và GPR theo
thứ tự RMSE là 6.015, 6.034, 8.176; độ chính xác xu hướng theo thứ tự 61.73%, 41.98%, 48.15%.
2.3 Kết luận
Sự phát triển của hệ thông máy tính tính toán và thuật toán đã mở đường cho thu thập,
phân tích và dự đoán dữ liệu dang chuỗi trong thời gian thực .
Thông qua việc nghiên cứu và tham khảo các công trình liên quan đến dự báo dữ liệu
cỗ phiếu, tôi nhận thấy còn có một vài hạn chế:
e Mặc dù được ứng dụng nhiều trong thực tế, tuy nhiên thuật toán ARIMA lại
hoạt động không tốt trên giá chứng khoáng do tính chất không dừng stationary) của giá cổ phiếu
(non-e Cac mô hình dự đoán giá da số được huấn luyện độc lập Trong khi ít bài báo
công bố thử nghiệm đánh giá một mô hình dự đoán nhiều cổ phiếu các nhau
¢ Dy đoán giá cô phiếu một cách chính xác là một thách thức lớn Do đó, xếp
hạng cô phiếu là một hướng nghiên cứu mới trong bài toán chứng khoán giúpđánh giá được số lượng các cổ phiếu nhiều hơn và tận dụng được mối tương
quan và xu hướng của các loại cổ phiếu Tuy nhiên, việc cài đặt thuật toán theo
Trang 19Yuli Feng còn phức tạp và yêu cầu các dữ liệu cé phiếu phải có độ dài giá lịch
sử cố định
10
Trang 20Chương3 LÝ THUYET
3.1 Cơ sở lý thuyết
3.1.1 Long Short-Term Memory
Trong học sâu, khi nhắc đến mô hình xử lý dữ liệu dạng chuỗi, đầu tiên chúng tathường nhắc đến mô hình cơ bản RNN RNN là một mạng nơ-ron hồi quy được thiết
kế cho việc xử lý các loại đữ liệu có tính tuần tự, tức là các giá trị trong quá khứ ởthời gian t-1 có thể dự đoán được giá trị tại thời điểm t Khả năng kết nối các thôngtin phía trước bằng phương pháp lan truyền ngược liên hồi dé dự đoán giá trị hiện tạicủa mô hình RNN khiến mô hình này được áp dụng rộng rãi trong các bài toán sửdụng dữ liệu dang chuỗi tuần tự từ dự đoán từ tiếp theo trong câu, dự đoán hành độngtiếp theo trong video, Tuy nhiên, nhược điểm của mô hình là chỉ học được cácthông tin gần do hiện tượng vanishing gradient LSTM ra đời để khắc phục nhượcđiểm của RNN
LSTM được thiết kế bởi Hochreiter & Schmidhuber (1997)[7] Cấu trúc của một
mang LSTM về co bản giống với RNN Ý tưởng cốt lõi của LSTM đó là trạng thái tếbao (cell state) Trạng thái tế bào là một dạng giống như băng truyền Nó chạy xuyến
suốt tất cả các mắt xích (các nút mạng) và chỉ tương tác tuyến tính đôi chút Vì vậy
mà các thông tin có thé dé dàng truyền đi thông suốt mà không sợ thay bị thay đổi.LSTM có khả năng bỏ đi hoặc thêm vào các thông tin cần thiết cho trạng thái tế bảo,
chúng được điều chỉnh can thận bởi các nhóm được gọi là công gate Một LSTM gồm
3 cổng: forget gate fi, input gate i: và ouput gate o Tại mỗi bước thời gian t, các cổng
đều lay đầu vào là hạ là output của tế bào trước đó hoặc ở bước thời gian t-1, va x: là
một phần tử của chuỗi đầu vào Dữ liệu được xử lý tuyến tính theo quy trình như sau:đầu tiên, forget gate sẽ quyết định xem thông tin nào cần bỏ đi của trạng thái tế bào
Cut Bước tiếp theo sẽ quyết định thông tin mới sẽ được lưu vào trạng thái tế bao,input gate quyết định giá trị nào ta sẽ cập nhật Cuối cùng output gate sẽ xác định
những thông tin nào của trạng thái tế bào được xuất ra lam output
11
Trang 213.1.2 Sequence to sequence
Được giới thiệu chính thức vào năm 2014 boi nhóm nghiên cứu của Google [8] Seq2seq là một mô hình học sâu với mục đích tạo ra một output sequence từ một
input sequence mà độ dài của hai sequences này có thể khác nhau Seq2seq gồm hai
phần chính là Encoder va Decoder Encoder có chức năng đọc chuỗi đầu vào, chọnlọc và mã hoá chuỗi thông tin đầu vào thành một vector có độ đài cé định được gọi
là internal state vectors Output của lớp Encoder sẽ được giữ bên trong mô hình và
chuyển tiếp qua lớp Decoder Decoder nhận dau và là đầu ra của trang thái cuối cùngcủa Encoder Decoder có tác dụng chuyển vector thông tin đầu thành và dự báo chuỗi
ouput Tuy từng bài toán cụ thé mà Encoder và Decoder là các mô hình học sâu khác
nhau như LSTM, GRU, Bi-LSTM hoặc Encoder trong Image Captioning là CNN.
12
Trang 22Hình 3.2 Kiến trúc của mô hình Seq2Sed.
3.2 Gia thiết khoa học
3.2.1 Giá thiết thị trường hiệu qua
Thị trường hiệu quả là thị trường mà tại đó giá luôn phản ánh những thông tin sẵn
có (theo Fama- 1970) Malkiel (1992) lập luận rằng một thị trường vốn được cho làhiệu quả nếu nó phản ánh đầy đủ và chính xác tat cả các thông tin liên quan trong
việc xác định giá chứng khoán.
Giả thiết thị trường hiệu quả được xây dựng dựa trên giả định, các nhà đầu tư đưa ra
quyết định mua bán chứng khoán dựa trên việc xác định giá trị ước lượng bằng dựtính hợp lý Theo cách đó, giá chứng khoáng sẽ phản ánh tất cả và ngay lập tức đối
với mọi thông tin liên quan.
Dự tính hợp lý là dự tính được tính toán trên cơ sở sử dụng mọi thông tin sẵn có
trên thị trường.
3.2.2 Các giá thiết thị trường hiệu qua
e Gia thiết thị trường hiệu qua dạng yếu (weak-form efficiency)
o Giả định rằng giá chứng khoán đã phan ánh kịp thời toàn bộ thông tin
có thể có được từ dữ liệu giao dịch trong quá khứ: giá, khối lượng giaodịch và tỉ suất thu nhập
13
Trang 23o Dữ liệu giá trong quá khứ được công khai và nhà đầu tư có thé dé dang
tiếp cận
o Giả sử nếu dữ liệu quá khứ thé hiện xu hướng trong tương lai, ngay lập
tức các nhà đầu tư sẽ khai thác và sử dụng thông tin đó
e Gia thuyết thị trường hiệu quả dang trung bình (semi — strong form effiency)
o Giả định rằng tất cả thông tin liên quan tới công ty đã được công bố
rộng rãi và các thông tin quá khứ đều được phản ánh vào giá chứng
khoán.
o Phân tích cơ bản va phân tích kỹ thuật đều không mang lại tỷ lệ lợi tức
bất thường cho nhà đầu tư
¢ Gia thuyết thị trường hiệu quả dạng mạnh (strong form effiency):
o Tắt cả các thông tin liên quan đến chứng khoán, bao gồm cả thông tin
nội gián cũng được phản ánh vào giá chứng khoán.
o Không có bất kỳ phân tích nào có thé dem lại lợi tức vượt trội cho nhà
đầu tư
o Su dung chiến lược quản lý danh mục thụ động
3.3 Phương pháp nghiên cứu đã sử dụng.
3.3.1 Phương pháp phân tích và tong hợp
Đầu tiên, tôi tiến hành phân tích dữ liệu của các cổ phiếu nhằm đánh giá tong quan
độ biến động, xu hướng và mối tương quan giữa các cô phiếu với nhau Day là một
bước quan trong dé xác định liệu các cô phiếu có sự tương quan dé củng có cho giả
thiết của dé tài là giá cô phiếu có thé được dự đoán bằng mô hình học sâu và một
mô hình có thê dự đoán cho nhiều cổ phiếu
3.3.2 Phương pháp thực nghiệm
Nhằm đánh giá hiệu suất của các mô hình trong thực hiện nghiên cứu của đề tài,tôi tiễn hành so sánh các thông số của các kết qua du đoán của mô hình
14
Trang 24Để đánh giá cho giá cổ phiếu được dự đoán, tôi sử dụng chỉ số MSE, MDA [9],
MFE [10] Cụ thể các thông số được tính toán như sau:
Với Y = {Vi,V;,ya, Vu} là các giá trị thực tế, Y' = {y',y'z,'a, , y'„} là các
giá trị dự đoán.
Trong khoá luận này, MSE được sử dụng để đánh giá chênh lêch bình phương lỗi
của giá trị thực và giá trị dự báo.
N
MSE =~ » i-y’i)?=H : (vi-y't)
trong đó, N là số giá trị được dự đoán
MDA dùng đề đánh giá kết quả của mô hình có dự đoán tốt xu hướng (lên và xuống)của cổ phiếu có tốt hay không Với
N
MDA= =», 1 Cif sign(yi — Yi-1) == sign(yi — y'i-1)
i
trong đó, sign = 1 khi (y¡ — y;-1) cùng dau với (y'; — y'i-1) ;
sign = 0 khi (y; — y;-1)trai đấu với (y'; — y';_¡)Là một hàm ký gửi giá trị của thư
viện Numpy.
MFE thông số này kiểm tra xem liệu mô hình có đang dự đoán giá trị theo một xuhướng nhất định hay là mô hình có đang hiện diện bias hay không Với MFE càng
gần 0 thì mô hình càng thấp bias, với MFE > 0, mô hình có xu hướng dự đoán dữ
liệu đang tăng, hoặc MEE < 0, mô hình đang có xu hướng dự đoán dữ liệu giảm Với:
Trang 25RPS của cô phiếu k tại thời gian T được tính bằng công thức:
Trang 26Chương 4 THỰC NGHIEM, KET QUA, ĐÁNH GIÁ
cung cấp hoàn toàn miễn phí cho mục đích nghiên cứu
STT | Ký hiệu Tên Nhóm ngành Ngành công nghiệp
1 ABBV |AbbVie Health Care Pharmaceuticals
2 ACN Accenture Information IT Consulting &
Technology Other Services
3 AEP American Utilities Electric Utilities
Electric Power
4 AIZ Assurant Financials Multi-line Insurance
5 ALLE | Allegion Industrials Building Products
6 AMAT | Applied Information Semiconductor
Materials Technology Equipment
7 AMP Ameriprise Financials Asset Management &
Financial Custody Banks
8 AMZN _ | Amazon Consumer Internet & Direct
Discretionary Marketing Retail
17
Trang 279 AVB AvalonBay Real Estate Residential REITs
Communities
10 | AVY Avery Dennison | Materials Paper Packaging
11 AXP American Financials Consumer Finance
Express
12 | BDX Becton Health Care Health Care
Dickinson Equipment
13 | BF-B Brown-Forman | Consumer Staples Distillers & Vintners
14 | BMY Bristol Myers Health Care Health Care
Squibb Distributors
15 | BR Broadridge Information Data Processing &
Financial Technology Outsourced Services
Solutions
16 |CARR_ | Carrier Global Industrials Building Products
17 CDW CDW Information Technology
Technology Distributors
18 | CE Celanese Materials Specialty Chemicals
19 |CHTR | Charter Communication Cable & Satellite
Communications | Services
20 | CNC Centene Health Care Managed Health Care
21 CNP CenterPoint Utilities Multi-Utilities
Trang 2824 |CZR Caesars Consumer Casinos & Gaming
28 |DXC DXC Information IT Consulting &
Technology Technology Other Services
29 META | Meta Platforms | Communication Interactive Media &
Services Services
30 FTV Fortive Industrials Industrial Machinery
31 GOOG | Alphabet (Class | Communication Interactive Media &
35 JPM JPMorgan Chase | Financials Diversified Banks
36 | KR Kroger Consumer Staples Food Retail
37 | OGN Organon & Co | Health Care Pharmaceuticals
38 |PG Procter & Consumer Staples Personal Products
Gamble
39 PPL PPL Utilities Electric Utilities
19
Trang 2940 | PRU Prudential Financials Life & Health
Financial Insurance
41 PYPL PayPal Information Data Processing &
Technology Outsourced Services
42 |RE Everest Re Financials Reinsurance
43 ROL Rollins Industrials Environmental &
47 |V Visa Information Data Processing &
Technology Outsourced Services
48 | VRSK | Verisk Analytics | Industrials Research &
Consulting Services
49 | WRK WestRock Materials Paper Packaging
50 | XOM ExxonMobil Energy Integrated Oil & Gas
Bảng 4.1 Danh sách 50 cô phiếu S&P 500
4.1.2 Phan tích dữ liệu.
Sau khi thu thập được 50 tệp dạng csv chứa thông tin của 50 cổ phiếu Để biết đượctổng quan phân phối, xu hướng của dữ liệu, tôi tiến hành phân tích dữ liệu Việc phântích dữ liệu sẽ được thực hiện trên thuộc tính giá đóng cửa có điều chỉnh — Adj Close
theo trình tự các bước như sau:
¢ Kiểm tra dữ liệu bị thiếu
e anh giá độ biến động của các cô phiếu và xu hướng
20
Trang 304.1.2.1 Kiểm tra dữ liệu bị thiếu
Dữ liệu được thu thập về từ Yahoo Finance chứa thông tin những ngày giao dich vàkhông chứa dữ liệu thiếu.Bên cạnh đó, do đặc thù thời gian giao dịch của thị trườngchứng khoán Mỹ là 5 ngày một tuần từ thứ Hai đến thứ Sáu, các sàn giao dịch khônggiao dịch trong hai ngày cuối tuần và các ngày lễ nghỉ như: Tết dương lịch- ngày 01tháng 01 hàng năm, Martin Luther King Jr ngày thứ Hai của tuần thứ 3 của thángMột hàng năm Cho nên dữ liệu được thu thập về sẽ không có các ngày không giao
dịch và các ngày lễ nghỉ.
4.1.2.2 Đánh giá biến động và tương quan về xu hướng của các cổ
phiếu
Đầu tiên, tôi đánh giá độ biến động về giá của các cổ phiếu trên toàn bộ thời gian
có trong các bộ dữ liệu được thu thập về bằng thông số độ lệch chuẩn Công thức
- JÈ@- 8?
ran
Từ Bang 4.2, ta có thé thay cd phiếu GOOG không ổn định nhất với độ lêch chuẩn
độ lệch chuẩn như sau:
cao nhất là 671.671 trong khi đó, những cô phiếu thuộc hang ít biến động thì độlệch chuẩn chỉ dao động trong khoảng từ 2.8 trở lên
21
Trang 311| HIG 5,761 36 DG 62,125
2| DXC 6,894 31 AVB 63,628 3| BMY 8,581 38 AMP 68,105
4) BF-B 9,250 39 Vv 70,109
5| COP 20,889 40 BDX 70,368
6| AEP 21,864 41 PYPL 74,671 7| XOM 23,563 42 RE 75,664 8| CNC 23,977 43 URI 79,813
9| PRU 24,435 44 ACN 83,741
20) AMAT | 25,692 45 CTAS 88,514 21) ALLE | 27,200 46 | META | 89,231
22) CZR 29,511 47 UNH 102,639
23 | ABBV | 29,904 48 DPZ 139,754
24) GPC 32,299 49 CHTR | 204,368 25) ROST | 32,979 50 | GOOG | 671,671
Bang 4.2 Độ lệch chuẩn giá đóng cửa có điều chỉnh của 50 cô phiếu từ lúc xuất
hiện giá đóng cửa có điêu chỉnh — 03/06/2022.
22
Trang 32Nhằm trực quan hoá xu hướng của dữ liệu, tôi sẽ tiến hành xuất ra biểu đồ chuyển
động của giá các cô phiếu Do giá các cổ phiếu năm ở các khoảng giá khác nhau, décho việc so sánh xu hướng biến động, tôi tiễn hành scale dữ liệu bằng MinMaxScaler
về khoảng [0,1] do khả năng bảo toàn được phân phối của dữ liệu ban đầu So sánhhai xu hướng của HST và GOOG trong Hình 4.2 theo thời gian, trong khi cô phiếu
của HST chủ yếu là dao động xung quanh mức trung bình, cô phiếu GOOG thẻ hiện
rõ xu hướng tăng theo thời gian.
Hình 4.1 Xu hướng dịch chuyền giá của cổ phiêu HST và GOOG cho đến ngày
03/06/2022.
Khi kiểm tra xu hướng của nhóm cổ phiếu có độ lệch chuẩn cao (Hình 4.3), tôi nhận
thấy những cổ phiếu đó có xu hướng dai han là tăng dần, nhưng xu hướng ngắn hạn
là dao động quanh mức trung bình ngắn han, giả sử trong khoảng thời gian từ nửacuối năm 2021
23