1. Trang chủ
  2. » Luận Văn - Báo Cáo

Khóa luận tốt nghiệp Khoa học dữ liệu: Dự đoán giá cổ phiếu sử dụng học sâu và phân tích dự báo

65 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 65
Dung lượng 17,03 MB

Nội dung

Tuy nhiên, đa số nghiên cứu hiện tại chỉ tập trung vàođánh giá những mô hình dự đoán cho một loại hoặc một số cổ phiếu nhất định mà bỏqua sự tương quan về xu hướng của các cô phiếu với n

Trang 1

ĐẠI HỌC QUOC GIA TP HO CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN KHOA KHOA HỌC VÀ KỸ THUẬT THÔNG TIN

PHAN THỊ KIM CHI

KHÓA LUẬN TÓT NGHIỆP

DỰ DOAN GIA CO PHIEU SỬ DỤNG HỌC SÂU VA PHAN TÍCH DỰ

Trang 2

ĐẠI HỌC QUOC GIA TP HO CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN KHOA KHOA HỌC VÀ KỸ THUẬT THÔNG TIN

PHAN THỊ KIM CHI - 18520525

KHÓA LUẬN TÓT NGHIỆP

DU DOAN GIÁ CO PHIẾU SỬ DỤNG HỌC SAU VA PHAN TÍCH DỰ

BÁOSTOCK PRICE FORECAST USING DEEP LEARNING AND

PREDICTIVE ANALYSIS

CỬ NHÂN NGÀNH KHOA HỌC DỮ LIỆU

GIẢNG VIÊN HƯỚNG DAN

TS DO TRỌNG HỢP THS TA THU THUY

TP HO CHÍ MINH, 2022

Trang 3

THÔNG TIN HỘI ĐÒNG CHÁM KHÓA LUẬN TÓT NGHIỆP

Hội đồng chấm khóa luận tốt nghiệp, thành lập theo Quyết định số

bebe beet been eeseeeeees ngày cua Hiệu trưởng Trường Dai học Công nghệ Thông tin.

Trang 4

luôn truyền đạt động lực giúp em có đủ bản lĩnh dé hoàn thành khoá luận này.

Em cũng gửi lời cảm ơn sâu sắc đến quý thay cô của Trường Đại học Công nghệThông tin nói chung và quý thây cô của Khoa Khoa học và Kỹ thuật Thông tin nóiriêng đã tận tâm truyén đạt cho chúng em những kiến thức hữu ích cũng như các kỹ

năng trong suốt quá trình học tập tại trường Và em tin đó là những kỹ năng nên tảng

giúp chúng em vững bước vào doi.

Lời cuối cùng em xin gửi lời cảm ơn đến gia đình, bạn bè đã ủng hộ em trong suốtthời gian thực hiện khoá luận đây khó khăn Đặc biệt em xin cảm ơn chị Nguyễn Thị

Phương Trâm, người chị đã phổ biến những kiến thức cơ bản về thị trường chứng

khoán.

Tác giả

Phan Thị Kim Chi

Trang 5

MỤC LỤC

Chương I MỞ ĐÀMU e-cce<cSCcSeeeEEE+eetrEErteetrtrkerrtrrresrrsrreerrre 3

Chương 2 TONG QUAN eeess55<< HH 7

2.1 _ Tình hình nghiên cứu trên thế giới -csecccsssecrvsse 7

2.2 _ Tình hình nghiên cứu trong nưỚC << ssesesess=s=seseseses 8

3.4 Gia thiết khoa học

3.4.1 Giả thiết thị trường hiệu qua

3.4.2 Các giả thiết thị trường hiệu quả - ¿ 222255ccce+cccvvvecrcrrrrrr 3

3.5 Phương pháp nghiên cứu đã sử dụng . -<-s-«-«<s 14

3.5.1 Phương pháp phân tích và tổng hợp -. cc+2cc+sc+czxscee 4

3.5.2 Phương pháp thực nghiỆm + + + SEvxvEeketetrrrererererree 4

Chương 4 THUC NGHIEM, KET QUA, DANH GIÁ -«- 17

AL Thực nghiệm -. -csceseseesesttstsrrsrsersrserarssrsee 17 4.1.1 Thu thập dữ liệu

4.1.2 Phân tích dữ liệu.

4.1.3 Tiền xử lý dữ liệu

4.1.4 Môi trường thực nghiệm

Trang 6

4.1.5 Các bước cai đặt mô hình dự đoán giá cổ phiếu - 294.1.6 Xếp hạng cổ phiếu 2222-2222+2222212122221112227112212112 2.1 cccer 32

4.2 _ Kết quả thử nghiệm và đánh giá

4.2.1 Kết quả dự đoán giá chứng khoán theo ngày (LSTM) 34

4.2.2 Kết quả dự đoán giá chứng khoán khoảng thời gian dài (SeqtoSeq) 454.2.3 Kết quả xếp hạng 2222222222 2222111 2212112221112 484.3 Phân tích kết quả -esccc+vseerrvxeesrerrreserrrreserrr 51

4.3.1 Phân tích kết qua dựa trên đặc điểm bộ dữ liệu - 5143.2 Phân tích kết qua dựa trên kết quả thực nghi@m ccc.cccecsesseeessseeeee 51

Chương 5 KET LUAN csssssssssssssssssssssssssssesessssssssssvesesssvesssssnscssssnsesessavecessanecssssseees 53

Chương 6 HUONG PHAT TRIEN

TÀI LIEU THAM KHAO vsssssssssssssssssssssssssssssssssuesssssusscssssussesssussssssuesssssnscesssanessssass 55

Trang 7

DANH MỤC HÌNH

Hình 3.1.Cấu trúc của một cell trong kiến trúc LSTM s 12

Hình 3.2 Kiến trúc của mô hình Seq2Sed -.s.ereeeeeeeeeeeeeeeee LBHình 4.1 Xu hướng dịch chuyển giá của cô phiếu HST va GOOG cho đến ngày

03/06/2022 - 23

Hình 4.2 Xu hướng của 3 cổ phiếu có độ lệch chuẩn cao nhắt 2 3Hình 4.3 Xu hướng của 3 cô phiếu có độ lệch chuẩn thấp nhất ( hình trên: cổ phiếu

HST và CNP, hình dưới: cổ phiếu của OGN .24

Hình 4.4 Xu hướng biến động của cổ phiếu HST ( trên) và GOOG (dưới) và đường

trung bình 300 25

Hình 4.5 Ví dụ bảng xếp hạng các cô phiếu sss-esseesreeeseee 3B

Hình 4.6 Kết quả dự đoán của mô hình LSTM-GOOG Loại 1 36Hình 4.7 Xu hướng giá thực tế của GOOG va HST trong khoảng thời gian test và

sau đó 20 ngày giao dịch

Hình 4.8 Kết quả dự đoán cho cô phiéu GOOG của mô hình LSTM-HST Loại 1.37

Hình 4.9 Kết qua dự đoán cho cổ phiếu GPC của mô hình LSTM-HST Loại I 38Hình 4.10 Biểu diễn kết quả của cô phiếu CHTR của mô hình LSTM- HST Loại 2

(trên) trên Loại 3(dưới) 39

Hình 4.11 Kết qua du báo cổ phiếu CHTR của mô hình LSTM-HST Loại 1, chuẩnhoá dữ liệu bằng zscore ( trên) và robust (đưới) -s eeeceeeeererres 40

Hình 4.12 Kết quả dự báo cô phiếu CHTR của mô hình LSTM-GOOG Loại 1, 41

Hình 4.13 Kết qua dự báo cổ phiếu CHTR của mô hình LSTM-HST Loại 2 (trên)

Hình 4.14 Kết quả dự báo cô phiếu CHTR của mô hình LSTM- HST Loại 2 (trên)

và Loại 3 (dưới), chuẩn hoá dữ liệu bằng Robust ss-s 43Hình 4.15 Kết qua dự báo cổ phiếu CHTR của mô hình LSTM-GOOG Loại 2

(trên) và 3 (dưới), chuẩn hoá dữ liệu bằng Z-score .44

Trang 8

Hình 4.16 Kết quả du báo cổ phiếu CHTR của mô hình LSTM-GOOG Loại 2

45

Hình 4.17 Kết quả dự đoán mô hình dự đoán dài hạn cho cổ phiêu WRK được huấn

we 47

Hình 4.18 Kết quả dự đoán mô hình dự đoán dài hạn cho cổ phiêu WRK của mô

hình Seq2Seq-HST Loại 2, (looking-back,predict) = (7,7) 47,

(trên) và 3 (dưới), chuẩn hoá dữ liệu bằng Robust

luyện với dữ liệu HST Loại 1, (looking-back,predict) = (7,7)

Trang 9

Bảng 4.1 Danh sách 50 cổ phiếu S&P 500

DANH MỤC BẢNG

Bảng 4.2 Độ lệch chuẩn giá đóng cửa có điều chỉnh của 50 cổ phiếu từ lúc xuất

hiện giá đóng cửa có điều chỉnh — 03/06/2022 -eeeeseeeereeeeore 22Bảng 4.3 Mô tả các thuộc tính có trong bộ dữ liệu của một loại cổ phiếu trong tập

di liệu FinSD_50S& 28

Bảng 4.4 Độ biến động của cổ phiếu trong khoảng thời gian của tập test 31Bảng 4.5 Các thuộc tính trong bảng xếp hạng cé phiếu 33

Bảng 4.6 Top 5 kết qua MSE thấp nhất và cao nhất của LSTM- HST Loại I, 34

Bảng 4.7 Top 5 kết quả MSE thấp nhất và cao nhất của LSTM- Loại 1,

ua MSE thấp nhất và cao nhất của LSTM- GOOG Loại 1, 35

ua MSE thấp nhất và cao nhất của LSTM-GOOG Loại I, 36

ang cổ phiếu theo mô hin

hạng cổ phiếu theo mô hìn|

hang cô phiêu theo mô hinl

ang cô phiêu theo mô hin!

ang cô phiếu theo mô hin

hạng cổ phiếu theo mô hìn|

h LSTM-HST đa biến Loại 2

SeqtoSeq-HST 50

h SeqtoSeq-HST 51

Trang 10

DANH MỤC TU VIET TAT

STT Từ viết tắt Ý nghĩa

1 LSTM Long-Short Term Memory

2 SeqtoSeq Sequence to Sequence

3 MSE Mean Squared Error

4 MDA Mean Directional Accuracy

5 MFE Mean Forecast Error/ Forecast Bias

6 RPS Ranked Probability Score

7 LSTM-HST/GOOG | Mô hình LSTM được huấn luyện với bộ dữ liệu

cô phiêu HST/GOOG

§ Seq2Seq- M6 hinh Seq2Seq duge huấn luyện với bộ dữ

HST/GOOG liệu cô phiêu HST/GOOG

Trang 11

TOM TAT KHÓA LUẬN

Dự báo dữ liệu thời gian thực nói chung và giá cổ phiếu nói riêng hiện tại đang là mộtthách thức và đang có nhiều nghiên cứu về chủ đề này Do đặc thù của đữ liệu cổphiếu biến động liên tục nên việc tìm ra một mô hình phủ hợp và dữ liệu phù hợp vẫnđang gặp rất nhiều khó khăn Tuy nhiên, đa số nghiên cứu hiện tại chỉ tập trung vàođánh giá những mô hình dự đoán cho một loại hoặc một số cổ phiếu nhất định mà bỏqua sự tương quan về xu hướng của các cô phiếu với nhau Bên cạnh đó, dé việc dựđoán cô phiếu gần hơn với áp dụng thực tế, chúng ta nên có một mô hình dự xếp hạng

cỗ phiếu dựa trên kết quả dự báo Trong khoá luận này, tôi đề xuất huấn luyện môhình học sâu và áp dụng dự đoán nhiều cô phiếu khác nhau Đồng thời, từ kết quả dựbáo, tiễn hành xếp hạng cô phiếu nhằm đánh giá tính khả thi của mô hình trước khi

áp dụng vào thực tế Kết quả tốt nhất là mô hình LSTM với huấn luyện đầu vào là giá

cổ phiếu HST với kết quả xếp hạng RPS = 0,024190476 cho dự đoán giá và xếp hạng

trong thời gian theo ngày.

Trang 12

Chương1 MỞ ĐẦU

Lý do chọn đề tài

Thị trường chứng khoán nói chung luôn biến động không ngừng do tác động kinh tế

và chính trị Điều này chúng ta có thể thấy ở thị trường chứng khoán Mỹ, mặc dù thịtrường chứng khoán Mỹ là một trong những thị trường tôn tại lâu đời nhất Cuộckhủng hoảng tài chính ở Mỹ năm 2008 kéo theo sự sụt giảm của các chỉ số chứngkhoán tiêu biểu như S&P 500, hay ảnh hưởng của đại dịch Covid khiến cho thị trườngchứng khoán Mỹ bị có sự biến đổi mạnh mẽ từ đầu năm 2020 Chính sách phục hồikinh tế sau đó khiến cho thị trường chứng khoán trở nên khả quan hơn Tuy nhiên,đầu năm 2022 thị trường chứng khoán Mỹ lại ghi nhận sự sụt giảm chỉ số chứng

khoán của các công ty lớn như (GOOG, META, ) Sự biến động liên tục của thị

trường chứng khoán gây ra tâm lý lo sợ cho các nhà đầu tư Đặc biệt đối với các nhà

đầu tư ngắn hạn khi thị trường Mỹ được dự báo sẽ tiếp tục ở tình trạng hiện tại Vậy

làm sao giúp các nhà đầu tư ngắn hạn dự đoán trước được xu hướng ngắn hạn của cácchỉ số chứng khoán và tối ưu đanh mục đầu tư? Hiện nay, các nghiên cứu hỗ trợ dự

báo giá cổ phiếu sử dụng học máy và học sâu đang được giới học thuật quan tâm do

tính ứng dụng của chúng trong dự báo dữ liệu dạng chuỗi thời gian Tuy nhiên, việc

dự báo thường dừng lại ở việc áp dụng mô hình dự báo và đánh giá kết quả Phương

hap phân tích kỹ thuật là một trong hai phương pháp phân tích chứng khoán phổ

biến trong giới đầu tư Phương pháp này hỗ trợ phân tích xu hướng của giá cổ phiếudựa trên dữ liệu lịch sử của cổ phiếu đó Điều này cho ta thay nét tương đồng giữa dựbáo giá cổ phiếu sử dụng các phương pháp học sâu và phương pháp phân tích kỹ

thuật Tuy nhiên, các nghiên cứu áp dụng phương pháp phân tích kỹ thuật với các mô

hình học sâu cho dự đoán giá cổ phiếu còn khá giới hạn về vấn đề xử lý dữ liệu và

phạm vi áp dụng Điều đó giải thích cho việc tôi quyết định chọn đề tài dự đoán giá

cổ phiếu sử dụng học sâu và phân tích dự báo Mục tiêu chính của tôi trong khoá luậnnày là thu thập va xử lý bộ dữ liệu cho việc huấn luyện và đánh giá các phương pháp

tiền xử lý dữ liệu và thử nghiệm mô hình học sâu cho dự đoán giá cỗ phiếu Từ dữ

liệu dự báo, tiến hành xếp hang co phiéu theo lợi nhuận

Trang 13

Mục tiêu khoá luân

Trong khoá luận này, tôi tập trung nghiên cứu các phương pháp tiền xử lý đữ liệutruyền thống và kết hợp với phương pháp phân tích kỹ thuật, mô hình dự báo sử dụngphương pháp học sâu, và xếp hạng cô phiếu dựa theo lợi nhuận

e Thứ nhất, thu thập dữ liệu của các cổ phiếu theo ngày, dữ liệu được đặt tên

theo mã cô phiếu trên thị trường chứng khoán Thực hiện phương pháp EDAtrên dữ liệu dé nhận xét tong quan về dữ liệu Bộ dữ liệu có sẵn miễn phí cho

mục đích nghiên cứu.

e _ Thứ hai, tiến hành cai đặt, thử nghiệm các mô hình dự báo bằng việc sử dụng

phương pháp học sâu sử dụng mô hình Vanilla LSTM và Sequence to

Sequence trên bộ đữ liệu với các biến đầu vào khác nhau và phương pháp càiđặt mô hình khác nhau, đánh giá và phân tích kết quả lựa chọn mô hình phihợp cho bộ dữ liệu và nhu cầu sử dụng Thử nghiệm 3 nhóm dữ liệu đầu vào

thời gian theo ngày:

- Dữ liệu đầu vào chỉ có giá đóng cửa có điều chỉnh

- Dir liệu đầu vào có thêm các thuộc tính giá mở cửa, giá đóng cửa, giá đóng

cửa cao nhát, giá đóng cửa thấp nhat

- Dữ liệu đầu vào gồm 9 chỉ số kỹ thuật của cổ phiếu, ngày nghỉ lễ của Mỹ

e Thứ ba, xếp hạng cổ phiếu đựa trên lợi nhuận của cỗ phiếu

© _ Thứ tư, cung cấp một số trường hợp điển hình của bài toán va đề xuất trong

tương lai cho bài toán dự báo giá cô phiếu và xếp hạng cô phiếu cho việc tối

ưu hoá danh mục đầu tư

Đối tượng và phạm vi nghiên cứu

© Đối tượng, đối với dữ liệu để huấn luyện mô hình, tôi sử dụng dữ liệu lịch sử

của cổ phiếu Host Hostels & Resorts Inc (HST) và Alphabet Inc (GOOG),, dé

đánh giá kha năng dự báo xu hướng của mô hình được huấn luyện trên 2 bộ

dữ liệu riêng biệt trên các tài sản bao gồm 50 cổ phiếu thuộc nhóm cổ phiếu

S&P 500.

Trang 14

Phạm vi nghiên cứu, dé tài chủ yếu tập trung vào tìm hiéu, tiền xử lý bộ dữliệu, cài đặt mô hình dự báo giá, xếp hạng cổ phiếu và đánh giá kết quả dựbáo:

- Nghiên cứu các phương pháp phân tích cổ phiếu và phương pháp tiền xử

lý dữ liệu.

- Cài đặt mô hình và tối ưu mô hình Tiến hành đánh giá trên nhiều bộ dữ

liệu đã được đề cập ở mục đối tượng

- _ Từ kết quả dự báo, tiễn hành xếp hạng cô phiếu và đánh giá kết quả

Kết quả nghiên cứu

Nghiên cứu của tôi đã đạt được các kết quả sau:

Thu thập và xử lý thành công tập dữ liệu FinSD_50S&P.

Nghiên cứu độ tương quan giữa các có phiếu và phân tích cơ bản xu hướngbiến động của các cô phiếu

Thực nghiệm mô hình cho dự đoán dữ liệu chuỗi thời gian đơn biến và đa biến

trên thư viện BigDL.

Đánh giá được các trường hợp điển hình về tác động của dữ liệu lên kết quả

huấn luyện mô hình và khả năng học tập của mô hình học sâu cho việc dự đoán

dữ liệu dạng chuỗi thời gian và xếp hạng cổ phiếu

Cấu trúc khoá luận

Khoá luận gồm 6 chương bao gồm các nội dung chính sau:

¢ Chương 1: Mở đầu

Giới thiệu về thị trường chứng khoán và bai toán dự báo giá cổ phiếu Thực trạng và

tam quan trong của các nghiên cứu liên quan đến thị giá cổ phiếu, tính ứng dụng của

Trang 15

Chương này mô tả những lý thuyết, giả thuyết và phương pháp nghiên cứu trong đề

tài, phương pháp đánh giá.

® Chuong 4: Thực nghiệm, kết quả, đánh giá

Trong chương này, tôi trình bày phương pháp học sâu mà tôi đã nghiên cứu và áp

dụng, mô tả về bộ đữ liệu chứng khoán được sử dụng Phân tích cơ bản về đặc điểm

của bộ dữ liệu và tiền xử lý dữ liệu, đánh giá và phân tích các trường hợp giải thích

cho kết quả đạt được

® Chương 5: Kết luận

Tổng kết lại các kết quả đạt được

® Chương 6: Hướng phát triển

Đề xuất các hướng phát triển trong tương lai để cải thiện hiệu suất mô hình và tính

ứng dụng của đề tài

Trang 16

Chương2 TONG QUAN

2.1 Tinh hình nghiên cứu trên thé giới

Sự phát triển của công nghệ 4.0 trong những năm gần đây làm tiền đề cho khả năng

số hoá các lĩnh vực trong cuộc sống Nhờ đó, dữ liệu được sinh ra nhiều hơn trong

quá trình vận hành các hoạt động sản xuất, kinh doanh Đi kèm với đó là khả năngsinh dé liệu trong thời gian thực Day là nguồn dữ liệu quý giá cần được tận dụng dotính khả thi khi áp dụng kết quả phân tích hay dự báo vào trong thực tế Ví dụ như dự

đoán tình trạng giao thông trên một vài đoạn đường mà Google Maps đang áp dụng.

Việc nghiên cứu các mô hình dé tăng độ chính xác cho các mô hình là một điều cầnthiết Trong suốt lịch sử phát triển, nhiều thuật toán được thiết kế và thực nghiệmtrong giới học thuật và cho thấy được tính ứng dụng thực tế của các thuật toán đó

Mô hình ARIMA [1] là một dạng mô hình biểu diễn phương trình hồi quy tuyến tính

đa biến của biến đầu vào Mô hình này được ứng dụng thành mô hình tiêu chuẩn được

dung phổ biến trong dự đoán dữ liệu chuỗi thời gian kinh tế và tài chính và là môhình baseline dé so sánh các thuật toán mới Tuy nhiên, nhược điểm của ARIMA là

hoạt động tốt trên dữ liệu có tính dừng (stationary data) [2]

Sự xuất hiện của RNN mở ra một hướng phát triển kiến trúc mô hình mới do khả

năng dự đoán dựa trên các xu hướng trong các bước dữ liệu trước đó và hoạt động tốttrên dữ liệu không tuyến tinh (non-linear) hoặc không có tính dừng (non-stationary)

YongJiong Zhu và các cộng sự [3] thử nghiệm mô hình RNN trên cổ phiếu của Applevới bước thời gian lịch sử là 5 và 10 cho kết quả mô hình có MAE cảng cao khi bước

thời gian càng tăng (MAEs = 5.903805 và MAEio=7.835381).

MK Ho và các cộng sự [4] thử nghiệm so sánh hiệu suất giữa mô hình ARIMA vàLSTM trên bộ dữ liệu giá đóng cửa của Bursa Malaysia với tập dữ liệu huấn luyện từ

02/01/2020- 28/09/2020 và tập kiểm thử từ 29/09/2020 -19/01/2021 Đây chính làkhoảng thời gian số ca mắc ở Malaysia tăng mạnh, đồng thời cũng khiến cho giá cổ

phiếu bị biến động trong suốt khoảng thời gian này Kết quả đánh giá thử nghiệmtheo MAPE và RMSE cho thấy mô hình LSTM không những dự đoán được chính

Trang 17

xác 90% giá trị dự báo mà còn dự đoán chính xác cả xu hướng di chuyền của côphiếu.

Md Arif Istiake Sunny và các cộng sự [4] so sánh hiệu suất của hai mô hình học sâu

LSTM và Bi-LSTM trên dữ liệu chứng khoán của Google từ 19/08/2004 —

04/10/2019 Dữ liệu được scale lại sử dụng MinMax trước khi đưa vào huấn luyện.Các cách so sánh bao gồm số epochs được huấn luyện, số lớp an, số lớp dense Kếtquả cho thay huấn luyện mô hình với số lượng epochs càng tăng thì mô hình dự đoántốt hơn và kết quả huấn luyện trên mô hình Bi-LSTM đạt độ chính xác cao hơn so

với mô hình LSTM.

Bên cạnh sự phát triển của các nghiên cứu dự báo giá cổ phiếu Fuli Feng và các cộng

sự [5] thiết kế mô hình Relational Stock Ranking (RSR) bằng việc điều chỉnh môhình LSTM phủ hợp dé xếp hạng cổ phiếu và tận dụng quan hệ tương quan của các

cổ phiếu theo thời gian Dữ liệu được thu thập từ hai san giao dịch NASDAQ- 1,026

cổ phiếu va NYSE-1,737 cô phiếu scale lại độc lập, dữ liệu quan hệ giữa các cô phiếuWiki Company-Based Relations Điểm mới của mô hình là thêm thành phần

Temporal Graph Convolution vào mô hình mạng thần kinh Kết quả cho thấy việc

huấn luyện mô hình tận dụng mối tương quan giữa các cô phiếu giúp mô hình dự

đoán có kết quả giá cô phiếu tốt hơn, đặc biệt là dữ liệu mang tính ổn định (stabledata) Với kết quả xếp hạng, nhóm tác giả tiến hành đánh giá dựa trên lợi nhuận đầu

tư theo nhóm top 1, 5, 10 các cổ phiếu được dự đoán có lợi nhuận cao, lợi nhuận tích

luỹ của 10 ngày liên tiếp của ba nhóm cổ phiếu dau tư theo thứ tự top 1 > top 5 > top

10 Điều này cho ta thấy, thuật toán xếp hạng của nhóm tác giả có khả năng dự đoánchính xác thứ hạng tương đối của các cổ phiếu liên quan đến tỉ lệ lợi nhuận trongtương lai.

2.2 Tình hình nghiên cứu trong nước

So với thị trường Mỹ, thị trường chứng khoán Việt Nam đang còn là thị trường non

trẻ, do đó sẽ có nhiều yếu tô ảnh hưởng đến giá chứng khoán Tuy nhiên, các nghiêncứu về mô hình dự đoán cô phiếu ở Việt Nam van còn khiêm tốn

Trang 18

Thang Huynh Quyet và các cộng sự [6] đã thực hiện nghiên cứu dự đoán xu thé chỉ

số chứng khoán Việt Nam VN-Index sử dụng phân tích hồi quy Gaussian Process và

mô hình tự hồi quy trung bình cộng ARMA Nhóm tác giả thực hiện phân tách dữliệu đầu vào thành các chuỗi thời gian thành phần bao gồm: xu thế, thời vụ và ngẫunhiên Sử dụng mô hình ARMA (Autoregressive moving average) để dự đoán thànhphan thời gian ngẫu nhiên ở một bước kế tiếp, phân tích hồi quy trong quá trình Gauss

(GPR: Gaussian process regression) dé dự đoán thành phan thời gian xu thế Cuối

cùng, kết quả dự đoán các thành phan riêng lẻ được tổng hợp lại dé đưa ra kết quả dựđoán cuối cùng cho phương pháp kết hợp GPR-ARMA Mô hình được đánh giá dựatrên 2 yếu tố: dự đoán xu hướng va giá cổ phiếu Kết quả dự đoán cho 81 ngày liêntiếp cho thấy mô hình dự đoán kết hợp GPR-ARMA cho kết quả dự báo giá cổ phiếutốt hơn so với mô hình được huấn luyện độc lập với mô hình ARMA và GPR theo

thứ tự RMSE là 6.015, 6.034, 8.176; độ chính xác xu hướng theo thứ tự 61.73%, 41.98%, 48.15%.

2.3 Kết luận

Sự phát triển của hệ thông máy tính tính toán và thuật toán đã mở đường cho thu thập,

phân tích và dự đoán dữ liệu dang chuỗi trong thời gian thực .

Thông qua việc nghiên cứu và tham khảo các công trình liên quan đến dự báo dữ liệu

cỗ phiếu, tôi nhận thấy còn có một vài hạn chế:

e Mặc dù được ứng dụng nhiều trong thực tế, tuy nhiên thuật toán ARIMA lại

hoạt động không tốt trên giá chứng khoáng do tính chất không dừng stationary) của giá cổ phiếu

(non-e Cac mô hình dự đoán giá da số được huấn luyện độc lập Trong khi ít bài báo

công bố thử nghiệm đánh giá một mô hình dự đoán nhiều cổ phiếu các nhau

¢ Dy đoán giá cô phiếu một cách chính xác là một thách thức lớn Do đó, xếp

hạng cô phiếu là một hướng nghiên cứu mới trong bài toán chứng khoán giúpđánh giá được số lượng các cổ phiếu nhiều hơn và tận dụng được mối tương

quan và xu hướng của các loại cổ phiếu Tuy nhiên, việc cài đặt thuật toán theo

Trang 19

Yuli Feng còn phức tạp và yêu cầu các dữ liệu cé phiếu phải có độ dài giá lịch

sử cố định

10

Trang 20

Chương3 LÝ THUYET

3.1 Cơ sở lý thuyết

3.1.1 Long Short-Term Memory

Trong học sâu, khi nhắc đến mô hình xử lý dữ liệu dạng chuỗi, đầu tiên chúng tathường nhắc đến mô hình cơ bản RNN RNN là một mạng nơ-ron hồi quy được thiết

kế cho việc xử lý các loại đữ liệu có tính tuần tự, tức là các giá trị trong quá khứ ởthời gian t-1 có thể dự đoán được giá trị tại thời điểm t Khả năng kết nối các thôngtin phía trước bằng phương pháp lan truyền ngược liên hồi dé dự đoán giá trị hiện tạicủa mô hình RNN khiến mô hình này được áp dụng rộng rãi trong các bài toán sửdụng dữ liệu dang chuỗi tuần tự từ dự đoán từ tiếp theo trong câu, dự đoán hành độngtiếp theo trong video, Tuy nhiên, nhược điểm của mô hình là chỉ học được cácthông tin gần do hiện tượng vanishing gradient LSTM ra đời để khắc phục nhượcđiểm của RNN

LSTM được thiết kế bởi Hochreiter & Schmidhuber (1997)[7] Cấu trúc của một

mang LSTM về co bản giống với RNN Ý tưởng cốt lõi của LSTM đó là trạng thái tếbao (cell state) Trạng thái tế bào là một dạng giống như băng truyền Nó chạy xuyến

suốt tất cả các mắt xích (các nút mạng) và chỉ tương tác tuyến tính đôi chút Vì vậy

mà các thông tin có thé dé dàng truyền đi thông suốt mà không sợ thay bị thay đổi.LSTM có khả năng bỏ đi hoặc thêm vào các thông tin cần thiết cho trạng thái tế bảo,

chúng được điều chỉnh can thận bởi các nhóm được gọi là công gate Một LSTM gồm

3 cổng: forget gate fi, input gate i: và ouput gate o Tại mỗi bước thời gian t, các cổng

đều lay đầu vào là hạ là output của tế bào trước đó hoặc ở bước thời gian t-1, va x: là

một phần tử của chuỗi đầu vào Dữ liệu được xử lý tuyến tính theo quy trình như sau:đầu tiên, forget gate sẽ quyết định xem thông tin nào cần bỏ đi của trạng thái tế bào

Cut Bước tiếp theo sẽ quyết định thông tin mới sẽ được lưu vào trạng thái tế bao,input gate quyết định giá trị nào ta sẽ cập nhật Cuối cùng output gate sẽ xác định

những thông tin nào của trạng thái tế bào được xuất ra lam output

11

Trang 21

3.1.2 Sequence to sequence

Được giới thiệu chính thức vào năm 2014 boi nhóm nghiên cứu của Google [8] Seq2seq là một mô hình học sâu với mục đích tạo ra một output sequence từ một

input sequence mà độ dài của hai sequences này có thể khác nhau Seq2seq gồm hai

phần chính là Encoder va Decoder Encoder có chức năng đọc chuỗi đầu vào, chọnlọc và mã hoá chuỗi thông tin đầu vào thành một vector có độ đài cé định được gọi

là internal state vectors Output của lớp Encoder sẽ được giữ bên trong mô hình và

chuyển tiếp qua lớp Decoder Decoder nhận dau và là đầu ra của trang thái cuối cùngcủa Encoder Decoder có tác dụng chuyển vector thông tin đầu thành và dự báo chuỗi

ouput Tuy từng bài toán cụ thé mà Encoder và Decoder là các mô hình học sâu khác

nhau như LSTM, GRU, Bi-LSTM hoặc Encoder trong Image Captioning là CNN.

12

Trang 22

Hình 3.2 Kiến trúc của mô hình Seq2Sed.

3.2 Gia thiết khoa học

3.2.1 Giá thiết thị trường hiệu qua

Thị trường hiệu quả là thị trường mà tại đó giá luôn phản ánh những thông tin sẵn

có (theo Fama- 1970) Malkiel (1992) lập luận rằng một thị trường vốn được cho làhiệu quả nếu nó phản ánh đầy đủ và chính xác tat cả các thông tin liên quan trong

việc xác định giá chứng khoán.

Giả thiết thị trường hiệu quả được xây dựng dựa trên giả định, các nhà đầu tư đưa ra

quyết định mua bán chứng khoán dựa trên việc xác định giá trị ước lượng bằng dựtính hợp lý Theo cách đó, giá chứng khoáng sẽ phản ánh tất cả và ngay lập tức đối

với mọi thông tin liên quan.

Dự tính hợp lý là dự tính được tính toán trên cơ sở sử dụng mọi thông tin sẵn có

trên thị trường.

3.2.2 Các giá thiết thị trường hiệu qua

e Gia thiết thị trường hiệu qua dạng yếu (weak-form efficiency)

o Giả định rằng giá chứng khoán đã phan ánh kịp thời toàn bộ thông tin

có thể có được từ dữ liệu giao dịch trong quá khứ: giá, khối lượng giaodịch và tỉ suất thu nhập

13

Trang 23

o Dữ liệu giá trong quá khứ được công khai và nhà đầu tư có thé dé dang

tiếp cận

o Giả sử nếu dữ liệu quá khứ thé hiện xu hướng trong tương lai, ngay lập

tức các nhà đầu tư sẽ khai thác và sử dụng thông tin đó

e Gia thuyết thị trường hiệu quả dang trung bình (semi — strong form effiency)

o Giả định rằng tất cả thông tin liên quan tới công ty đã được công bố

rộng rãi và các thông tin quá khứ đều được phản ánh vào giá chứng

khoán.

o Phân tích cơ bản va phân tích kỹ thuật đều không mang lại tỷ lệ lợi tức

bất thường cho nhà đầu tư

¢ Gia thuyết thị trường hiệu quả dạng mạnh (strong form effiency):

o Tắt cả các thông tin liên quan đến chứng khoán, bao gồm cả thông tin

nội gián cũng được phản ánh vào giá chứng khoán.

o Không có bất kỳ phân tích nào có thé dem lại lợi tức vượt trội cho nhà

đầu tư

o Su dung chiến lược quản lý danh mục thụ động

3.3 Phương pháp nghiên cứu đã sử dụng.

3.3.1 Phương pháp phân tích và tong hợp

Đầu tiên, tôi tiến hành phân tích dữ liệu của các cổ phiếu nhằm đánh giá tong quan

độ biến động, xu hướng và mối tương quan giữa các cô phiếu với nhau Day là một

bước quan trong dé xác định liệu các cô phiếu có sự tương quan dé củng có cho giả

thiết của dé tài là giá cô phiếu có thé được dự đoán bằng mô hình học sâu và một

mô hình có thê dự đoán cho nhiều cổ phiếu

3.3.2 Phương pháp thực nghiệm

Nhằm đánh giá hiệu suất của các mô hình trong thực hiện nghiên cứu của đề tài,tôi tiễn hành so sánh các thông số của các kết qua du đoán của mô hình

14

Trang 24

Để đánh giá cho giá cổ phiếu được dự đoán, tôi sử dụng chỉ số MSE, MDA [9],

MFE [10] Cụ thể các thông số được tính toán như sau:

Với Y = {Vi,V;,ya, Vu} là các giá trị thực tế, Y' = {y',y'z,'a, , y'„} là các

giá trị dự đoán.

Trong khoá luận này, MSE được sử dụng để đánh giá chênh lêch bình phương lỗi

của giá trị thực và giá trị dự báo.

N

MSE =~ » i-y’i)?=H : (vi-y't)

trong đó, N là số giá trị được dự đoán

MDA dùng đề đánh giá kết quả của mô hình có dự đoán tốt xu hướng (lên và xuống)của cổ phiếu có tốt hay không Với

N

MDA= =», 1 Cif sign(yi — Yi-1) == sign(yi — y'i-1)

i

trong đó, sign = 1 khi (y¡ — y;-1) cùng dau với (y'; — y'i-1) ;

sign = 0 khi (y; — y;-1)trai đấu với (y'; — y';_¡)Là một hàm ký gửi giá trị của thư

viện Numpy.

MFE thông số này kiểm tra xem liệu mô hình có đang dự đoán giá trị theo một xuhướng nhất định hay là mô hình có đang hiện diện bias hay không Với MFE càng

gần 0 thì mô hình càng thấp bias, với MFE > 0, mô hình có xu hướng dự đoán dữ

liệu đang tăng, hoặc MEE < 0, mô hình đang có xu hướng dự đoán dữ liệu giảm Với:

Trang 25

RPS của cô phiếu k tại thời gian T được tính bằng công thức:

Trang 26

Chương 4 THỰC NGHIEM, KET QUA, ĐÁNH GIÁ

cung cấp hoàn toàn miễn phí cho mục đích nghiên cứu

STT | Ký hiệu Tên Nhóm ngành Ngành công nghiệp

1 ABBV |AbbVie Health Care Pharmaceuticals

2 ACN Accenture Information IT Consulting &

Technology Other Services

3 AEP American Utilities Electric Utilities

Electric Power

4 AIZ Assurant Financials Multi-line Insurance

5 ALLE | Allegion Industrials Building Products

6 AMAT | Applied Information Semiconductor

Materials Technology Equipment

7 AMP Ameriprise Financials Asset Management &

Financial Custody Banks

8 AMZN _ | Amazon Consumer Internet & Direct

Discretionary Marketing Retail

17

Trang 27

9 AVB AvalonBay Real Estate Residential REITs

Communities

10 | AVY Avery Dennison | Materials Paper Packaging

11 AXP American Financials Consumer Finance

Express

12 | BDX Becton Health Care Health Care

Dickinson Equipment

13 | BF-B Brown-Forman | Consumer Staples Distillers & Vintners

14 | BMY Bristol Myers Health Care Health Care

Squibb Distributors

15 | BR Broadridge Information Data Processing &

Financial Technology Outsourced Services

Solutions

16 |CARR_ | Carrier Global Industrials Building Products

17 CDW CDW Information Technology

Technology Distributors

18 | CE Celanese Materials Specialty Chemicals

19 |CHTR | Charter Communication Cable & Satellite

Communications | Services

20 | CNC Centene Health Care Managed Health Care

21 CNP CenterPoint Utilities Multi-Utilities

Trang 28

24 |CZR Caesars Consumer Casinos & Gaming

28 |DXC DXC Information IT Consulting &

Technology Technology Other Services

29 META | Meta Platforms | Communication Interactive Media &

Services Services

30 FTV Fortive Industrials Industrial Machinery

31 GOOG | Alphabet (Class | Communication Interactive Media &

35 JPM JPMorgan Chase | Financials Diversified Banks

36 | KR Kroger Consumer Staples Food Retail

37 | OGN Organon & Co | Health Care Pharmaceuticals

38 |PG Procter & Consumer Staples Personal Products

Gamble

39 PPL PPL Utilities Electric Utilities

19

Trang 29

40 | PRU Prudential Financials Life & Health

Financial Insurance

41 PYPL PayPal Information Data Processing &

Technology Outsourced Services

42 |RE Everest Re Financials Reinsurance

43 ROL Rollins Industrials Environmental &

47 |V Visa Information Data Processing &

Technology Outsourced Services

48 | VRSK | Verisk Analytics | Industrials Research &

Consulting Services

49 | WRK WestRock Materials Paper Packaging

50 | XOM ExxonMobil Energy Integrated Oil & Gas

Bảng 4.1 Danh sách 50 cô phiếu S&P 500

4.1.2 Phan tích dữ liệu.

Sau khi thu thập được 50 tệp dạng csv chứa thông tin của 50 cổ phiếu Để biết đượctổng quan phân phối, xu hướng của dữ liệu, tôi tiến hành phân tích dữ liệu Việc phântích dữ liệu sẽ được thực hiện trên thuộc tính giá đóng cửa có điều chỉnh — Adj Close

theo trình tự các bước như sau:

¢ Kiểm tra dữ liệu bị thiếu

e anh giá độ biến động của các cô phiếu và xu hướng

20

Trang 30

4.1.2.1 Kiểm tra dữ liệu bị thiếu

Dữ liệu được thu thập về từ Yahoo Finance chứa thông tin những ngày giao dich vàkhông chứa dữ liệu thiếu.Bên cạnh đó, do đặc thù thời gian giao dịch của thị trườngchứng khoán Mỹ là 5 ngày một tuần từ thứ Hai đến thứ Sáu, các sàn giao dịch khônggiao dịch trong hai ngày cuối tuần và các ngày lễ nghỉ như: Tết dương lịch- ngày 01tháng 01 hàng năm, Martin Luther King Jr ngày thứ Hai của tuần thứ 3 của thángMột hàng năm Cho nên dữ liệu được thu thập về sẽ không có các ngày không giao

dịch và các ngày lễ nghỉ.

4.1.2.2 Đánh giá biến động và tương quan về xu hướng của các cổ

phiếu

Đầu tiên, tôi đánh giá độ biến động về giá của các cổ phiếu trên toàn bộ thời gian

có trong các bộ dữ liệu được thu thập về bằng thông số độ lệch chuẩn Công thức

- JÈ@- 8?

ran

Từ Bang 4.2, ta có thé thay cd phiếu GOOG không ổn định nhất với độ lêch chuẩn

độ lệch chuẩn như sau:

cao nhất là 671.671 trong khi đó, những cô phiếu thuộc hang ít biến động thì độlệch chuẩn chỉ dao động trong khoảng từ 2.8 trở lên

21

Trang 31

1| HIG 5,761 36 DG 62,125

2| DXC 6,894 31 AVB 63,628 3| BMY 8,581 38 AMP 68,105

4) BF-B 9,250 39 Vv 70,109

5| COP 20,889 40 BDX 70,368

6| AEP 21,864 41 PYPL 74,671 7| XOM 23,563 42 RE 75,664 8| CNC 23,977 43 URI 79,813

9| PRU 24,435 44 ACN 83,741

20) AMAT | 25,692 45 CTAS 88,514 21) ALLE | 27,200 46 | META | 89,231

22) CZR 29,511 47 UNH 102,639

23 | ABBV | 29,904 48 DPZ 139,754

24) GPC 32,299 49 CHTR | 204,368 25) ROST | 32,979 50 | GOOG | 671,671

Bang 4.2 Độ lệch chuẩn giá đóng cửa có điều chỉnh của 50 cô phiếu từ lúc xuất

hiện giá đóng cửa có điêu chỉnh — 03/06/2022.

22

Trang 32

Nhằm trực quan hoá xu hướng của dữ liệu, tôi sẽ tiến hành xuất ra biểu đồ chuyển

động của giá các cô phiếu Do giá các cổ phiếu năm ở các khoảng giá khác nhau, décho việc so sánh xu hướng biến động, tôi tiễn hành scale dữ liệu bằng MinMaxScaler

về khoảng [0,1] do khả năng bảo toàn được phân phối của dữ liệu ban đầu So sánhhai xu hướng của HST và GOOG trong Hình 4.2 theo thời gian, trong khi cô phiếu

của HST chủ yếu là dao động xung quanh mức trung bình, cô phiếu GOOG thẻ hiện

rõ xu hướng tăng theo thời gian.

Hình 4.1 Xu hướng dịch chuyền giá của cổ phiêu HST và GOOG cho đến ngày

03/06/2022.

Khi kiểm tra xu hướng của nhóm cổ phiếu có độ lệch chuẩn cao (Hình 4.3), tôi nhận

thấy những cổ phiếu đó có xu hướng dai han là tăng dần, nhưng xu hướng ngắn hạn

là dao động quanh mức trung bình ngắn han, giả sử trong khoảng thời gian từ nửacuối năm 2021

23

Ngày đăng: 03/11/2024, 18:25

TÀI LIỆU CÙNG NGƯỜI DÙNG

  • Đang cập nhật ...

TÀI LIỆU LIÊN QUAN

w