Nghiên cứu về deep learning và Ứng dụng trong dự báo giá cổ phiếu chứng khoán

Nghiên cứu về deep learning và Ứng dụng trong dự báo giá cổ phiếu chứng khoán Nghiên cứu về deep learning và Ứng dụng trong dự báo giá cổ phiếu chứng khoán

Trang 1

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN

………

HOÀNG VĂN HẢI

NGHIÊN CỨU VỀ DEEP LEARNING VÀ ỨNG DỤNG TRONG DỰ BÁO

GIÁ CỔ PHIẾU CHỨNG KHOÁN

LUẬN VĂN THẠC SĨ KHOA HỌC

Hà Nội - 2022

Trang 2

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN

………

HOÀNG VĂN HẢI

NGHIÊN CỨU VỀ DEEP LEARNING VÀ ỨNG DỤNG TRONG DỰ BÁO

GIÁ CỔ PHIẾU CHỨNG KHOÁN

Chuyên ngành: Khoa học dữ liệu

Mã số: 8904468.01QTD

LUẬN VĂN THẠC SĨ KHOA HỌC

NGƯỜI HƯỚNG DẪN KHOA HỌC

TS Đặng Thị Thu Hiền

Hà Nội - 2022

Trang 3

TÓM TẮT LUẬN VĂN

Trong tài chính, nhiều hiện tượng được mô hình hóa dưới dạng chuỗi thời gian Luận văn nghiên cứu bài toán dự báo chuỗi thời gian trong tài chính, cụ thể là bài toán dự báo giá đóng cửa của cổ phiếu dựa trên dữ liệu lịch sử của một ngày trước

đó Luận văn sử dụng và so sánh các thuật toán dựa trên học sâu như LSTM, GRU, BiLSTM, BiGRU, CNN, và GAN trong dự đoán giá cổ phiếu Tập dữ liệu bao gồm

dữ liệu về giá, khối lượng giao dịch và một số chỉ kỹ thuật liên quan đến năm loại cổ phiếu là thành phần của chỉ số VN30 bao gồm VCB, MSN, HPG, GAS, và FPT Với từng cổ phiếu, luận văn thực hiện một nghiên cứu toàn diện và trình bày tất cả các thử nghiệm và kết quả trên các tập dữ liệu tương ứng Kết quả cho thấy rằng CNN hoạt động tốt hơn cho dự đoán giá đóng cửa của cổ phiếu ngày tiếp theo so với các kiến trúc học sâu khác

Trang 4

LỜI CẢM ƠN

Trước hết, tôi xin được bày tỏ lòng biết ơn và gửi lời cám ơn chân thành đến

TS Đặng Thị Thu Hiền, người trực tiếp hướng dẫn luận văn, đãtận tình chỉ bảo và định hướng giúp tôi tìm ra hướng nghiên cứu, tiếp cậnthực tế, tìm kiếm tài liệu, xử

lý và phân tích số liệu, giải quyết vấn đề Tôicũng xin được gửi lời cảm ơn đến CN

Đỗ Trường Giang về những đóng góp quý báu trong quá trình nghiên cứu cũng như hoàn thành luận văn

Tôi xin bày tỏ lòng biết ơn sâu sắc đến Quý thầy cô giảng viên KhoaToán - Cơ

- Tin học, trường Đại học Khoa học tự nhiên, Đại học Quốc gia Hà Nội đã tận tình truyền đạt những kiến thức chuyên môn sâu và rộng trong suốt quá trình tôi học tập tại trường

Lời cảm ơn xin được gửi tới bạn bè cùng lớp K3 Thạc sĩ Khoa học Dữliệu đã luôn chia sẻ, trao đổi kiến thức, và thông tin đến tôi những điềucần thiết

Hà Nội, tháng 10 năm 2022

Học viên

Hoàng Văn Hải

Trang 5

MỤC LỤC

CHƯƠNG 1: CƠ SỞ LÝ THUYẾT VÀ CÁC NGHIÊN CỨU LIÊN QUAN 1

1.1 Deep learning và mạng nơ-ron nhân tạo 1

1.2 Một số mô hình Deep learning 4

1.2.1 Mạng nơ-ron hồi quy 4

1.2.2 Bộ nhớ dài-ngắn hạn 7

1.2.3 Nút hồi tiếp có cổng 7

1.2.4 Mạng nơ-ron hồi quy hai chiều 7

1.2.5 Mạng nơ-ron tích chập 8

1.2.6 Mạng đối nghịch tạo sinh 9

1.3 Những vấn đề cơ bản về chứng khoán 9

1.4 Các nghiên cứu liên quan 11

CHƯƠNG 2: THIẾT KẾ MÔ HÌNH DỰ BÁO 20

2.1 Bộ nhớ dài-ngắn hạn 20

2.2 Bộ nhớ dài-ngắn hạn hai chiều 22

2.3 Nút Hồi tiếp có Cổng 23

2.4 Nút Hồi tiếp có Cổng hai chiều 24

2.5 Mạng nơ-ron tích chập 27

2.5.1 Lớp tích chập 27

2.5.2 Lớp gộp 28

2.5.3 Lớp kết nối đầy đủ 29

2.6 Mạng đối nghịch tạo sinh 30

2.6.1 Mạng sinh 30

2.6.2 Mạng phân biệt 30

2.6.3 Kiến trúc của GAN 31

CHƯƠNG 3: THỰC NGHIỆM ĐÁNH GIÁ MÔ HÌNH 32

3.1 Dữ liệu 32

3.2 Phương pháp đánh giá 47

3.3 Thực nghiệm 47

Trang 6

3.3.2 Nút Hồi tiếp có Cổng 49

3.3.3 Bộ nhớ dài-ngắn hạn hai chiều 51

3.3.4 Nút Hồi tiếp có Cổng hai chiều 54

3.3.5 Mạng nơ-ron tích chập 56

3.3.6 Mạng đối nghịch tạo sinh 59

3.3.7 Thuật toán cơ sở 59

3.4 So sánh kết quả 60

KẾT LUẬN 64

TÀI LIỆU THAM KHẢO 65

PHỤ LỤC 70

Trang 7

DANH MỤC CÁC BẢNG

3.1: Dữ liệu cổ phiếu của VCB……… 33

3.2: Dữ liệu cổ phiếu của MSN……… 34

3.3: Dữ liệu cổ phiếu của HPG……… 34

3.4: Dữ liệu cổ phiếu của GAS……… 35

3.5: Dữ liệu cổ phiếu của FPT……… 35

3.6: Dữ liệu lợi tức của trái phiếu chính phủ kỳ hạn 10 năm……… 36

3.7 : Dữ liệu VNINDEX……… 36

3.8: RMSE trung bình của tất cả các phương pháp cho tất cả các cổ phiếu…………62

3.9: MAE trung bình của tất cả các phương pháp cho tất cả các cổ phiếu…………62

3.10: RMSE nhỏ nhất của tất cả các phương pháp cho tất cả các cổ phiếu…………63

3.11: MAE nhỏ nhất của tất cả các phương pháp cho tất cả các cổ phiếu………….63

Trang 8

DANH MỤC CÁC HÌNH VẼ

1.1 Một tế bào thần kinh trong bộ não con người……… .1

1.2 Một mạng nơ-ron truyền tiếp được kết nối đầy đủ……… 2

1.3 Chức năng phi tuyến được thực hiện bởi một nơ-ron……… 3

1.4 Recurrent neural network Biểu diễn nén (trên cùng), mạng mở rộng (dưới cùng)……… 5

1.5 Cấu trúc chung của BiRNN được hiển thị theo thời gian trong ba bước thời gian……… 8

2.1 Ô nhớ của LSTM……… 21

2.2 Ô nhớ của BiLSTM……… 22

2.3 Ô nhớ của GRU……… 23

2.4 Áp dụng bộ lọc (F × F) cho dữ liệu đầu vào (N × N) để nhận giá trị V1,1 trong lớp tiếp theo……… 28

3.1 Biểu đồ giá cổ phiếu VCB……… 43

3.2 Biểu đồ giá cổ phiếu MSN……… 43

3.3 Biểu đồ giá cổ phiếu HPG……… 43

3.4 Biểu đồ giá cổ phiếu GAS……… 44

3.5 Biểu đồ giá cổ phiếu FPT……… 44

3.6 Kiến trúc LSTM tương ứng với VCB……… 47

3.7 Kiến trúc LSTM tương ứng với MSN……… 48

3.8 Kiến trúc LSTM tương ứng với HPG……… 48

3.9 Kiến trúc LSTM tương ứng với GAS……… 49

3.10 Kiến trúc LSTM tương ứng với FPT……… 49

3.11 Kiến trúc GRU tương ứng với VCB……… 49

3.12 Kiến trúc GRU tương ứng với MSN……… 50

3.13 Kiến trúc GRU tương ứng với HPG……… 50

3.14 Kiến trúc GRU tương ứng với GAS……… 51

3.15 Kiến trúc GRU tương ứng với FPT……… 51

Trang 9

3.16 Kiến trúc BiLSTM tương ứng với VCB……… 52

3.17 Kiến trúc BiLSTM tương ứng với MSN……… 52

3.18 Kiến trúc BiLSTM tương ứng với HPG……… 53

3.19 Kiến trúc BiLSTM tương ứng với GAS……… 53

3.20 Kiến trúc BiLSTM tương ứng với FPT……… 54

3.21 Kiến trúc BiGRU tương ứng với VCB……… 54

3.22 Kiến trúc BiGRU tương ứng với MSN……… 55

3.23 Kiến trúc BiGRU tương ứng với HPG……… 55

3.24 Kiến trúc BiGRU tương ứng với GAS……… 56

3.25 Kiến trúc BiGRU tương ứng với FPT……… 56

3.26 Kiến trúc CNN tương ứng với VCB……… 57

3.27 Kiến trúc CNN tương ứng với MSN……… 57

3.28 Kiến trúc CNN tương ứng với HPG……… 58

3.29 Kiến trúc CNN tương ứng với GAS……… 58

3.30 Kiến trúc CNN tương ứng với FPT……… 59

Trang 10

BẢNG KÝ HIỆU CÁC CHỮ VIẾT TẮT

BiGRU Bidirectional Gated Recurrent Unit BiLSTM Bidirectional Long Short Term Memory

Trang 11

MỞ ĐẦU

Lý do chọn đề tài

Với lịch sử hình thành và phát triển 26 năm, chứng khoán Việt Nam đã khẳng định vai trò của mình trong nền kinh tế nước nhà Từ mức vốn hóa 270 tỷ đồng ban đầu, hiện tại thị trường đạt mức 7.8 triệu tỷ đồng (bao gồm cả cổ phiếu và trái phiếu) vào ngày 30/6/2022, tương đương 93% GDP (tính theo GDP năm 2021) Tổng số tài khoản chứng khoán của nhà đầu tư trong nước tới hết tháng 6/2022 đạt hơn 6.1 triệu, nếu tính mỗi cá nhân sở hữu một tài khoản thì tỷ lệ số tài khoản cá nhân hiện tương đương 6.2% dân số Trong khi đó, theo chiến lược phát triển thị trường chứng khoán Việt Nam đến năm 2030, tầm nhìn đến năm 2045, số lượng nhà đầu tư đạt 5% dân số năm 2025 và 8% dân số vào năm 2030 [19]

Với nhà đầu tư thì cổ phiếu là một loại tài sản quan trọng do những ưu điểm của chúng Giá cổ phiếu thay đổi đột ngột có thể khiến mọi người trở thành triệu phú ngay lập tức hoặc có thể hủy bỏ hoàn toàn số tiền tiết kiệm cả đời của họ Do đó điều cần thiết là phải biết thời điểm mua và bán cổ phiếu để kiếm lời Để làm như vậy, người

ta cần phải dự đoán chính xác giá của cổ phiếu

Do quan tâm chung đến việc tạo ra lợi nhuận trong cổ phiếu thị trường, các nhà nghiên cứu đã cố gắng trong nhiều thập kỷ đưa ra các phương pháp để dự đoán các chuyển động trên thị trường chứng khoán, mỗi giải pháp đều có những ưu nhược điểm khác nhau Với sự ra đời của học máy và học sâu, các nhà nghiên cứu đang thành công hơn rất nhiều trong các dự đoán của họ Với mỗi cải tiến mới trong thế giới này, chúng ta đang tiến gần hơn đến khả năng dự đoán chính xác các xu hướng trên thị trường chứng khoán Vì các lý do trên tôi đã lựa chọn đề tài “Nghiên cứu về Deep learning và ứng dụng trong dự báo giá cổ phiếu chứng khoán” là đề tài luận

văn thạc sĩ của mình

Trang 12

Mục tiêu nghiên cứu

Luận văn tập trung nghiên cứu giải quyết bài toán dự đoán giá đóng cửa của các

cổ phiếu trên thị trường chứng khoán Việt Nam với các cổ phiếu của Ngân hàng Thương mại cổ phần Ngoại thương Việt Nam, Công ty cổ phần Tập đoàn Masan, Công ty cổ phần Tập đoàn Hòa Phát, Tổng Công ty Khí Việt Nam, và Công ty cổ phần FPT Dựa trên dữ liệu thu thập được từ trang web chuyên cung cấp, đánh giá, phân tích cổ phiếu tài chính trên thế giới https://vn.investing.com/, luận văn tiền xử

lý dữ liệu, trích xuất đặc trưng, áp dụng các phương pháp học sâu LSTM, GRU, BiLSTM, BiGRU, CNN, và GAN cho bài toán dự đoán giá cổ phiếu từ đó đề xuất

mô hình tối ưu

Bố cục luận văn

Bố cục của luận văn được chia làm 3 chương chính, bao gồm những nội dung sau:

• Chương 1 Giới thiệu những kiến thức nền tảng sẽ được đề cập đến trong luận

văn Cụ thể, chương này sẽ giới thiệu các kiến thức của học sâu, các mô hình

học sâu, chứng khoán và các nghiên cứu liên quan

• Chương 2 Trình bày thiết kế của các mô hình dự báo

• Chương 3 Trình bày xử lý dữ liệu và kết quả thực nghiệm đánh giá các mô

hình

Trang 13

CHƯƠNG 1

CƠ SỞ LÝ THUYẾT VÀ CÁC NGHIÊN CỨU LIÊN QUAN

1.1 Deep learning và mạng nơ-ron nhân tạo

Deep learning là một lớp thuật toán học máy: (1) sử dụng một quy trình gồm nhiều lớp đơn vị xử lý phi tuyến để trích xuất và biến đổi các đặc trưng Mỗi lớp

kế tiếp sử dụng đầu ra từ lớp trước làm đầu vào, (2) học nhiều mức biểu diễn tương ứng với các mức trừu tượng khác nhau; các cấp độ tạo thành một hệ thống phân cấp của các khái niệm [44]

Deep learning hoạt động với các mạng nơ-ron nhân tạo, được thiết kế để bắt chước cách con người suy nghĩ và học hỏi

Mạng nơ-ron nhân tạo (ANN) có thể được coi là thuật toán xấp xỉ hàm Trong môi trường học có giám sát, khi được trình bày với nhiều quan sát đầu vào đại diện cho vấn đề quan tâm, cùng với các đầu ra mục tiêu tương ứng, mạng nơ-ron nhân tạo sẽ tìm một hàm số gần đúng với hàm số tồn tại giữa các quan sát đó

Mạng nơ-ron là một mô hình tính toán được lấy cảm hứng từ cấu trúc của bộ não con người Bộ não con người bao gồm một mạng lưới khổng lồ các tế bào thần kinh (neuron) liên kết với nhau (khoảng một trăm tỷ tế bào trong số chúng), với mỗi tế bào bao gồm một thân tế bào (cell), một tập hợp các sợi được gọi là đuôi gai (dendrites) và một sợi trục (axon):

Hình 1.1: Một tế bào thần kinh trong bộ não con người

Trang 14

Các đuôi gai hoạt động như các kênh đầu vào cho một tế bào thần kinh, trong khi sợi trục hoạt động như một kênh đầu ra Do đó, một tế bào thần kinh sẽ nhận tín hiệu đầu vào thông qua các đuôi gai của nó, đến lượt nó sẽ được kết nối với các sợi trục (đầu ra) của các tế bào thần kinh lân cận khác Theo cách này, một xung điện đủ mạnh (còn gọi là điện thế hoạt động) có thể được truyền dọc theo sợi trục của một tế bào thần kinh, đến tất cả các tế bào thần kinh khác được kết nối với nó Điều này cho phép các tín hiệu được truyền dọc theo cấu trúc của não người Vì vậy, một nơ-ron hoạt động như một công tắc nhận tất cả hoặc không nhận vào một tập hợp các đầu vào và tạo ra một điện thế hoạt động hoặc không có đầu ra Một mạng lưới thần kinh nhân tạo tương tự như cấu trúc của bộ não con người, bởi vì (1) nó được cấu tạo tương tự bởi một số lượng lớn các tế bào thần kinh liên kết với nhau, (2) tìm cách truyền thông tin qua mạng, (3) tiếp nhận các bộ kích thích từ các tế bào thần kinh lân cận và ánh xạ chúng tới các đầu ra để cung cấp cho lớp tế bào thần kinh tiếp theo

Cấu trúc của một mạng nơ-ron nhân tạo thường được tổ chức thành các lớp nơ-ron Ví dụ: sơ đồ sau minh họa một mạng nơ-ron được kết nối đầy đủ, trong đó tất cả các nơ-ron trong một lớp được kết nối với tất cả các nơ-ron trong lớp tiếp theo:

Hình 1.2: Một mạng nơ-ron truyền tiếp được kết nối đầy đủ Các đầu vào được trình bày ở phía bên trái của mạng và thông tin truyền sang phải về phía các đầu ra ở đầu đối diện Vì thông tin truyền theo hướng thuận qua mạng, nên chúng ta cũng gọi một mạng như vậy là mạng nơ-ron truyền thẳng (a

Trang 15

feedforward neural network) Các lớp tế bào thần kinh ở giữa các lớp đầu vào và đầu ra được gọi là lớp ẩn (hidden layers), vì chúng không thể truy cập trực tiếp Mỗi kết nối (được biểu diễn bằng một mũi tên trong biểu đồ) giữa hai nơ-ron được quy về một trọng số, tác động lên dữ liệu truyền qua mạng, như chúng ta sẽ thấy ngay sau đây:

Hình 1.3: Chức năng phi tuyến được thực hiện bởi một nơ-ron Giả sử rằng một tế bào thần kinh nhân tạo cụ thể (hoặc một tế bào cảm thụ, như Frank Rosenblatt đã đặt tên ban đầu) nhận n đầu vào, [ ,x x1 2, ,x n], trong đó mỗi kết nối được quy về một trọng số tương ứng, [w w1, 2, ,w n] Phép toán đầu tiên được thực hiện nhân các giá trị đầu vào với trọng số tương ứng của chúng và thêm

số hạng chệch, b, vào tổng của chúng, tạo ra đầu ra, z:

Trang 16

Tuy nhiên, nhiều mối quan hệ trên thế giới mà chúng ta có thể muốn mô hình hóa là phi tuyến tính, và nếu chúng ta cố gắng mô hình hóa những mối quan hệ này bằng mô hình tuyến tính, thì mô hình sẽ rất không chính xác [4]

Do đó, phép toán thứ hai được thực hiện bởi mỗi nơ-ron biến đổi tổng trọng

số bằng cách áp dụng một hàm kích hoạt phi tuyến, a (.):

1 ( ) (1.3)

n

i i i

n

i i i

• Relu function: max(0, ) x

1.2 Một số mô hình Deep learning

1.2.1 Mạng nơ-ron hồi quy

Mạng nơ-ron hồi quy (RNN) là một loại đặc biệt của mạng nơ-ron nhân tạo được điều chỉnh để làm việc với dữ liệu chuỗi thời gian hoặc dữ liệu liên quan đến chuỗi Các mạng nơ-ron chuyển tiếp nguồn cấp dữ liệu thông thường chỉ dành cho các điểm dữ liệu, các điểm này độc lập với nhau Tuy nhiên, nếu chúng ta có dữ liệu theo một trình tự sao cho một điểm dữ liệu phụ thuộc vào điểm dữ liệu trước

Trang 17

đó, chúng ta cần sửa đổi mạng nơ-ron để kết hợp sự phụ thuộc giữa các điểm dữ liệu này Các RNN có khái niệm ‘bộ nhớ’ giúp chúng lưu trữ trạng thái hoặc thông tin của các đầu vào trước đó để tạo ra đầu ra tiếp theo của chuỗi

Hình 1.4: Mạng nơ-ron hồi quy Biểu diễn nén (trên cùng), mạng mở rộng (dưới cùng)

Một RNN đơn giản có một vòng phản hồi như trong sơ đồ đầu tiên của hình trên Vòng phản hồi được hiển thị trong hình chữ nhật màu xám có thể được cuộn trong 3 bước thời gian để tạo ra mạng thứ hai của hình trên Chúng ta có thể thay đổi kiến trúc để mạng giải phóng k các bước thời gian Trong hình, ký hiệu sau được sử dụng:

• x  t là đầu vào tại bước thời gian t Để giữ cho mọi thứ đơn giản, chúng

ta giả định rằng x tđó là một giá trị vô hướng với một đặc trưng duy nhất Chúng ta có thể mở rộng ý tưởng này thành vectơ đặc trưng nhiều chiều

• y  t là đầu ra của mạng tại bước thời gian t Chúng ta có thể tạo ra nhiều

đầu ra trong mạng nhưng đối với ví dụ này, chúng ta giả định rằng có một đầu ra

t

h  vector lưu trữ các giá trị của các đơn vị / trạng thái ẩn tại một thời

điểm t Đây cũng được gọi là bối cảnh hiện tại với m là số đơn vị ẩn và vectơ h0 được khởi tạo bằng không

Trang 18

b  là chệch liên quan đến lớp lặp lại

• b  y là chệch được liên kết với lớp chuyển tiếp (feedforward layer)

Tại mỗi bước thời gian, chúng ta có thể mở mạng cho k bước thời gian để lấy đầu ra tại bước thời gian k+1 Mạng mở rất giống với mạng nơ-ron truyền thẳng

Hình chữ nhật trong mạng mở ra cho thấy một hoạt động đang diễn ra Vì vậy, ví

dụ với một hàm kích hoạt f:

ht+1= f(x ,h ,w ,w ,b ) = f(w x +w ht t x h h x t h t+b ) (1.5) h

Kết quả đầu ra y tại thời điểm t được tính là:

y t = f h w( ,t y) = f w h( y t+b y) (1.6)

Do đó, trong quá trình chuyển tiếp của RNN, mạng sẽ tính toán các giá trị

của các đơn vị ẩn và kết quả đầu ra sau k bước thời gian Các trọng số liên quan

đến mạng được chia sẻ tạm thời Mỗi lớp lặp lại có hai bộ trọng số; một cho đầu vào và một cho đơn vị ẩn Lớp chuyển tiếp cuối cùng, tính toán đầu ra cuối cùng

cho bước thời gian thứ k giống như một lớp thông thường của mạng truyền tiếp

truyền thống [7]

Vấn đề độ dốc biến mất/bùng nổ (The vanishing/exploding gradient problem) [23], được hiểu là các đạo hàm được tính toán ở giai đoạn sâu của mạng nơ-ron hồi quy có tác động quá nhỏ (trong vấn đề độ dốc biến mất) hoặc tác động quá lớn (trong vấn đề độ dốc bùng nổ) đối với trọng số của các nơ-ron nông hơn trong mạng nơ-ron hồi quy, là một trong những hạn chế của RNN Các biến thể của RNN như LSTM và GRU được phát triển để giải quyết nhược điểm này

Trang 19

1.2.2 Bộ nhớ dài-ngắn hạn

Bộ nhớ dài-ngắn hạn (LSTM) là một biến thể của RNN được giới thiệu bởi Hochreitar và các cộng sự LSTM hoạt động đặc biệt tốt với dữ liệu chuỗi thời gian Cấu trúc bên trong của LSTM có 3 cổng - Quên, Đầu vào và Đầu ra Cổng quên quy định thông tin phải được giữ lại hoặc loại bỏ Cổng đầu vào dựa trên trạng thái ô sẽ học các phụ thuộc và điều kiện hỗ trợ việc nhận ra và ghi nhớ các trình tự Cổng đầu ra quyết định thông tin nào sẽ được truyền về phía trước như một đầu vào cho ô tiếp theo [35]

1.2.3 Nút hồi tiếp có cổng

Nút hồi tiếp có cổng (GRU) là sự phát triển mở rộng của LSTM Kiến trúc

mạng bao gồm các khối đơn vị GRU để kiểm soát việc thiết lập lại và cập nhật bộ nhớ GRU đạt hiệu suất tương đương của LSTM, nhưng sử dụng ít tham số hơn, giúp huấn luyện nhanh hơn Các cổng duy nhất được sử dụng trong GRU là các cổng cập nhật và thiết lập lại Cổng cập nhật chịu trách nhiệm đổi mới bộ nhớ hiện tại của mạng cho phép mạng để ghi nhớ dữ liệu đầu vào nhất định dựa trên quá trình nhập của nó Cổng thiết lập lại có nhiệm vụ xóa bộ nhớ hiện tại của mạng, cho phép mạng quên các giá trị nhất định tại bất kỳ bước thời gian nào [2]

1.2.4 Mạng nơ-ron hồi quy hai chiều

Mạng nơ-ron hồi quy hai chiều (BiRNN) là một cách khác để xếp chồng các lớp RNN Nó được phát triển bởi Schuster và Paliwal để sử dụng dữ liệu đầu vào

từ quá khứ và tương lai để đào tạo mạng Mạng bao gồm hai lớp liên kết, mỗi lớp thực hiện các hoạt động trên trình tự đầu vào bằng cách sử dụng một hướng luồng khác nhau Kiến trúc hai chiều sử dụng một lớp để thực hiện các hoạt động theo cùng một hướng luồng của chuỗi dữ liệu Lớp khác áp dụng ngược lại các hoạt động của nó trên chuỗi dữ liệu Các phương pháp hợp nhất khác nhau được sử dụng để kết hợp các kết quả cuối cùng do các lớp mạng tạo ra Tương ứng, hai lớp LSTM có thể được xếp chồng lên nhau bằng cách sử dụng hai hướng luồng khác

Trang 20

nhau để xử lý trình tự đầu vào để tạo thành kiến trúc LSTM hai chiều (BiLSTM) Tương tự, hai lớp GRU có thể được xếp chồng lên nhau để tạo thành kiến trúc GRU hai chiều (BiGRU) [2][33]

Hình 1.5: Cấu trúc chung của BiRNN được hiển thị theo thời gian trong

ba bước thời gian

Mạng nơ-ron tích chập (CNN) là một mô hình mạng được đề xuất bởi Lecun

và cộng sự vào năm 1998 CNN là một loại mạng nơ-ron chuyển tiếp nguồn cấp

dữ liệu, có hiệu suất tốt trong xử lý hình ảnh và xử lý ngôn ngữ tự nhiên (NLP)

Nó có thể được áp dụng hiệu quả cho dự đoán của chuỗi thời gian Nhận thức cục

bộ (The local perception) và chia sẻ trọng số của CNN có thể làm giảm đáng kể số lượng các tham số, do đó nâng cao hiệu quả học tập các mô hình CNN chủ yếu bao gồm ba phần: lớp tích chập (convolution layer), lớp gộp (pooling layer), và lớp kết nối đầy đủ (full connection layer) Mỗi lớp tích chập chứa nhiều nhân chập (convolution kernel), và phép tính của nó được thể hiện qua một hàm kích hoạt,

thường là relu Sau thao tác tích chập của lớp tích chập, các đặc trưng của dữ liệu

được trích xuất Tuy nhiên, kích thước đặc trưng được trích xuất là rất cao Vì vậy,

để giải quyết vấn đề này và giảm chi phí huấn luyện mạng, một lớp gộp được thêm vào sau lớp tích chập để giảm kích thước các đặc trưng [21]

Trang 21

1.2.6 Mạng đối nghịch tạo sinh

Goodfellow và cộng sự đã phát triển mạng đối nghịch tạo sinh (GAN) để tạo hình ảnh Kể từ đó GAN được sửa đổi tùy theo việc sử dụng Trên cơ sở các tham

số tinh chỉnh hoặc trên cơ sở phiên bản khác nhau về hàm mất mát mạng sinh (the generator) và mạng phân biệt (the discriminator), các phiên bản khác nhau của GAN đã được đưa ra như - InfoGAN, chuỗi thời gian GAN Ban đầu mạng sinh được cung cấp một nhiễu ngẫu nhiên có phân phối chuẩn và nó cung cấp một số đầu ra cho mạng phân biệt để phân tích Mạng phân biệt quyết định xem dữ liệu thuộc danh mục nào hoặc phân phối có tương tự như phân phối của dữ liệu thực hay không Về lý thuyết thì quá trình huấn luyện kết thúc khi mạng phân biệt không thể quyết định được dữ liệu được tạo bởi mạng sinh là giả hay thật Mạng sinh thường được chọn với khả năng hồi quy tốt như LSTM hoặc GRU trong khi mạng phân biệt được chọn với khả năng phân biệt tốt như CNN [35]

1.3 Những vấn đề cơ bản về chứng khoán

Xuất hiện từ thế kỷ 17, thị trường chứng khoán là tập hợp những người mua

và bán cổ phiếu đại diện cho các tuyên bố về quyền sở hữu đối với các công ty đại

chúng hoặc doanh nghiệp khác nhau

Nhiều người đầu tư tiền của họ vào các công ty mà họ cho là hứa hẹn và nhận được cổ phần của công ty Giá cổ phiếu có thể tăng hoặc giảm trong thời gian nhất định tùy thuộc vào nhu cầu đối với cổ phiếu đó Nếu mọi người chi một số tiền lớn hơn giá cổ phiếu hiện tại để mua cổ phiếu, thì giá cổ phiếu sẽ tăng lên Điều này nói chung ngụ ý rằng công ty đang hoạt động tốt và ngày càng có nhiều người muốn đầu tư vào công ty vì họ tin rằng giá cổ phiếu sẽ tăng hơn nữa Nếu mọi người đang bán cổ phiếu của họ với giá thấp hơn giá cổ phiếu hiện tại, thì giá cổ phiếu sẽ giảm xuống Điều này thường ngụ ý rằng mọi người không tin rằng công

ty sẽ hoạt động tốt và giá cổ phiếu sẽ chỉ giảm thêm Nếu giá cổ phiếu tăng, người

đó có thể kiếm được lợi nhuận nếu bán cổ phiếu của công ty cho người sẵn sàng mua với giá cao hơn hoặc giữ cổ phiếu đó và chờ giá lên Nếu người đó không may

Trang 22

giá tăng hoặc bán cổ phiếu với kỳ vọng giá sẽ giảm thêm do đó lỗ nhưng tránh được khoản lỗ lớn hơn nếu bán cổ phiếu với giá còn thấp hơn nữa ở những giai

đoạn kế tiếp

Điểm nổi bật của thị trường chứng khoán là sự khó có thể đoán trước giá cổ phiếu của các công ty vì những mức giá này chỉ được quyết định bởi số tiền mà mọi người sẵn sàng trả để mua một cổ phần của công ty Để mọi người đầu tư vào một công ty bằng cách mua cổ phiếu của nó, công ty đó cần phải có danh tiếng tốt trong công chúng và nếu có bất kỳ thay đổi nào trong cách mọi người nhìn nhận

về công ty, nó có thể ảnh hưởng tích cực hoặc tiêu cực đến giá cổ phiếu

Do quan tâm chung đến việc tạo ra lợi nhuận trong cổ phiếu thị trường, các nhà nghiên cứu đã cố gắng trong nhiều thập kỷ để dự đoán các chuyển động trên thị trường chứng khoán

Các nghiên cứu về dự đoán thị trường chứng khoán chủ yếu tập trung vào việc đề xuất các phương pháp dự đoán xu hướng chứng khoán hiệu quả Các nghiên cứu trước đây có thể được chia thành ba loại: phương pháp hướng đặc trưng (feature-oriented methods), phương pháp hướng mô hình (model-oriented methods) và phương pháp hướng tích hợp (integration oriented methods) Phương pháp hướng đặc trưng chủ yếu sử dụng các phương pháp dựa trên thống kê như phân tích thành phần chính (PCA), phân tích các thành phần độc lập (ICA), và thu thập thông tin (IG) để lựa chọn các đặc trưng hiệu quả [20][34] [40] Hiệu suất của một mô hình nhất định sẽ được cải thiện nếu các đặc trưng có liên quan thấp trong đầu vào bị loại bỏ Cách tiếp cận theo hướng mô hình tập trung vào việc cải thiện khả năng phù hợp (the fitting ability) của mô hình Máy vectơ hỗ trợ (SVM) đã được chứng minh là rất hiệu quả đối với các dự đoán thị trường chứng khoán [18] Trong những năm gần đây, các mô hình học sâu có nhiều ứng dụng thành công trong các nhiệm vụ về thị giác máy tính và xử lý ngôn ngữ tự nhiên (NLP) do khả năng trích xuất đặc trưng mạnh mẽ của chúng Do đó, học sâu cũng đã được áp dụng trong dự đoán thị trường chứng khoán [1][2][10][17][24][42][45] Các phương pháp hướng tích hợp thường kết hợp nhiều mô hình trí tuệ nhân tạo khác

Trang 23

nhau hoặc các kỹ thuật dựa trên thống kê để dự đoán thị trường chứng khoán [3][21][22][35].

Với mỗi cải tiến mới trong lĩnh vực máy học, học sâu chúng ta đang tiến gần hơn đến việc có thể dự đoán chính xác các xu hướng trên thị trường chứng khoán

1.4 Các nghiên cứu liên quan

Trong phần này, luận văn thảo luận về các nghiên cứu liên quan Luận văn

sẽ xem xét các nghiên cứu liên quan trong hai lĩnh vực khác nhau: kỹ thuật và tài chính

Hoseinzade và Haratizadeh trong [17] đề xuất 2 phương pháp dựa trên CNN

để dự đoán hướng di chuyển trong ngày tiếp theo cho các chỉ số S&P 500, NASDAQ, DJI, NYSE và RUSSELL sử dụng thông tin từ 60 ngày trước Phương pháp thứ nhất, 2D-CNNpred, các tác giả dựa trên giả định rằng ánh xạ thực sự từ lịch sử đến tương lai là hàm số chính xác cho nhiều thị trường Do đó chỉ cần một

mô hình duy nhất có thể dự đoán tương lai của thị trường dựa trên lịch sử của chính

nó Tuy nhiên, để trích xuất ánh xạ mong muốn, mô hình đó cần được huấn luyện bởi các mẫu từ các thị trường khác nhau Trong 2D-CNNpred, dữ liệu đầu vào được tổng hợp và cung cấp cho CNN được thiết kế đặc biệt như một bộ tensor hai chiều bao gồm chiều dữ liệu lịch sử và các đặc trưng Ở phương pháp thứ 2, 3D-CNNpred, thay vì huấn luyện một mô hình dự đoán duy nhất có thể dự đoán tương lai của từng thị trường dựa trên dữ liệu lịch sử của riêng nó, nghiên cứu sử dụng các đặc trưng từ thông tin lịch sử của nhiều thị trường để huấn luyện một mô hình

dự đoán riêng biệt cho từng thị trường 3D-CNNpred sử dụng một tensor có ba chiều bao gồm dữ liệu lịch sư, thị trường và các đặc trưng, để tổng hợp thông tin lịch sử từ các thị trường khác nhau và cung cấp cho CNN được thiết kế đặc biệt để huấn luyện mô hình dự đoán cho từng thị trường Bộ dữ liệu của nghiên cứu bao gồm 82 biến Tập hợp các biến này có thể được phân loại thành tám nhóm khác nhau, đó là các biến cơ bản, chỉ báo kỹ thuật, chỉ số thị trường chứng khoán thế giới, tỷ giá hối đoái của đồng đô la Mỹ với các loại tiền tệ khác, hàng hóa, dữ liệu

Trang 24

khác Dữ liệu trong khoảng thời gian từ tháng 1 năm 2010 đến tháng 10 năm 2017 Nghiên cứu dùng 60% dữ liệu đầu tiên để huấn luyện các mô hình, 20% tiếp theo

là dữ liệu xác thực (validation set) và 20% cuối cùng là dữ liệu kiểm tra Nghiên cứu so sánh hiệu suất của các phương pháp được đề xuất với ba mô hình cơ sở bao gồm: mô hình 1, PCA được áp dụng với dữ liệu ban đầu và sau đó biểu diễn kết quả của dữ liệu được sử dụng để huấn luyện ANN nông nhằm đưa ra dự đoán; mô hình 2, các chỉ báo kỹ thuật được sử dụng để huấn luyện một ANN nông để dự đoán; mô hình 3, đầu tiên các biến được nhóm lại và sắp xếp lại cho phù hợp Biểu diễn kết quả của dữ liệu sau đó được CNN sử dụng với một cấu trúc nhất định để

dự đoán Các đánh giá cho thấy sự cải thiện đáng kể về hiệu suất của mô hình đề xuất so với các thuật toán cơ sở trong nghiên cứu Điều này có thể được lý giải bởi hai nguyên nhân Thứ nhất, nghiên cứu sử dụng một tập hợp gồm nhiều đặc trưng phong phú chứa thông tin hữu ích để dự đoán chứng khoán Thứ hai, cấu trúc của CNN trong nghiên cứu có thể phù hợp trong dự đoán thị trường chứng khoán Qua

đó ta thấy CNN được thiết kế tốt có thể ảnh hưởng tích cực đến kết quả dự báo cho

dù với một lượng dữ liệu không quá lớn, chẳng hạn như trong nghiên cứu này với khoảng 2519 ngày từ 01/2010 đến 10/2017

Lu và cộng sự trong [21] đề xuất phương pháp CNN-BiLSTM-AM để dự đoán giá đóng cửa của cổ phiếu của ngày hôm sau dựa trên dữ liệu lich sử của

1000 ngày giao dịch trước đó Phương pháp này bao gồm mạng nơ-ron tích chập (CNN), bộ nhớ dài-ngắn hạn hai chiều (BiLSTM) và cơ chế chú ý (AM) CNN được sử dụng để trích xuất các đặc trưng của dữ liệu đầu vào BiLSTM sử dụng

dữ liệu đặc trưng được trích xuất để dự đoán giá đóng cửa của cổ phiếu vào ngày hôm sau AM được sử dụng để nắm bắt ảnh hưởng của các trạng thái đặc trưng đối với giá đóng cửa của cổ phiếu tại các thời điểm khác nhau trong quá khứ để cải thiện độ chính xác của dự đoán được chọn làm dữ liệu Tập dữ liệu bao gồm dữ liệu giao dịch hàng ngày của 7083 ngày giao dịch từ ngày 1 tháng 7 năm 1991 đến

ngày 30 tháng 6 năm 2020 của cổ phiếu của chỉ số tổng hợp Thượng Hải Nghiên

cứu lấy dữ liệu của 6083 ngày giao dịch đầu tiên làm tập huấn luyện và dữ liệu của

Trang 25

1000 ngày giao dịch gần nhất làm tập kiểm tra Mỗi phần dữ liệu chứa chín đặc trưng: giá mở cửa, giá cao nhất, giá thấp nhất, giá đóng cửa, khối lượng, doanh thu, tăng, giảm và thay đổi về giá Để chứng minh tính hiệu quả của CNN-BiLSTM-AM, phương pháp này được so sánh với MLP, CNN, RNN, LSTM, BiLSTM, CNN-LSTM, CNN-BiLSTM, BiLSTM-AM và CNN-BiLSTM Nghiên cứu chỉ ra rằng so với các phương pháp được đưa ra như là một cơ sở để so sánh, phương pháp CNN-BiLSTM-AM phù hợp hơn cho việc dự đoán giá cổ phiếu và

là một cơ sở tham khảo đáng tin cậy để các nhà đầu tư đưa ra quyết định đầu tư cổ phiếu Sự phù hợp của phương pháp đề xuất so với các phương pháp khác có trong nghiên cứu có thể đến từ việc nghiên cứu vận dụng nhiều mô hình trí tuệ nhân tạo hơn vào để dự báo giá cổ phiếu

Mehtab và Sen trong [24] đã trình bày một số cách tiếp cận để dự đoán giá

cổ phiếu hàng tuần sử dụng tám hồi quy Các mô hình này dựa trên máy học và phương pháp học sâu Tập dữ liệu là giá trị chỉ số NIFTY 50 của sàn giao dịch chứng khoán quôc gia Ấn Độ, trong khoảng thời gian 5 năm: 2015 - 2019 Dữ liệu thô bao gồm các biến: (i) Ngày, (ii) Giá trị mở cửa của chỉ số, (iii) giá trị cao của chỉ số, (iv) Giá trị thấp của chỉ số, (v) giá đóng cửa của chỉ số, và (vi) khối lượng

cổ phiếu được giao dịch trên một ngày nhất định Nghiên cứu sử dụng dữ liệu trong bốn năm đầu tiên (từ ngày 5 tháng 1 năm 2015 – ngày 28 tháng 12 năm 2018) để huấn và phần dữ liệu còn lại (từ ngày 31 tháng 12 năm 2018 đến ngày 27 tháng 12 năm 2019) được dùng làm dữ liệu kiểm tra Biến mục tiêu trong các mô hình là

close_perc Nó là một biến số được tính như một giá trị chuẩn hóa của phần trăm

thay đổi trong giá đóng của hai ngày liên tiếp Ba loại mô hình CNN khác nhau được xây dựng để dự báo chuỗi thời gian nhiều bước về giá cổ phiếu Loại mô hình thứ nhất là dự báo chuỗi thời gian nhiều bước với đơn biến dữ liệu đầu vào Loại mô hình thứ hai là dự báo chuỗi thời gian nhiều bước với dữ liệu đầu vào đa biến qua các kênh Loại mô hình thứ ba là dự báo chuỗi thời gian nhiều bước với

dữ liệu đầu vào đa biến thông qua các mô hình con Liên quan đến kích thước của đầu vào, nghiên cứu lần lượt thử nghiệm sử dụng dữ liệu lịch sử của năm ngày và

Trang 26

mười ngày trước để dự báo giá cổ phiếu của năm ngày tiếp theo Tuy nhiên độ phức tạp của CNN được điều chỉnh sao cho phù hợp với độ lớn của dữ liệu đầu vào Chẳng hạn với hại loại mô hình đầu tiên, với dữ liệu lich sử là năm ngày nghiên cứu chỉ sử dụng một lớp tích chập, trong khi với dữ liệu lịch sử là 10 ngày nghiên cứu đã sử dụng ba lớp tích chập Kết quả chỉ ra rõ ràng rằng hiệu suất của các mô hình học sâu dựa trên CNN được cho là vượt trội so với hiệu suất của các

mô hình dự đoán dựa trên máy học có trong nghiên cứu bao gồm (i) Multivariate Regression, (ii) Decision Tree, (iii) Bagging, (iv) Boosting, (v) RandomnForest, (vi) Artificial Neural Network, (vii) Support Vector Machine Điều này được giải thích bới CNN vốn làm việc tốt với dữ liệu có mối quan hệ không gian (spatial relationship) nên nó cũng có thể phù hợp với dữ liệu thời gian, dữ liệu có các quan sát sau phụ thuộc vào các quan sát trước

Sethia và Raut trong [34] sử dụng LSTM, GRU, ANN và SVM để dự đoán giá cổ phiếu cho ngày thứ 6 dựa trên dữ liệu lịch sử của năm ngày giao dịch ngay trước đó và do đó cung cấp chiến lược mua / bán hàng ngày cho chỉ số Standard’s and Poor’s 500 Dữ liệu từ 2000 đến 2017, bao gồm giá trị mở cửa của chỉ số, giá trị cao của chỉ số, giá trị thấp của chỉ số, giá đóng cửa của chỉ số, khối lượng cổ phiếu được giao dịch trên một ngày nhất định và một số chỉ báo kĩ thuật (Technical Indicators) Dữ liệu huấn luyện nằm trong khoảng từ ngày 7 tháng 3 năm 2000 đến ngày 1 tháng 5 năm 2012 và có 3053 bản ghi Dữ liệu xác thực (validation set) có

từ ngày 2 tháng 5 năm 2012 đến ngày 11 tháng 6 năm 2014 và có 525 bản ghi Dữ liệu kiểm tra chứa các bản ghi từ ngày 12 tháng 6 năm 2014 đến ngày 23 tháng 10 năm 2017 và có 847 bản ghi ICA (Independent Components Analysis) đã được sử dụng để giảm kích thước trên tập dữ liệu này Một sự so sánh hiệu suất giữa mô hình LSTM, GRU, ANN và SVM đã được thực hiện và mô hình LSTM và GRU

tỏ ra tốt hơn các mô hình còn lại Kết quả này có thể đến từ việc các tác giả đã sử dụng ICA trong tiền xử lý dữ liệu, tuy nhiên vì deep learning rất mạnh trong việc trích chọn đặc trưng nên có thề kỹ thuật này không đóng góp nhiều vào kết quả Chìa khóa có thể là cả LSTM và GRU đều là những biến thể của RNN vốn phù

Trang 27

hợp hơn với đầu vào là chuỗi thời gian so với những mô hình còn lại, kết hợp với việc lựa chọn kiến trúc phù hợp của nghiên cứu Điều này dẫn đến sự vượt trội của LSTM và GRU so với ANN và SVM cho dù với một bộ dữ liệu không quá lớn (4425 quan sát)

Althelaya và cộng sự trong [2] đã sử dụng một số biến thể của LSTM, GRU

để dự báo giá đóng cửa hàng ngày của chỉ số S & P500 dựa trên dữ liệu lịch sử của

10 ngày trước đó Cụ thể là các tác giả sử dụng các kiến trúc LSTM hai chiều (BiLSTM), GRU hai chiều (BiGRU), LSTM và GRU với 2 lớp được xếp chồng lên nhau để lần lượt tạo các thành kiến trúc S-LSTM và S-GRU Dữ liệu được lấy

từ Yahoo tài chính cho giai đoạn từ 01/01/2010 đến 30/11/2017 bao gồm năm biến đầu vào: giá đóng cửa, giá mở, giá thấp, giá cao và khối lượng giao dịch trong ngày Hiệu của các giá trị ở các bước thời gian liên tiếp được tính toán để biến đổi tín hiệu thành tín hiệu tĩnh bằng cách ổn định giá trị trung bình đồng thời giảm tính thời vụ và xu hướng Dữ liệu huấn luyện và kiểm tra được chia theo tỷ lệ 7:3 Các tác giả sau đó so sánh và đánh giá việc sử dụng bốn mô hình trên Kết quả là kiến trúc S-LSTM đã chứng tỏ hiệu năng dự báo cao nhất

Achkar và cộng sự trong [1] sử dụng LSTM và Multilayer perceptron (MLP)

để dự đoán giá cổ phiếu của FacebookTM, cổ phiếu GoogleTM và cổ phiếu BitcoinTM Dữ liệu theo ngày trong các tháng 2, 3, và 4 của năm 2012 Ngiên cứu đạt được độ chính xác trong trường hợp tốt nhất là 97% đối với thuật toán MLP và 99.5% đối với thuật toán LSTM Tuy nhiên tập dữ liệu khoảng 90 quan sát là khá nhỏ cho việc áp dụng học sâu do đó các kết luận của nghiên cứu có thể không có tính suy luận cho tổng thể Ngoài ra thay vì đánh giá hệ thống được đề xuất trên một tập dữ liệu với nhiều ngành nghề khác nhau, các tác giả đã chọn 3 cổ phiếu

nổi tiếng cùng thuộc lĩnh vực công nghệ và thông tin Có khả năng cao là các cổ

phiếu nổi tiếng này có khả năng chia sẻ một số đặc trưng ẩn phổ biến

Bao và cộng sự trong [3] trình bày một khuôn khổ học sâu mới, trong đó các phép biến đổi wavelet (WT), bộ mã tự động xếp chồng lên nhau (Stacked Autoencoder- SAE) và bộ nhớ dài-ngắn hạn(LSTM) được kết hợp để dự báo giá

Trang 28

cổ phiếu Khung học sâu bao gồm ba giai đoạn Đầu tiên, chuỗi thời gian giá cổ phiếu được WT phân tích để loại bỏ nhiễu Thứ hai, SAE được áp dụng để tạo ra các đặc trưng cấp cao để dự đoán giá cổ phiếu Thứ ba, các đặc trưng trên được đưa vào LSTM để dự báo giá đóng cửa của ngày hôm sau Sáu chỉ số thị trường bao gồm CSI 300 và Nifty 50 đại diện cho thị trường đang phát triển, Hang Seng

và Nikkei 225 đại diện cho thị trường tương đối phát triển, S & P500 và DJIA đại diện cho thị trường phát triển Khoảng thời gian lấy mẫu trong nghiên cứu là từ ngày 1 tháng 7 năm 2008 đến ngày 30 tháng 9 năm 2016 Dữ liệu gồm có các giao dịch lịch sử của mỗi chỉ số, bao gồm giá mở, cao, thấp và đóng, khối lượng giao dịch, một tập hợp bao gồm 12 chỉ báo kỹ thuật được sử dụng rộng rãi của mỗi chỉ

số và hai loại biến vĩ mô: chỉ số đô la Mỹ, và tỷ giá chào bán liên ngân hàng Nghiên cứu sử dụng dữ liệu có giá trị trong hai năm để huấn luyện các mô hình Khoảng thời gian ba tháng tiếp theo được sử dụng cho phần xác thực (validation part) Trong phần kiểm tra, nghiên cứu sử dụng 3 tháng tiếp theo Sau vòng thử nghiệm đầu tiên, chuyển tiếp cửa sổ thời gian lên 3 tháng Lặp lại cho đến khi tất

cả dữ liệu đều được thử nghiệm Kết quả cho thấy mô hình được đề xuất vượt trội hơn các mô hình WLSTM, LSTM, và RNN trong nghiên cứu về độ chính xác dự đoán Nghiên cứu cho thấy việc áp dụng các kỹ thuật thống kê với các mô hình trí tuệ nhân tạo làm tăng hiệu năng dự báo của mô hình Ngoài ra Quy trình huấn luyện-xác thực-kiểm tra cho phép tập dữ liệu luôn cập nhật theo cách loại bỏ đi những thông tin ít liên quan và bổ sung những thông tin có tương quan mạnh nhất với những giá trị quan sát trong khoảng thời gian dự báo, từ đó làm tăng hiệu năng

dự báo của mô hình Tuy nhiên, việc khử nhiễu dữ liệu đầu vào bằng WT có thể làm sai lệch mối tương quan giữa các chuỗi thời gian với nhau ảnh hưởng đến việc trích chọn đặc trưng của thuật toán

Chen và cộng sự trong [10] sử dụng GRU để dự đoán sự biến động cổ phiếu trên thị trường chứng khoán Trung Quốc Các tác giả đã sử dụng thông tin của chỉ

số HS300 10 ngày trước đó để dự đoán giá đóng cửa của nó trong ngày giao dịch tiếp theo Dữ liệu bao gồm dữ liệu về giá, khối lượng giao dịch, và các thông tin

Trang 29

đăng trên mạng xã hội Sina Weibo từ ngày 01/01/2015 đến ngày 08/03/2017 Các tác giả đã thực nghiệm 3 phương pháp Phương pháp 1 sử dụng giá trị của biến phụ thuộc ở những ngày trước để dự báo cho giá trị của nó trong ngày tiếp theo, phương pháp 2 sử dụng các đặc trưng liên quan đến giá và khối lượng giao dịch của những ngày trước để dự đoán giá trị của biến phụ thuộc ở ngày tiếp theo, và phương pháp 3, sử dụng các dặc trưng liên quan đến giá và khối lượng giao dịch, kết hợp với thông tin đáng trên mạng xã hội của những ngày trước để dự đoán giá trị của biến phụ thuộc ở ngày tiếp theo Kết quả cho thấy phương pháp 3 đạt được hiệu năng tốt nhất Các phương pháp này khi được so sánh với hồi quy tuyến tính (LR) và hồi quy vectơ hỗ trợ (SVR) cũng cho thấy là có hiệu năng dự báo tốt hơn Chìa khóa có thể là việc GRU đều là biến thể của RNN vốn phù hợp hơn với đầu vào là chuỗi thời gian so với những mô hình còn lại Việc sử dụng một tập hợp gồm nhiều đặc trưng phong phú chứa thông tin hữu ích làm dữ liệu đầu vào góp phần tăng hiệu năng dự báo của mô hình Tuy nhiên kích thước của tập dữ liệu trong nghiên cứu là không lớn nên có thể ảnh hưởng đến độ chính xác của dự báo Sonkiya và cộng sự trong [35] sử dụng GAN kết hợp với BERT để dự đoán giá đóng cửa ở ngày thứ 4 của cổ phiếu Apple Inc dựa theo dữ liệu lịch sử của 3 ngày trước Đầu tiên, phân tích tình cảm của tin tức và các tiêu đề của các bài báo

có liên quan đến công ty Apple Inc được thực hiện bằng cách sử dụng BERT Sau

đó, GAN dự đoán giá cổ phiếu của Apple Inc bằng cách sử dụng các chỉ báo kỹ thuật, chỉ số chứng khoán của các quốc gia khác nhau, và giá lịch sử của một số hàng hóa cùng với điểm tâm lý Dữ liệu lịch sử của APPLE Inc được lấy từ yahoo Finance từ tháng 7 năm 2010 đến giữa tháng 7 năm 2020 Nghiên cứu sử dụng 70 phần trăm dữ liệu để huấn luyện và 30 phần trăm còn lại để kiểm tra Mô hình đề xuất cho độ chính xác dự báo vượt trội hơn các mô hình dự báo chuỗi thời gian truyền thống như GAN, GRU, LSTM và ARIMA Điều này có thể được lý giải bởi mô hình đề xuất đã sử dụng một tập hợp gồm nhiều đặc trưng phong phú chứa thông tin hữu ích để dự đoán chứng khoán Tuy nhiên việc các tác giả sử dụng biến đổi Fourier để khử nhiễu chuỗi mục tiêu có thể và làm sai lệch mối tương quan

Trang 30

giữa các chuỗi thời gian với nhau có thể ảnh hưởng đến việc trích chọn các đặc trưng của các thuật toán

Zhou và cộng sự trong [45] đã sử dụng GAN với LSTM làm mạng sinh (the generator) và CNN làm mạng phân biệt (the discriminator) để dự đoán giá đóng cửa của 42 cổ phiếu cấu thành nên chỉ số CSI 300 của Sở giao dịch chứng khoán Thượng Hải và Sở giao dịch chứng khoán Thâm Quyến Dữ liệu gồm 13 chỉ báo

kỹ thuật bao gồm các đặc trưng liên quan đến giá và các chỉ số kĩ thuật (Technical Indicators) trong khoảng thời gian từ ngày 01/01/2016 đến ngày 31/12/2016 Các tác giả sử dụng dữ liệu lịch sử của 242 phút để dự đoán giá của cổ phiếu ở phút

thứ 243 Nghiên cứu chọn M ngày đầu tiên làm tập huấn luyện và N ngày tiếp theo

đóng vai trò tập kiểm tra Sau vòng thử nghiệm đầu tiên, chuyển tiếp cửa sổ thời

gian trong N ngày, nghĩa là chọn ngày thứ (N + 1) đến ngày thứ (M +N) làm tập huấn luyện và (M+N+1) ngày thứ đến ngày thứ (M+2N) là tập kiểm tra Lặp lại

cho đến khi tất cả dữ liệu đã được thử nghiệm Nói cách khác, N có thể được coi

là chu kỳ cập nhật mô hình và M là kích thước của dữ liệu huấn luyện tương ứng

Các giá trị thử nghiệm của N lần lượt là 5, 10 và 20 Các giá trị thử nghiệm của M

lần lượt là 10, 20, và 60 Các tác giả đã so sánh GAN với các mô hình LSTM, ANN, SVM và ARIMA, kết quả cho thấy GAN hoạt động tốt hơn các mô hình còn lại Kết quả trên dữ liệu kiểm tra cũng cho thấy rằng chu kỳ cập nhật mô hình nhỏ hơn có thể đạt được hiệu suất dự đoán tốt hơn Quy trình huấn luyện-kiểm tra cho phép tập dữ liệu luôn cập nhật theo cách loại bỏ đi những thông tin ít liên quan và

bổ sung những thông tin có tương quan mạnh nhất với những giá trị quan sát trong khoảng thời gian dự báo, từ đó làm tăng hiệu năng dự báo của mô hình

Zhang và cộng sự trong [42] đề xuất một kiến trúc mới của GAN với layerperceptron (MLP) làm mạng phân biệt (the discriminator) và LSTM làm mạng sinh (the generator) để dự báo giá đóng cửa của cổ phiếu dựa trên dữ liệu lịch sử của 5 ngày trước Nghiên cứu sử dụng dữ liệu hàng ngày bao gồm giá mở, giá cao nhất, giá thấp nhất, giá đóng cửa, doanh thu, tỷ lệ doanh thu, MA(5) của chỉ số S&P 500 và một số cổ phiếu trong nhiều ngày giao dịch để dự đoán giá đóng

Trang 31

Multi-cửa hàng ngày Bộ dữ liệu bao gồm dữ liệu của ngày giao dịch trong vòng 20 năm với gần 5000 mảnh dữ liệu trong mỗi cổ phiếu Nghiên cứu chọn 90%-95% dữ liệu chứng khoán đầu tiên để huấn luyện và 5%-10% còn lại để kiểm tra Đặc biệt, nghiên cứu kết hợp lỗi bình phương trung bình (MSE) với hàm tổn thất của trình tạo của GAN cổ điển để tạo thành hàm tổn thất của mạng sinh Các tác giả chọn Hồi quy vectơ hỗ trợ (SVR), ANN và LSTM làm cơ sở để so sánh với mô hình đề xuất Kết quả thực nghiệm cho thấy mô hình GAN được đề xuất có thể có được hiệu suất dự báo tốt hơn so với các mô hình còn lại Tuy nhiên chỉ một chỉ báo kỹ thuật là MA(5) thì chưa phải là đầy đủ trong phân tích kỹ thuật, nhiều chỉ báo kỹ thuật khác nên được đưa vào mô hình

Những điểm yếu chính được tìm thấy trong các công trình liên quan là: (1)

các đánh giá được thực hiện trên các chỉ số, do đó cùng một mô hình có thể không

có cùng hiệu năng nếu áp dụng trên một cổ phiếu cụ thể; (2) phần lớn nghiên cứu không đưa các chỉ báo kỹ thuật (Technical Indicators) vào phân tích trong khi chúng cũng thường được nhà đầu tư tham khảo để ra quyết định mua/bán cổ phiều,

do đó các chỉ số này cũng cần được đưa vào mô hình bên cạnh các đặc trưng liên quan đến giá và khối lượng giao dịch; (3) sự lựa chọn window size trong các nghiên cứu hoặc chưa được đề cập hoặc chưa có một cơ sở thống kê hỗ trợ; (4) việc khử nhiễu dữ liệu có thể làm sai lệch mối tương quan giữa các chuỗi thời gian với nhau có thể ảnh hưởng đến tính chính xác của việc chọn đặc trưng hoặc giảm chiều dữ liệu

Trang 32

Một ô nhớ bao gồm cổng đầu vào i t, cổng đầu ra o t và cổng quên f t Các

cổng được sử dụng để kiểm soát sự tương tác giữa chính nó và các ô nhớ lân cận

Tại thời điểm t, đầu vào là x t, đầu ra là h t và thông tin lịch sử mà ô nhớ ghi nhớ là c t Cổng đầu vào kiểm soát phần thông tin tại thời điểm t; cổng quên chọn ghi nhớ hoặc quên thông tin lịch sử tại thời điểm t; và cổng đầu ra quyết định lượng

thông tin sẽ được chuyển đến lớp tiếp theo Cấu trúc của khối ô nhớ được thể hiện

trên hình 2.1 Do ô nhớ có đặc tính tuần tự nên ct chứa tất cả thông tin đầu vào từ thời điểm 0 đến thời điểm t, biểu thị trạng thái tại thời điểm t

Cổng quên ft được xác định bởi đầu vào xt và đầu ra h t-1 của lần trước, sau đó được bao bọc (wrapped) trong hàm sigmoid Xem (2.1) để biết công thức Giá trị của cổng quên trả về từ 0 đến 1 Khi ft bằng 0, điều đó có nghĩa là giá trị trước đó

bị quên trong phép tính Ngược lại, nếu nó là 1, cổng quên giữ thông tin trước đó

Với đầu vào xt và đầu ra trước đó h t-1, thông qua phép biến đổi hàm tanh,

chúng ta có thể nhận được C ttrong đó giá trị của nó nằm trong khoảng từ -1 đến

1; xem (2.2) Điều này có nghĩa là có bao nhiêu thông tin sẽ được thêm vào Ct sau khi giới thiệu đầu vào xt

Trang 33

Tương tự như cổng quên, cổng đầu vào nó quy định thông tin của đầu vào xt

và đầu ra trước đó ht-1; xem (2.3) Nếu nó là 0, thì C tcó thể được bỏ qua; ngược lại, nếu nó là 1, thì C t sẽ được tính thành Ct

Véc tơ trạng thái Ct bao gồm hai phần Phần đầu tiên là vectơ trạng thái của nút thời gian trước đó Ct-1, được điều khiển bởi cổng quên Và phần thứ hai là C t , được xác định bằng cách sử dụng bao nhiêu cổng đầu vào; xem (2.4)

Cổng đầu ra ot tương tự như cổng đầu vào và cổng quên; xem (2.5) Kích thước của đầu ra ot quyết định bao nhiêu khả năng vectơ trạng thái Ct sẽ được xuất

Cuối cùng là lớp đầu ra với 1 nơ-ron và hàm kích hoạt là hàm tuyến tính được

sử dụng để ước tính giá đóng cửa của ngày tiếp theo

Đầu ra của mô hình được xác định như sau:

Trang 34

X = x x là đầu vào Wh và bh biểu thị trọng số và độ lệch trong lớp được kết

nối đầy đủ cuối cùng

2.2 Bộ nhớ dài-ngắn hạn hai chiều

Chìa khóa cho bộ nhớ dài hạn của LSTM là tất cả thông tin trước mỗi ô có thể được quên, cập nhật và lưu trữ trong một lớp ẩn và xuất sang ô tiếp theo Mô hình BiLSTM có hai mạng LSTM với thời gian đối lập xử lý thông tin trình tự theo hướng phía trước và phía sau và sau đó cung cấp thông tin trở lại lớp đầu ra

hiện tại Trạng thái ẩn của BiLSTM trong thời gian t bao gồm chuyển tiếp và đảo

ngược, như được hiển thị bên dưới:

Trang 35

Nút Hồi tiếp có Cổng (GRU) rất giống với bộ nhớ dài ngắn hạn (LSTM)

Sự khác biệt chính là cách áp dụng các cổng Đối với GRU, chỉ có hai cổng thay

vì ba, đó là cổng đặt lại (reset gate – rt) và cổng cập nhật (update gate - zt) Hình

2.3 minh họa quy trình của ô nhớ GRU Reset gate quyết định cách kết hợp đầu vào mới và bộ nhớ trước đó, đồng thời kiểm soát mức độ bỏ qua bộ nhớ trước đó Giá trị của cổng thiết lập lại (reset gate) càng nhỏ, thì bộ nhớ trước đó sẽ bị bỏ qua nhiều hơn Cổng cập nhật xác định lượng bộ nhớ trước đó sẽ được giữ Giá trị của cổng cập nhật càng nhỏ thì thông tin trước đó sẽ càng được mang nhiều hơn Khi chúng ta đặt tất cả các cổng đặt lại thành 1 và cổng cập nhật thành 0, thì chúng ta quay lại mô hình mạng nơ-ron tái diễn thuần túy [30]

Hình 2.3: Ô nhớ của GRU

Trang 36

h = −z h− + z h

X = x x là đầu vào Wh và bh biểu thị trọng số và độ lệch trong lớp được kết

nối đầy đủ cuối cùng

2.4 Nút Hồi tiếp có Cổng hai chiều

Mô hình Nút Hồi tiếp có Cổng hai chiều (BiGRU) có hai mạng GRU với thời gian đối lập xử lý thông tin trình tự theo hướng phía trước và phía sau và sau

đó cung cấp thông tin trở lại lớp đầu ra hiện tại Trạng thái ẩn của BiGRU trong

thời gian t bao gồm chuyển tiếp và đảo ngược, như được hiển thị bên dưới:

 

 1

1

( , ), 1, (2.20) ( , ), ,1 (2.21) , (2.22)

=  

Trang 37

trong đó g (·) biểu thị đầu ra của BiGRU và ht là đầu ra của giải thuật đó với

 1 , , t

X = x x là đầu vào Wh và b h biểu thị trọng số và độ lệch trong lớp được kết

nối đầy đủ cuối cùng [43]

Ứng với mỗi giải thuật kể trên, luận văn sẽ sử dụng từ một đến hai lớp hàm

ẩn tùy thuộc vào đặc điểm của từng bộ dữ liệu của từng cổ phiếu Số lượng lớp hàm ẩn sẽ được xác định thông qua thử nghiệm

Liên quan đến số lượng nơ-ron trong mỗi lớp hàm ẩn, luận văn theo ý tưởng của Bengio [5] theo đó thì sử dụng cùng một số lượng tế bào thần kinh cho tất cả các lớp hàm ẩn nói chung hoạt động tốt hơn hoặc bằng khi sử dụng kích thước giảm dần (giống kim tự tháp) hoặc tăng kích thước (kim tự tháp lộn ngược), do đó

số lượng nơ-ron được chọn là bằng nhau trong các lớp hàm ẩn Số lượng nơ-ron

sẽ được xác định thông qua thử nghiệm

Dropout tùy vào đặc điểm dữ liệu của từng loại cổ phiếu mà kỹ thuật này có

thể được sử dụng sau mỗi lớp hàm ẩn Đây là một phương pháp tinh chỉnh có thể giảm thiểu hiện tượng mô hình quá khớp với dữ liệu huấn luyện (overfitting) một cách hiệu quả và cải thiện hiệu năng dự báo của mô hình Việc có hay không sử dụng kỹ thuật này cũng như nếu được sử dụng thì tỷ lệ dropout bằng bao nhiêu sẽ được xác định thông qua thử nghiệm

Luận văn sử dụng optimizer là stochastic gradient descent (SGD) để đào tạo các mô hình bao gồm LSTM, BiLSTM, GRU, và BiGRU với kỳ vọng là có thể đạt được hiệu năng cao hơn và đào tạo nhanh hơn cho các bài toán liên quan

Trong đó là vecto có các thành phần là các trọng số cần phải ước lượng, 

là tốc độ học (learning rate), x y i, ilần lượt là mỗi mảnh dữ liệu huấn luyện và nhãn

tương ứng, n là số lượng mẫu dữ liệu trong một lần huấn luyện (batch size), và

Trang 38

Tuy nhiên, một trong những vấn đề lớn mà SGD gặp phải là, khi hàm mục tiêu không lồi hoặc giả lồi, nó gần như chắc chắn hội tụ đến cực tiểu cục bộ Để khắc phục các hạn chế trên của thuật toán, luận văn dùng SGD với momentum Công thức của momentum [37]:

1

( ) (2.26) (2.27)

Momentum có thể cải thiện tốc độ của quá trình tối ưu hóa cùng với tốc độ

học, cải thiện khả năng phát hiện ra một bộ trọng số tốt hơn trong ít epoch huấn

luyện hơn Trong thực tế, cần phải giảm dần tốc độ học theo thời gian Điều này là

do SGD giới thiệu một nguồn nhiễu (lấy mẫu ngẫu nhiên của m bản ghi huấn luyện)

không biến mất ngay cả khi chúng ta đạt đến mức tối thiểu [9] Do đó luận văn sử

dụng tốc độ học giảm dần, cụ thể là giảm dần tốc độ học dựa trên số lượng epoch

Công thức tính tốc độ học giảm dần [8]:

*1/ (1 * # ) (2.28)/ (2.29)

learningrate learningrate daycay epoch

decay learningrate epoch

=

Luận văn chọn epoch = 200 Giá trị ban đầu của tốc độ học sẽ được xác định

thông qua thử nghiệm

Thuật toán SGD với momentum giải quyết được vấn đề: Gradient Descent không tiến được tới điểm cực tiểu toàn cục (global minimum) mà chỉ dừng lại ở cực tiểu cục bộ (local minimum) Tuy nhiên khi tới gần đích, nó vẫn mất khá nhiều thời gian giao động qua lại trước khi dừng hẳn, điều này được giải thích vì sự hiện diện của momentum [39]

Để khắc phục nhược điểm trên, tùy vào đặc điểm của dữ liệu của từng loại cổ phiếu, Nesterov’s Accelerated Gradient (NAG) có thể được sử dụng với hi vọng rằng nó sẽ giúp thuật toán trở nên thông minh hơn biết nó sẽ đi đâu và chạy chậm

Trang 39

lại khi gần đến điểm cực tiểu toàn cục (global minimum) Việc có hay không sử dụng NAG sẽ được xác định thông qua thử nghiệm

Công thức tính NAG [37]:

1

( ) (2.30) (2.31)

NAG thay đổi v theo cách nhanh hơn và có trách nhiệm hơn, cho phép nó

hoạt động ổn định hơn momentum trong nhiều tình huống, đặc biệt là đối với các

giá trị µ cao hơn

EarlyStopping được sử dụng để giúp dừng quá trình huấn luyện khi không thấy có sự cải thiện về giá trị hàm mất mát sau một số epoch

tiếp theo Thông thường, đầu ra của mỗi bộ lọc được chuyển qua một hàm kích

Trang 40

hoạt trước khi vào lớp tiếp theo Relu (Phương trình (2.33)) là một hàm kích hoạt

phi tuyến được luận văn sử dụng

Luận văn sẽ sử dụng một mô hình có từ một đến hai lớp chập với số lượng

bộ lọc sẽ được xác định qua thử nghiệm Kích thước hạt nhân (kernel size) được chọn là 1

2.5.2 Lớp gộp

Lớp gộp có trách nhiệm lấy mẫu con dữ liệu Hoạt động này, không chỉ làm giảm chi phí tính toán của quá trình học tập mà còn là một cách để xử lý hiện tượng

Tiêu đề	Nghiên cứu về Deep Learning và Ứng dụng trong dự báo giá cổ phiếu chứng khoán
Tác giả	Hoàng Văn Hải
Người hướng dẫn	TS. Đặng Thị Thu Hiền
Trường học	Đại học Quốc gia Hà Nội
Chuyên ngành	Khoa học Dữ liệu
Thể loại	Luận văn Thạc sĩ Khoa học
Năm xuất bản	2022
Thành phố	Hà Nội

Định dạng
Số trang	124
Dung lượng	2,44 MB