1. Trang chủ
  2. » Luận Văn - Báo Cáo

Khóa luận tốt nghiệp Công nghệ thông tin: Phân tích quan hệ giữa tỷ suất sinh lợi và rủi ro chứng khoán: Ứng dụng Machine Learning

70 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Phân tích quan hệ giữa tỷ suất sinh lợi và rủi ro chứng khoán: Ứng dụng Machine Learning
Tác giả Bùi Thành Khoa, Đinh Trường Sơn
Người hướng dẫn Phạm Thế Sơn
Trường học Đại học Quốc gia TP. Hồ Chí Minh
Chuyên ngành Công nghệ thông tin
Thể loại Khóa luận tốt nghiệp
Năm xuất bản 2022
Thành phố TP. Hồ Chí Minh
Định dạng
Số trang 70
Dung lượng 19,02 MB

Nội dung

Trong giai đoạn 2, nghiên cứu đã sử dụng các siêu tham số tối ưu thu được trong giai đoạn 1 để thiết lập bốn mô hình dự báo sử dụng bốn thuật toán khác nhau: SVR, RR, LR và OLS Bình phươ

Trang 1

ĐẠI HỌC QUỐC GIA TP HÒ CHÍ MINHTRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TINKHOA KHOA HỌC VÀ KỸ THUẬT THÔNG TIN

BÙI THÀNH KHOA - ĐINH TRƯỜNG SON

MACHINE LEARNING

Analyzing the relationship between the rate of return and risk of security:

A machine learning approach

CU NHAN NGANH CONG NGHE THONG TIN

TP.HO CHÍ MINH - 2022

Trang 2

ĐẠI HỌC QUỐC GIA TP HÒ CHÍ MINHTRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TINKHOA KHOA HỌC VÀ KỸ THUẬT THÔNG TIN

BÙI THÀNH KHOA - ĐINH TRUONG SON

KHÓA LUẬN TÓT NGHIỆP

PHAN TÍCH QUAN HỆ GIỮA TY SUÁT SINH LỢI VÀ RỦI RO CHỨNG KHOÁN: ỨNG DỤNG

MACHINE LEARNING

Analyzing the relationship between the rate of return and risk of security:

A machine learning approach

CU NHAN NGANH CONG NGHE THONG TIN

GIANG VIEN HUONG DAN

PHAM THE SON

TP.HO CHÍ MINH — 2022

Trang 3

DANH SÁCH HỘI ĐÒNG BẢO VỆ KHÓA LUẬN

Hội đồng chấm khóa luận tốt nghiệp, thành lập theo Quyết định số 265/QD-DHCNTT

ngày 25 tháng 4 năm 2022 của Hiệu trưởng Trường Đại học Công nghệ Thông tin.

1 TS Đỗ Trọng Hợp - Chủ tịch.

2 ThS Tạ Thu Thủy - Thư ký.

3 ThS Nguyễn Văn Kiệt - Ủy viên

Trang 4

LOI CAM ON.

TOM TAT KET QUA

CHƯƠNG 1 TONG QUAN NGHIÊN CỨU

1.1 Ly do chọn dé tài

1.2 Đối tượng nghiên cứu

1.3 Mục tiêu nghiên cứu.

1.4 Phương pháp nghiên cứu.

2.2 Học máy trong tài chính - - ¿5+ St 112121 E1 1012121111 t1 Hy 8

2.3 Máy vectơ hỗ trợ (SVM — Support Vector Machine) cssssscsssseseessseeseesnees 10

2.4 Mô hình Fama — French 5 nhân t6 ccsssccsssssssesssssseescssseescssssecsessseeseessseesesssees 13

CHƯƠNG 3 PHƯƠNG PHÁP NGHIÊN CỨU -ccccercee 18

BAL Tht tan occ ad 18

3.1.1 Hồi quy bình phương nhỏ nhất (OLS) - : -¿£©252cz2225sce2 183.1.2 Hổi quy Ridge ccccc22 222 treo 20

3.1.3 Hồi quy LassO 222cc2 2222222112221 co 21

3.1.4 Hồi quy vector hỗ trợ (SVR - Support Vector Regression) 2

ii

Trang 5

3.2 Đề xuất mô hình dự báo -.-2-:++£222E22v2++ttE2E2EEEEErrtEEEEkkrrrrrrrrrrrrrree 243.3 Phần mềm -222222++22222222222222222131112 222222111112 ccctrrrrrree 25

3.4 Mô tả bộ dữ liệu c::-22222222++t222222211222222221111 2212111 cccctrrrrree 26

3.5 Phương pháp thực hiện - ¿+ - + SE TH HH1 Hàn 28

3.6 Đánh giá hiệu suất -22222222+222222121112122222111111 221111 ecc.rrrrrrree 29CHƯƠNG 4 KET QUA NGHIÊN CỨU -5c5ccccccccscccccveec.c v3Ö

4.1 Thống kê mô tả -22¿222+SzttEEEEEerrtrkterrrrrrrrrrrrrrrrrrrrrrrerr 3Ô)

4.2 Tương quan giữa các biến :+22+2++2222++E222E11 2221111222112 324.3 Kết quả dự báo ở tập dữ liệu (1) c¿¿-5222222+2e+tttEEEEEESeerrrrrrrrkkkeercee 33

4.4 Kết qua dự báo ở tập dữ liệu (2) -cccccccccceveereessrrrrrercecsrrrrrreere 34

4.5 Kết quả kiểm định F-Test -22225ccccc2cSccvvverrrrrrrrrrrtrerrrrrrrrrrvrcere Ÿf7

4.6 Kiểm tra sự thay đổi RMSE dữ liệu theo thời gian -+ 37CHƯƠNG 5 KET LUẬN .2cc222222222 2222222 CEEEErrrerrrrrrrrer 39

5.1 Thảo luận kết quả :-¿ 52225c2cccetcEEvrvrertrtrrrrtrrerrrrrrrrrrrerrrerrrv.20)

5.2 Kếtluận -222cc222 2222222222221 EE rrrrrrrrrrev 40

5.3 Hạn chế và hướng phát triỂn -¿-2:++22++++t2E++++ttErxvrtttrrxrrrrrrrsree 41TÀI LIEU THAM KHẢO 222-22222£222+22922E2229E2EE122222311222223122222112 22112 42PHU LUC 1 LẬP TRINH CHO CHUOI THỜI GIAN HUAN LUYỆN 5 NĂM (60

THÁNG) 46PHU LUC 2 LẬP TRINH CHO CHUOI THỜI GIAN HUAN LUYỆN 3,4, 5 NAM(36, 48, 60 THANG) ooesccscssssecsssssssssssssssecssssecscssssscssssssecsssssussssssssssssiuseesssusecessseeecesssecees 51PHU LUC 3 BAI BAO LIEN QUAN wuveescssssssssssssseccccsssssisecsscessssunesscecssssnneeseeessssniuess 59

11

Trang 6

DANH MỤC HÌNH

Hình 3.1 Mô hình thuật toán SM 6-52 tk k2 HH ưn 23

Hình 3.2 Mô hình dự báo - - ¿c5 + té HH H2 12 1 1 rrgườn 25

Hình 3.3 Sơ đồ rolling windOW -. -+¿¿+2222+2E2221122221122212112 2.111 re 28

Hình 4.1 Phân phối tỷ suất sinh lợi các danh mục -:¿++2s+ez++ 31

Hình 4.2 Tương quan giữa các danh mục - - + +5 ++k£x+EeEkrkeketekrkrkrkeree 33

Hình 4.3 Giá tri du báo so với giá trị thực tế

iv

Trang 7

DANH MUC BANG

Bảng mô tả biến 2 -2222222E2222222112922211122211112222112122111 E221 re 26

Các tham số tiềm năng của các mô hình - ¿ ¿+22 28Bảng thống kê mô tả các biến - 22-2222 2222E22E22E12EEEEEErrrrrrrrrrrr 30

Sai số RMSE tương ứng với các tham số của mô hình LR, RR và SVR 35Sai số RMSE của mô hình SVR, RR, LR và OLS -c¿ 36

Kết quả One-Way ANOVA

Tổng kết RMSE theo các giai đoạn 3, 4, 5 năm

Trang 8

TU VIET TAT

STT Viết tắt Giải thích

1 AI Artificial intelligence - Trí tuệ nhân tạo

2 AMEX American Express Company - công ty dịch vụ tài chính

đa quôc gia của Mỹ

3 CAPM Capital Asset Pricing Model - Mô hình định giá tài sản

4 LR Lasso Regression - Hồi quy Lasso

5 MAPE Mean Absolute Percent Error - Phân trăm sai số tuyệt đôi

trung bình

6 NASDAQ National Association of Securities Dealers Automated

Quotation System - san giao dịch chứng khoán Hoa Kỳ

The New York Stock Exchange - Thi trường chứng

7 NYSE khoán New York

Ordinary Least Square Regression - Hồi quy tuyến tính

8 OLS ý ke ag

bình phương tôi thiêu

9 RMSE Foot Ngư Square Error - Căn bậc 2 của sai sô trung

bình bình phương

10 RR Ridge Regression - Hồi quy Ridge

11 SVM Support Vector Machine - Thuật toán máy vecto hỗ trợ

J2 SVR Support Vector Regression - Thuật toán hôi quy vectơ hỗ

trợ

vi

Trang 9

LỜI CAM ĐOAN

Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi và được sự hướng

dẫn khoa học của ThS Phạm Thế Sơn Một phần nội dung nghiên cứu, kết quả trong đề

tài này là trung thực Những số liệu trong các bảng biểu phục vụ cho việc phân tích,

nhận xét, đánh giá được chính tác giả thu thập từ các nguồn khác nhau và cũng ghi rõtrong phan tài liệu tham khảo

Nếu phát hiện có bất kỳ sự gian lận nào tôi xin hoàn toàn chịu trách nhiệm về nộidung khóa luận của mình Trường Đại Học Công Nghệ Thông Tin TP Hồ Chí Minh

không liên quan đến những vi phạm tác quyền, bản quyền do tôi gây ra trong quá trình

thực hiện (nếu có)

Nhóm tác giả

Bùi Thành Khoa - Dinh Trường Sơn

vii

Trang 10

LOI CAM ON

Trước hết với tình cảm chân thành va lòng biết ơn sâu sắc, tôi xin gửi lời cảm ơnđến quý Thay/Cé trong Khoa Khoa học và Kỹ thuật Thông tin thuộc Trường Dai HọcCông Nghệ Thông Tin TP Hồ Chí Minh đã tận tình giúp đỡ tôi trong quá trình học tập

và nghiên cứu dé hoàn thành Khóa luận Tốt nghiệp

Đặc biệt, tôi xin bày tỏ lòng biết ơn sâu sắc đến thầy Phạm Thế Sơn đã dành

nhiều thời gian tâm huyết, trực tiếp hướng dẫn tận tình, chỉ bảo và tạo điều kiện thuậnlợi cho tôi trong suốt quá trình thực hiện nghiên cứu dé tài và hoàn chỉnh Khóa luận Tốt

nghiệp ngành Công nghệ thông tin.

Cuối cùng, tôi xin chân thành cảm ơn gia đình và bạn bè đã động viên, khích lệ,

sẻ chia, giúp đỡ và đồng hành cùng tôi trong cuộc sống cũng như trong quá trình học

tập, nghiên cứu.

Nhóm tác giả

Bùi Thành Khoa — Dinh Trường Sơn

viii

Trang 11

TOM TAT KET QUA

Phân tích quan hệ giữa tỷ suất sinh lợi và rủi ro chứng khoán là một trong nhữngvấn đề quan trọng trong phân tích tài chính Mục tiêu của nghiên cứu này nhằm áp dụng

các thuật toán hồi quy vectơ hỗ trợ (SVR), hồi quy Ridge (RR) và hồi quy Lasso (LR)

cho mô hình Fama-French 5 nhân tố bao gồm thị trường (Mkt), quy mô (SML), giá trị(HML), khả năng sinh lời (RMW) và đầu tư (CMA) để giải thích những biến động về

lợi nhuận kỳ vọng của các danh mục đầu tư đa dang

Nghiên cứu đã xem xét thị trường chứng khoán ở Mỹ từ tháng 7 năm 1963 đến

tháng 9 năm 2021 Các cỗ phiếu được nhóm thành mười danh mục đầu tư theo ngành

và được tách thành hai giai đoạn Trong giai đoạn 1, nghiên cứu nay đã lựa chọn các

siêu tham số tối ưu cho các thuật toán SVR, RR và LR Trong giai đoạn 2, nghiên cứu

đã sử dụng các siêu tham số tối ưu thu được trong giai đoạn 1 để thiết lập bốn mô hình

dự báo sử dụng bốn thuật toán khác nhau: SVR, RR, LR và OLS (Bình phương tối

thiểu) Phương pháp tiếp cận cửa số cuón (rolling window) được sử dụng dé tạo dự báo

Dựa trên thang đo sai số trung bình bình phương (RMSE), kết quả chỉ ra rằng

thuật toán hồi quy Lasso có sai sé dự đoán nhỏ nhất; tuy nhiên, sự khác biệt này không

có ý nghĩa thống kê qua F-test Bên cạnh đó, trong quá trình thực hiện khóa luận tốt

nghiệp, chúng tôi đã công bó kết quả của dé tài trên tap chí quốc tế (Journal of System

and Management Sciences) thuộc danh mục SCOPUS được xếp hạng Q3

ix

Trang 12

CHUONG 1 TONG QUAN NGHIÊN CUU

Tóm tắt Trong chương 1, chúng tôi trình bày lý do chọn dé tài nghiên cứu,

mô tả đối tượng nghiên cứu, đặt ra mục tiêu cần đạt được trong nghiên

cứu, xác định phương pháp nghiên cứu, giới hạn phạm vi nghiên cứu, các

ý nghĩa của nghiên cứu Cuối cùng, trình bày bố cục của khóa luận tốt

nghiệp.

1.1 Ly do chọn đề tài

Học máy là một lĩnh vực của trí tuệ nhân tạo và được ứng dụng nhiều trong ngành

khoa học dữ liệu Thuật ngữ "học máy" đề cập đến lĩnh vực nghiên cứu tập trung vàoviệc xây dựng các mô hình dé đưa ra dự báo Học máy là quá trình tạo ra thông tin từ

dữ liệu, sau đó thông tin được sử dụng để dự đoán và tạo ra kiến thức, làm giảm sự

không chắc chắn vì nó chỉ ra cách giải quyết các van dé cụ thể Ứng dụng của học máyđặc biệt hữu ích trong việc giải quyết các tác vụ mà giải pháp phân tích không thé địnhhướng rõ ràng, chang hạn như xử lý hình ảnh và giọng nói, nhận dạng mẫu hoặc các tác

vụ phân loại phức tạp Thông qua học máy, nhà nghiên cứu có thé học hỏi từ đữ liệu vàcải thiện hiệu suất của công việc theo thời gian

Một trong những nhiệm vụ quan trọng nhưng khó khăn nhất sử dụng chuỗi thờigian là dự báo thị trường chứng khoán [1] Dữ liệu chuỗi thời gian về giá chứng khoán

không cố định trên thị trường tài chính rất khó xác định [2, 3] bởi vì chúng là nhữngchuỗi ngẫu nhiên có xu hướng phi tuyến tính do bị ảnh hưởng bởi nền kinh tế chung,đặc điểm của các ngành, chính trị và thậm chí là tâm lý của các nhà đầu tư [1 4] Gia

thuyết thị trường hiệu quả (Efficient Market Hypothesis) cho rằng giá của chứng khoán

là một bước đi ngau nhiên (random walk), do đó khó có thé đoán trước được [5, 6]; mặc

dù việc nghiên cứu các mô hình dự báo tỷ suất sinh lợi vẫn đang thu hút rất nhiều sự

quan tâm từ giới học thuật và thực nghiệm [7] Nghiên cứu của Kumar và Thenmozhi

[8], Atsalakis và Valavanis [9], Malkiel [10] đã nêu ra bằng chứng trái ngược nhau về

tính hiệu quả của thị trường tài chính Do đó, một mô hình dự đoán có khả năng tạo ra

lợi nhuận vượt trội, sẽ không chỉ thể hiện bằng chứng mạnh mẽ bác bỏ với giả thuyết

1

Trang 13

thị trường hiệu quả, mà còn mang lại lợi nhuận cho các doanh nghiệp từ các hoạt động

tài chính Các nghiên cứu gần đây đã đề xuất các mô hình nhằm tăng hiệu quả dự báo

dựa trên dữ liệu lịch sử Những phương pháp phổ biến được sử dụng đề dự báo kết quả

như chỉ báo trung bình động, mô hình tự hồi quy, phân tích khác biệt và phân tích tương

quan [8, II] Gần đây hơn, một xu thế mới được tập trung nghiên cứu trong việc dựđoán chuỗi thời gian là học máy, nhằm xử lý dữ liệu ngẫu nhiên va phi tuyến tính [1]

Đối với phương pháp hồi quy và phân loại, thuật toán SVM (Support Vector

Machine) đã trở nên nổi bật và được coi là một công cụ hiện đại [12] Dự báo giá cổ

phiếu bằng cách sử dụng mô hình dựa trên ánh xạ ngẫu nhiên (chaotic mapping), thuật

toán dom đóm (firefly algorithm), và hồi quy vecto hỗ trợ (Support Vector Regression,

SVR) được đề xuất bởi Kazem và cộng sự [13] SVM được sử dụng bởi Chen và cộng

sự [14] để dự đoán sự biến động của thị trường chứng khoán Mỹ Dự báo và ước lượng

trong tài chính là công cụ đầu tiên sử dụng SVM hoặc SVR, thay vì ước lượng hợp lý

cực đại [15, 16].

Một trong những hạn chế của các nghiên cứu trước đó là phương pháp phân chiatập dữ liệu Do đặc điểm của chuỗi thời gian nên các thông số của mô hình cũng thay

đổi theo từng thời điểm Do đó, phương pháp cửa số cuộn nên được sử dụng dé dự đoán

chuỗi thời gian Ngoài ra, thời lượng của dữ liệu lịch sử cũng cần được xem xét dựa trên

tính đại diện của mẫu Nghiên cứu này sử dụng phương pháp tiếp cận cửa số cuốn chiếu

với độ dài dữ liệu lịch sử là 5 năm Tại Việt Nam, SVM/SVR đã được ứng dụng rộng

rãi trong nhiều lĩnh vực của đời sống Trong lĩnh vực giáo dục, Nguyễn [17] đã sử dụng

thuật toán toán f-SVM để tôi ưu hóa hồi quy và mô hình mờ Takagi-Sugeno trong phântích dữ liệu điểm sinh viên Kiên và cộng sự [18] sử dụng kết hợp giữa giải thuật di

truyền (GA- Genetic Algirithm) va SVR dé dự báo giá chứng khoán của Việt Nam trong

lĩnh vực tài chính Cũng trong lĩnh vực tài chính, Nguyen va Pham [19] dựa vào hồi quy

học máy tối ưu dé xây dựng mô hình liên kết giữa thuật toán dom dom và bình phương

vector hỗ trợ hồi quy (Least Squares Support Vector Regression) đề xuất mô hình dựđoán giá cổ phiếu các công ty xây dựng Ngoài ra, Dũng và Phương [20] đã sử dụng

SVR dé ước lượng các dữ liệu bị thiếu bằng cách phát triển mô hình hồi quy dé tự độngtối ưu hóa các tham số Như vậy, đối với lĩnh vực tài chính, các nghiên cứu liên quan

đến SVR tại Việt Nam còn nhiều hạn chế Đồng thời, các nghiên cứu trước đây cũng

2

Trang 14

chưa chỉ được một mô hình tối ưu Do đó, nhóm nghiên cứu đã quyết định chọn đề tài

“Phân tích quan hệ giữa tỷ suất sinh lợi và rủi ro chứng khoán: ứng dụng MachineLearning” cho khóa luận tốt nghiệp

1.2 Đối tượng nghiên cứu

Nghiên cứu tập trung vào thông tin cô phiếu NYSE, AMEX và NASDAQ vào

danh mục đầu tư ngành vào cuối tháng 6 năm t dựa trên mã SIC bốn chữ số của nó tại

thời điểm đó! Sau đó, nghiên cứu sẽ tính toán lợi nhuận từ tháng 7 của t đến tháng 6

của t +1.

Ngoài ra, nghiên cứu còn ứng dụng các thuật toán học máy như hồi quy tuyến tính

bình phương tối thiểu (OLS - Ordinary Least Square Regression), hồi quy dựa theoVector hỗ trợ (SVR - Support Vector Regression), Hồi quy Ridge (RR - Ridge

Regression), và hồi quy Lasso (LR - Lasso Regression) vào mô hình lý thuyết

Fama-French 5 nhân tố

1.3 Mục tiêu nghiên cứu

Phân tích quan hệ giữa ty suất sinh lợi và rủi ro chứng khoán là van đề nghiên cứu

chính mà chúng tôi đã đặt ra trong đề tài Để hoàn thành kết quả nghiên cứu, chúng tôi

đặt ra ba mục tiêu chính sau:

- Téng hợp các cơ sở lý thuyết liên quan đến thuật toán học máy và tài chính

doanh nghiệp liên quan đến mô hình Fama-French 5 nhân tố

- Cung cấp một phương pháp lựa chọn siêu tham số đầu vào tối ưu trong thuật

toán học máy dưới khung mô hình lý thuyết Fama-French 5 nhân tố

- So sánh hiệu quả của các thuật toán học máy SVR, LR, RR, va OLS

1.4 Phương pháp nghiên cứu

Nghiên cứu này sử dụng phương pháp nghiên cứu định tính và phương pháp nghiên

cứu định lượng để đạt được các mục tiêu nghiên cứu Trong nghiên cứu định tính, chúng

tôi sử dụng phương pháp phỏng vấn sâu dé thu thập ý kiến của các chuyên gia tài chính,chuyên gia về khoa học dữ liệu nhằm thu thập ý kiến về các vấn đề nghiên cứu, cũng

1 Chúng tôi sử dụng mã Compustat SIC cho năm tài chính kết thúc vào năm dương lịch t-1 Khi mã Compustat

SIC không thu thập được, nghiên cứu sử dụng mã CRSP SIC cho tháng 6 của năm t.

3

Trang 15

như định hướng cho hàm ý quản trị trong ngành tài chính Ngoài ra, nghiên cứu còn sử

dụng phương pháp định lượng, thông qua việc áp dụng các học máy trong qua trình phân

tích dữ liệu dé đưa ra các nhận định liên quan đến lựa chọn tham số đầu vào tối ưu trong

thuật toán hoc máy đưới khung mô hình lý thuyết Fama-French 5 nhân tố Nghiên cứu

sử dụng ngôn ngữ R để xử lý dữ liệu thu thập với phần mềm R Studio

Để đánh giá kết quả sai số dự báo, chúng tôi đã chọn tiêu chí đánh giá RMSE (Root

Mean Square Error - Căn bậc 2 của sai số trung bình bình phương) Cuối cùng, nghiêncứu này sử dụng phân phối F để kiểm tra hiệu suất của các mô hình Kết quả nghiên cứu

bên cạnh so sánh giữa các thuật toán học máy với nhau thông qua độ chính xác, còn so

sánh với các nghiên cứu trước đây cùng lĩnh vực.

1.5 Pham vi nghiên cứu

Dữ liệu sẽ được thu thập từ 07/1963 đến 09/2021 bao gồm các thông tin cỗ phiếu

NYSE, AMEX và NASDAQ.

Nghiên cứu được thực hiện trên thị trường Mỹ, dữ liệu được cung cấp từ French

Data Library.

1.6 Dong góp của nghiên cứu

Về mặt lý thuyết, nghiên cứu đã chỉ ra được phương pháp lựa chọn tham số đầu

vào tối ưu trong thuật toán học máy dưới khung mô hình lý thuyết Fama-French 5 nhântố

Về thực tiễn, nghiên cứu đã chỉ ra được tính hiệu quả về mặt dự báo tỷ suất sinhlợi của các danh mục đầu tư, làm tiền đề cho các nhà đầu tư lựa chọn phương pháp dự

báo phù hợp theo phương pháp học máy.

1.7 Bố cục của đề tài

Chương 1 Tổng quan nghiên cứu Ở phan này nghiên cứu sẽ trình bày về lý do

chọn dé tài nghiên cứu Qua đó, chương | cũng trình bày về đối tượng nghiên cứu, mục

tiêu nghiên cứu, phương pháp nghiên cứu, phạm vi nghiên cứu, ý nghĩa của nghiên cứu.

Đồng thời, bố cục của nghiên cứu cũng được trình bày ở chương này

Trang 16

Chương 2 Cơ sở lý thuyết Chương này cung cấp một cái nhìn tổng quan về học

máy, và học máy trong lĩnh vực tài chính Hơn nữa, chúng tôi đề cập đến mô hình Fama

— French 5 nhân tổ như một lý thuyết nền tảng cho nghiên cứu

Chương 3 Phương pháp nghiên cứu Chương này tập trung vào phương pháp

nghiên cứu của khóa luận được sử dụng đề thiết kế và chuẩn bị các kết quả thực nghiệm

Phương pháp nghiên cứu mô tả toàn bộ phương pháp ước lượng các hệ số hồi quy dựa

trên mô hình chuỗi thời gian nhằm phát triển một mô hình hiệu quả tạo ra các dự báo

chính xác cho các bộ dữ liệu tài chính Nó bao gồm các bước thu thập dữ liệu, làm sạch

dữ liệu, quy trình học tập và đánh giá hiệu suất

Chương 4 Kết quả nghiên cứu Chương này báo cáo các kết quả thực nghiệm rút

ra từ các phương pháp luận được đề xuất Phân tích so sánh được thực hiện nhằm mục

đích chọn một mô hình cung cấp kết quả tốt nhất dựa trên thang đo RMSE Ngoài ra,việc xem xét chỉ tiết các kết quả thống kê mô tả, tương quan của tập dữ liệu được trình

bày trong chương này.

Chương 5 Kết luận Chương này tóm tắt toàn bộ công việc nghiên cứu bao gồmcác thảo luận, kết luận, những hạn chế cũng như tính khả thi của những cải tiến tiềm

năng của nghiên cứu và những dé xuất để có thé mở rộng nghiên cứu trong tương lai

Trang 17

CHƯƠNG2 CƠ SỞ LÝ THUYET

Tóm tắt Chương này trình bày tổng quan về học máy và ứng dụng họcmáy trong lĩnh vực tài chính Bên cạnh đó, chúng tôi đề cập đến mô hình

Fama — French 5 nhân tố như một lý thuyết nền tảng dé thực hiện nghiên

cứu.

2.1 Học máy

2.1.1 Định nghĩa và phân loại

Học máy là một lĩnh vực của trí tuệ nhân tạo và được ứng dụng nhiều trong phântích dữ liệu tài chính Các thuật toán học máy sử dụng dữ liệu lich sử làm đầu vào dé dự

đoán các giá trị đầu ra mới Học máy là một tập hợp con của khoa học dữ liệu cung cấp

khả năng học hỏi và cải thiện từ kinh nghiệm mà không cần được lập trình [21]

Máy học cổ điển thường được phân loại theo cách một thuật toán học để trở nên

chính xác hơn trong các dự đoán của nó Có bốn cách tiếp cận cơ bản: học có giám sát,

học không giám sát, học bán giám sát và học tăng cường Thuật toán mà các nhà khoa

học chọn phụ thuộc vào loại dữ liệu mà họ muốn dự đoán

¢ Hoc có giám sát: Trong loại học máy này, các nhà khoa học dữ liệu cung cấp các

thuật toán với dữ liệu huấn luyện được gắn nhãn và xác định các biến mà họ

muốn thuật toán đánh giá dé tìm mối tương quan Ca đầu vào và đầu ra của thuậttoán đều được chỉ định

e Hoc không giám sát: Loại học máy này liên quan đến các thuật toán đảo tạo trên

dữ liệu không được gắn nhãn Thuật toán quét qua các tập dữ liệu dé tìm kiếmcác đặc trưng có mối quan hệ với nhau Dữ liệu trong quá trình dao tạo cũng như

các dự đoán hoặc khuyến nghị được xác định trước.

¢ Hoc bán giám sát: Cách tiếp cận này là sự kết hợp giữa học có giám sát và học

không giám sát Phương pháp này sử dụng dữ liệu đã gán nhãn và chưa gán nhãn

để phát trién mô hình Chúng ta có thể xác định thuật toán chủ yếu dựa trên tập

Trang 18

đữ liệu huấn luyện được gắn nhãn, tiếp theo mô hình có thể tự động thăm dò dữliệu dé cải thiện độ chính xác.

¢ Hoc tăng cường: Các nhà khoa học dữ liệu thường sử dụng học tăng cường dé

dạy máy hoàn thành quy trình gồm nhiều bước trong đó có các quy tắc được xác

định rõ ràng Các nhà khoa học dữ liệu lập trình một thuật toán để hoàn thànhmột nhiệm vụ và cung cấp cho nó những dấu hiệu tích cực hoặc tiêu cực khi nó

tìm ra cách hoàn thành một nhiệm vụ Nhưng phần lớn, thuật toán tự quyết định

những bước cần thực hiện trong quá trình thực hiện

2.1.2 Ung dụng của học máy

Ngày nay, học máy được sử dụng trong một loạt các ứng dụng Có lẽ một trong

những ví dụ nồi tiếng nhất về hoạt động của học máy là công cụ đề xuất cung cấp nănglượng cho nguồn cấp tin tức của Facebook Facebook sử dụng công nghệ học máy đề cá

nhân hóa cách thức phân phối nguồn cấp dữ liệu của mỗi thành viên Nếu một thành

viên thường xuyên dừng lại để đọc bài đăng của một nhóm cụ thể, công cụ đề xuất sẽbắt đầu hiển thị nhiều hoạt động của nhóm đó sớm hon trong nguồn cấp dữ liệu

Ngoài các công cụ đề xuất, các ứng dụng khác cho học máy bao gồm:

© Quan trị quan hệ khách hàng Phần mềm quan trị quan hệ khách hàng có thé sử

dụng mô hình học máy đề phân tích email và nhắc nhở các thành viên trong nhómbán hàng trả lời những thông điệp quan trọng nhất trước Các hệ thống nâng cao

hơn thậm chí có thé dé xuất các phản hồi tiềm năng hiệu quả

e Tài chính: Các ngân hàng, công ty môi giới giao dich và công ty fintech sử dụng

thuật toán học máy để tự động hóa giao dịch và cung cấp dịch vụ tư vấn tài chính

cho các nhà đầu tư Bank of America đang sử dụng một chatbot, Erica, để tự động

hóa hỗ trợ khách hàng

e Cham sóc sức khỏe: học máy được sử dung dé phân tích các bộ dữ liệu chăm sóc

sức khỏe khổng lồ nhằm đầy nhanh việc khám phá các phương pháp điều trị vàchữa bệnh, cải thiện kết quả của bệnh nhân và tự động hóa các quy trình thường

quy đề ngăn ngừa sai sót của con người Vi dụ: Watson của IBM sử dụng khaithác dit liệu dé cung cấp dữ liệu bác sĩ mà họ có thé sử dụng để cá nhân hóa việc

điều trị cho bệnh nhân

Trang 19

e Phát hiện gian lận: AI dang được sử dụng trong lĩnh vực tài chính và ngân hang

dé tự động phân tích số lượng lớn các giao dịch nhằm phát hiện hoạt động gian

lận trong thời gian thực Công ty dịch vụ công nghệ Capgemini tuyên bố rằngcác hệ thống phát hiện gian lận sử dụng học máy và phân tích giảm thiểu thời

gian điều tra gian lận tới 70% và cải thiện độ chính xác của việc phát hiện lên

90%.

¢ Ban lẻ: Các nhà nghiên cứu và phát triển AI đang sử dụng thuật toán học máy dé

phát triển các công cụ dé xuất AI đưa ra các dé xuất sản phẩm có liên quan dựa

trên các lựa chọn trước đây của người mua, cũng như dữ liệu lịch sử, địa lý và

nhân khẩu học

e - Hệ thống thông tin nguồn nhân lực: Hệ thống quản trị nguồn nhân lực có thể sử

dụng mô hình học máy đề lọc thông qua các ứng dụng và xác định các ứng viêntốt nhất cho một vị trí mở

© Xe ô tô tự lái: Các thuật toán học máy thậm chí có thể giúp một chiếc xe bán tự

hành có thể nhận ra một đối tượng có thể nhìn thấy một phần và cảnh báo cho

người lái xe.

¢ Trợ lý ảo: Trợ lý thông minh thường kết hợp các mô hình học máy có giám sát

và không giám sát để diễn giải giọng nói tự nhiên và ngữ cảnh cung cấp.

2.2 Học máy trong tài chính

Học máy được áp dụng cho các van đề kinh tế có thé dược bắt nguồn từ đầu năm

1974 mặc dù chỉ là một đề cập đơn thuần trong phần tóm tắt của nghiên cứu [22] Bàibáo đầu tiên mà chúng tôi xem qua thực sự áp dụng phương pháp học máy riêng cho

một van đề kinh tế là nghiên cứu của Wang và cộng sự [23] Bài báo chấp nhận thuật

ngữ AI, và thuật ngữ chính xác đáng lẽ phải là học máy Năm 1988, White [24] đã xuấtbản một bài báo liên quan đến ứng dụng mạng thần kinh đề dự báo lợi nhuận hàng ngày

của cô phiếu IBM Kể từ đó, sự xuất hiện của học máy trong kinh tế học tăng dần đều.Ban đầu, nó được áp dụng trong dự báo chuỗi thời gian tài chính, nơi các bộ dữ liệu dài

được phổ biến rộng rãi Cần có các hệ thống học máy từ thời đó dé đào tạo hiệu quả các bộ dữ liệu mở rộng không tồn tại trong các lĩnh vực kinh tế học khác Hơn nữa, việc

-đào tạo rất tốn thời gian do khả năng xử lý tương đối thấp của các máy tính thời kỳ đó

Trang 20

Ngày nay, việc sử dụng nhiều kiến trúc học máy mới không yêu cầu các tập dữ liệu dàimột cách bat hợp lý, là một con đường thú vị và rất hứa hen trong dự báo kinh tế Day

là trường hợp không chỉ đối với các van đề tài chính mà còn cả các ứng dụng kinh tế vĩ

mô hoặc kinh tế vi mô, nơi các tập dữ liệu vốn có giới hạn về kích thước Kết quả là,các ứng dụng học máy gần đây trong các chu kỳ kinh doanh và dự báo suy thoái đường

như rất thành công so với các mô hình thực nghiệm truyền thống Hiện tại, chúng ta gặp

phải những phương pháp luận mới hợp nhất và kết hợp Kinh tế lượng với học máy (tức

là Garch — SVM) Hơn nữa, điều thú vị là các kỹ thuật học máy và quy trình thực nghiệmnhư xác thực chéo hiện đang phổ biến và được áp dụng đều đặn cho các phương pháp

luận kinh tế lượng truyền thống

Học máy trong tài chính hiện được coi là một khía cạnh quan trọng của một sốdịch vụ và ứng dụng tài chính, bao gồm quản lý tài sản, đánh giá mức độ rủi ro, tính

toán điểm tín dụng và thậm chí phê duyệt các khoản vay Học máy có xu hướng chính

xác hơn trong việc rút ra thông tin chỉ tiết và đưa ra dự đoán khi lượng lớn đữ liệu đượcđưa vào hệ thống Ví dụ: ngành dịch vụ tài chính có xu hướng gặp phải khối lượng dữliệu khổng 16 liên quan đến các giao dich hàng ngày, hóa đơn, thanh toán, nhà cung cấp

và khách hàng, những dữ liệu này hoàn hảo cho học máy.

Ngày nay, nhiều công ty tài chính và công nghệ tài chính hàng đầu đang kết hợphọc máy vào hoạt động của họ, dẫn đến quy trình hợp lý hóa tốt hơn, giảm rủi ro và

danh mục đầu tư được tối ưu hóa tốt hơn

Giao dịch theo thuật toán đề cập đến việc sử dụng các thuật toán để đưa ra các

quyết định giao dịch tốt hơn Thông thường, các nhà giao dịch xây dựng các mô hìnhtoán học theo dõi tin tức kinh doanh và hoạt động giao dịch trong thời gian thực đề phát

hiện bat kỳ yếu tố nào có thể buộc giá chứng khoán tăng hoặc giảm Mô hình đi kèm

với một bộ hướng dẫn được xác định trước về các thông số khác nhau - chang hạn nhưthời gian, giá cả, số lượng và các yếu tố khác - để thực hiện các giao dịch mà không có

sự tham gia tích cực của nhà giao dịch Không giống như các nhà giao dịch con người,giao dich theo thuật toán có thé đồng thời phân tích khối lượng lớn dit liệu và thực hiện

hàng nghìn giao dịch mỗi ngày Máy học đưa ra các quyết định giao dịch nhanh chóng,mang lại lợi thế cho các nhà giao dịch là con người so với mức trung bình của thị trường

Trang 21

Ngoài ra, giao dịch thuật toán không đưa ra quyết định giao dịch dựa trên cảm xúc, đây

là một hạn chế phổ biến ở các nhà giao dich con người, những người mà phán đoán của

họ có thể bị ảnh hưởng bởi cảm xúc hoặc nguyện vọng cá nhân Phương pháp giao dịch

hầu hết được sử dụng bởi các nhà quản lý quỹ đầu cơ và các tổ chức tài chính đề tự động

hóa các hoạt động giao dịch.

Cố vấn robot là các ứng dụng trực tuyến được xây dựng bằng học máy và chúng

cung cấp lời khuyên tài chính tự động cho các nhà đầu tư Các ứng dụng sử dụng cácthuật toán đề thiết lập danh mục đầu tư tài chính theo mục tiêu của nhà đầu tư và khảnăng chấp nhận rủi ro của họ Các nhà tư van r6-bét yêu cau tài khoản tối thiêu thấp và

thường rẻ hơn so với các nhà quản lý danh mục đầu tư của con người Khi sử dụng robot

cố vấn, nhà đầu tư được yêu cầu nhập mục tiêu đầu tư hoặc tiết kiệm của họ vào hệ

thống và hệ thống sẽ tự động xác định các cơ hội đầu tư tốt nhất với lợi nhuận cao nhất.

Ví dụ, một nhà đầu tư 30 tuổi với mục tiêu tiết kiệm 500.000 đô la vào thời điểm họ

nghỉ hưu có thể nhập các mục tiêu này vào ứng dụng Sau đó, ứng dụng sẽ phân bổ cáckhoản đầu tư trên các công cụ tài chính và các loại tài sản khác nhau - chang hạn như cô

phiếu, trái phiếu, bat động san, v.v - dé đạt được mục tiêu dài hạn của nhà dau tư Ứng

dụng tối ưu hóa mục tiêu của nhà đầu tư theo xu hướng thị trường thời gian thực để tìm

ra chiến lược đa dạng hóa tốt nhất

2.3 Máy vectơ hỗ trợ (SVM - Support Vector Machine)

Trong những năm gần đây, niềm tin về sự tồn tại kiểu mẫu trong dữ liệu tài chính

đã khuyến khích các nhà nghiên cứu phát triển các kỹ thuật dự báo trong đó dữ liệu lịch

sử được nghiên cứu để xác định hành vi thị trường trong tương lai Các kỹ thuật dự báotrước đây, chang hạn như phân tích cơ bản, kỹ thuật và kỹ thuật thống kê hầu hết đều

thất bại trong vấn đề dự đoán dữ liệu chuỗi thời gian phi tuyến và cho kết quả kém chính

xác hơn Do đó, để khắc phục hạn chế của mô hình tuyến tính truyền thống, cần phải tạo

ra mô hình phổ quát hơn Kỹ thuật học máy đã trở thành ứng cử viên xuất sắc dé giải

quyết van đề dự đoán dữ liệu tài chính vì chúng có khả năng tìm và nhận ra sự phụ thuộc

phi tuyến giữa các biến khác nhau Hiện tại, các kỹ thuật học máy phé biến nhất là mạng

nơ-ron nhân tao và máy vectơ hỗ trợ (SVM) So với mạng nơ-ron, máy vectơ hỗ trợ

(SVM) là kỹ thuật tương đối mới trong lĩnh vực học máy SVM là những mô hình mạnh

10

Trang 22

mẽ, có cơ sở về mặt lý thuyết và đã được sử dụng hiệu quả trong các ứng dụng thực tế

khác nhau Chúng tôi nêu bật một số nghiên cứu quan trọng về việc sử dụng SVM trong

lĩnh vực dự báo tài chính.

Tay và Cao [2] đã kiểm tra khả năng sử dụng SVM trong lĩnh vực dự báo tài chính

Họ đã áp dụng một hệ thống dựa trên SVM đề dự đoán các hợp đồng tương lai thu được

từ Chicago Mercantile Exchange (CME) Nhóm tác giả đã tiến hành phân tích so sánh

bằng cách so sánh mô hình SVM với mạng no ron đa lớp lan truyền ngược (BP - layer backpropagation neural network) Kết quả mô phỏng của họ cho thấy SVM hoạtđộng tốt hơn mạng BP dựa trên các tiêu chí đánh giá khác nhau và do đó SVM có thể

multi-được áp dụng thành công cho dir liệu tài chính.

Yang và cộng sự [25] đề xuất một mô hình SVM để phân tích hồi quy SVR cho

nhiệm vụ dự đoán tài chính Họ đã áp dụng mô hình SVR dé phan ánh sự thay đổi vềtính bất ồn của dữ liệu tài chính Kết quả thử nghiệm của họ cho thay rằng việc sử dụng

độ lệch chuân để tính toán một biên độ thay đổi đã mang lại một kết quả dự đoán tốt

trong dự đoán Chỉ số Hang Seng (HSI) của Hồng Kông bằng cách cung cấp một tỷ lệsai số tối thiểu

Kim [26] đã nghiên cứu các thuộc tính của SVM như một yếu tố dự báo cho chỉ số

giá cô phiếu Hiệu suất dự đoán của SVM với các mạng no-ron khác và các phươngpháp suy luận dựa trên trường hợp (CBR - case-based reasoning) đã được kiểm tra Kết

quả thử nghiệm cho thấy SVM vượt trội hơn mạng BP và các phương pháp CBR, đồngthời kết luận rằng hiệu suất dự đoán của SVM có thể tăng lên bằng cách chọn các tham

số tối ưu của giới hạn trên và hàm nhân

Huang và cộng sự [27] đã áp dụng SVM dé dự báo hướng di chuyển hàng tuần của

chỉ số NIKKEI 225 Để đánh giá khả năng dự báo của mô hình SVM, các tác giả đã

trình bày phân tích so sánh bằng cách xem xét hoạt động của mô hình dé xuất và các mô

hình khác dựa trên phân tích phân biệt tuyến tính (LDA - linear discriminant analysis),

phân tích phân biệt bậc hai (QDA - quadratic discriminant analysis) và mạng nơ ron

Elman BP Kết quả thực nghiệm cho thấy SVM hoạt động tốt hơn so với các phươngpháp phân loại khác và việc sử dụng các mô hình tích hợp có thé làm tăng độ chính xác

của kết quả dự đoán

11

Trang 23

Hsu và cộng sự [28] đã áp dụng kiến trúc hai giai đoạn dé du đoán giá cổ phiếu Họ

đã áp dung bản đồ tự tổ chức (SOM - self-organizing maps ) dé phân tách và phân loại

dữ liệu đầu vào và sử dụng héi quy vectơ hỗ trợ (SVR) dé dự báo các chỉ số tài chính

Quá trình lựa chọn tính năng được thực hiện thông qua thuật toán lựa chọn tương quan

hồi quy từng bước (SRCS - stepwise regression-correlation selection) Ngoài ra, các chỉ

số cơ bản và kỹ thuật đã được xem xét trong quá trình xây dựng mô hình Các thí nghiệm

được thực hiện trên bốn giống chính đã cho thấy rằng hiệu suất dự báo của mô hình laichính xác hơn hiệu suất của mô hình SVR tiêu chuẩn

Kazem và cộng sự [13] đã đề xuất một mô hình dự báo thị trường chứng khoán kết

hợp dựa trên ánh xạ hỗn loạn, thuật toán đom đóm và kỹ thuật hồi quy vectơ hỗ trợ

(SVR) Nghiên cứu đã sử dụng một thuật toán dom dom đã được sử dụng để tối ưu hóasiêu tham số SVR Cuối cùng, thuật toán SVR được tối ưu hóa đã được áp dụng dé dự

báo giá thị trường chứng khoán Kết quả mô phỏng của họ sử dung dé liệu lịch sử từ

sàn giao dịch chứng khoán NASDAQ đã cho thấy tính ưu việt của mô hình đề xuất so

với các mô hình khác.

Gogas và cộng sự [29] sử dụng SVR so sánh với OLS đối với các mô hình: CAPM

(Capital Asset Pricing Model - Mô hình định giá tài sản) , Fama 3 và 5 nhân tối, mô hình

APT Dữ liệu sử dụng như sau: Đối với mô hình CAPM và mô hình Fama 3 nhân tố7/1926 đến 12/2014 với 1062 quan sát, mô hình Fama 5 nhân tố 7/1963 đến 12/2014 với

618 quan sát, mô hình APT từ 2/1986 đến 12/2014 với 346 quan sát, tất cả dữ liệu đềulấy trên sàn chứng khoán Mỹ Tiêu chí chất lượng mô hình dựa vào R? hiệu chỉnh và

MAPE (Mean Absolute Percent Error - Phan trăm sai số tuyệt đối trung bình) Kết quả

cho cho thấy phương pháp SVR với kernel dạng mũ và đa thức hỗ trợ dự đoán tốt hơnphương pháp hồi quy OLS thông thừng thông qua chỉ số MAPE và R? hiệu chỉnh Một

nhược điểm của nghiên cứu là không cập nhật mô hình dự báo theo thời gian làm mất

ưu thế của học máy

Henrique và cộng sự [30] trong nghiên cứu dự đoán giá cô phiếu sử dụng SVR cho

dữ liệu hàng ngày có cập nhật mô hình theo theo gian, khắc phục nhược điểm ở nghiên

cứu Gogas (2018) Nhóm tác giả so sánh với mô hình bước đi ngẫu nhiên trong giả

thuyết thị trường hiệu quả, nhóm tác giả sử dụng 2 tiêu chí đánh giá chất lượng mô hình

12

Trang 24

là MAPE va RMSE Dữ liệu nghiên cứu bao gồm cổ phiếu ở Brazil, Mỹ và Trung quốc

giai đoạn từ năm 2002 đến 2017 Nhóm tác giả chia dữ liệu ra 2 giai đoạn theo tỉ lệ 7:3,giai đoạn đầu cho việc xác định các tham số đầu vào và giai đoạn sau cho tập kiểm tra,

bao gồm giá hàng ngày và giá từng phút Hàm kernel được sử dụng cho SVR là cả 3

hàm: tuyến tính, đa thức và dạng mũ

2.4 Mô hình Fama - French 5 nhân tố

Mô hình định giá tài sản vốn (CAPM) được đề xuất đầu tiên bởi Treynor [31] dựatrên nền tảng lý thuyết đa dang hóa danh mục đầu tư Markowitz [32] Mô hình CAPM

lượng hóa mối quan hệ tuyến tính giữa tỷ suất sinh lợi và rủi ro của các tài sản rủi ro

Mô hình này nhanh chóng trở thành một trong những nền tảng lý thuyết trong lĩnh vực

tài chính hiện đại Không những trong giới học thuật sử dụng mà các nhà đầu tư, các tổchức quản lý quỹ cũng sử dụng do tính đơn giản của nó Đối với những dự án đầu tư rủi

ro, CAPM đưa ra một tỷ suất sinh lợi tối thiểu đề cho các nhà đầu tư tham khảo Đối vớicác sản phẩm tài chính đang giao dịch trên thị trường như cổ phiếu, trái phiếu, CAPM

cung cấp một ước tính rủi ro hệ thống của các sản phẩm này thông qua hệ số beta Tuy

nhiên, vì CAPM sử dụng quá nhiêu giả định rất khó được đáp ứng trên thực tế nên tínhthực tiễn của nó là một chủ đề gây tranh luận cho đến ngày nay Mối quan hệ giữa các

biến trong mô hình CAPM được xác định bởi phương trình:

CAPM :E()=", +Ø(E0)=r,}

Trong đó:

s® E(r)=Tỷ suất sinh loi kỳ vọng của tài sản i

e or, = Lãi suất phi rủi ro

© , = Hệ số beta của tài san i (do lường rủi ro hệ thống của tài sản)

© £E(r,) = Tỷ suất sinh lợi của thị trường

Những năm sau đó, Banz [33] phát hiện hiệu ứng quy mô ở thị trường Mỹ Cụ thé,

các công ty nhỏ dường như có tỷ suất sinh lợi cao hơn so với các công ty lớn Kết qua

này hàm ý rằng CAPM còn thiếu sót trong việc giải thích hiệu ứng quy mô Nghiên cứusau đó của Basu [34] cũng cho kết quả tương tự như Banz Đến năm 1992, Fama và

13

Trang 25

French [35] phát hiện thêm hiệu ứng giá trị - tăng trưởng của cổ phiếu Cụ thé, các cỗphiếu giá trị (cô phiếu có tỷ số giá trị sé sách trên giá trị thị trường B/M lớn) có mức tỷ

suất sinh lợi cao hơn so với cô phiếu tăng trưởng (B/M nhỏ) Bằng cách thêm vào hai

nhân tố mới và giữ lại nhân tố thị trường, Fama và French đề xuất mô hình 3 nhân tố

(sau này gọi là mô hình Fama-French 3 nhân tố) Mô hình 3 nhân tố đã giải thích tốt hơn

so với mô hình CAPM trước đó, do đó nó đã được sử dụng rộng rãi lúc bây giờ

Mô hình Fama — French 3 nhân tố gồm có các nhân tố: quy mô, thị trường và B/M

Cụ thể, nhân tố quy mô được xây dựng bằng cách lấy tỷ suất sinh lợi các công ty nhỏtrừ cho tỷ suất sinh lợi công ty lớn (SMB), nhân tổ thị trường được đại diện bởi tỷ suất

sinh lợi vượt trội của danh mục mục thị trường (Mkt), nhân tố B/M được tính toán bằng

cách lay cổ phiếu có giá trị cao trừ cổ phiếu có giá trị thấp (HML) Phương trình hồi quy

chuỗi thời gian có dạng:

tự —r„ =ơ, + 8MkI, + B,SMB, + B,HML + e,

Trong đó:

© — r„ = Tỷ suất sinh lợi của tài sản i ở thời điểm t

© _ r„= Lãi suất phi rủi ro ở thời điểm t

© = Mkt, = Tỷ suất sinh lợi vượt trội của danh mục thị trường ở thời điểm t.

e SMB,= Phan bù quy mô (quy mô nhỏ trừ quy mô lớn).

e HML, = Phần bù giá trị (cô phiếu giá trị trừ cô phiếu tăng trưởng).

© Bo, = Các hệ số hỏi quy

© £„ = Sai số ngẫu nhiên

Bằng cách sử dụng hàng nghìn danh mục cổ phiếu ngẫu nhiên, Fama và French đã

tiến hành các nghiên cứu để kiểm tra mô hình của họ và nhận thay rang khi cac yéu t6quy mô và giá trị được kết hợp với hệ số beta, thì mô hình có thé giải thích tới 89% lợi

nhuận trong một danh mục cổ phiếu đã được đa dạng hóa Với khả năng giải thích 89%lợi nhuận của danh mục đầu tư so với toàn bộ thị trường, nhà đầu tư có thể xây dựng

danh mục đầu tư trong đó họ nhận được lợi tức kỳ vọng trung bình theo rủi ro tương đối

mà họ đã xây dựng trong danh mục dau tư của mình

14

Trang 26

Tiếp tục phát triển mô hình 3 nhân tố, Fama và French [36] thêm vào hai nhân tố

liên quan đến đầu tư và lợi nhuận của công ty Sử dụng mô hình 5 nhân tố, Fama-French

đã tiễn hành kiểm định trên thị trường Mỹ giai đoạn 7/1963 đến 12/2013 Mô hình đã

giải thích khoảng 71% đến 94% biến động của chuỗi tỷ suất sinh lợi của các danh mục

đa dạng hóa Khi so sanh với mô hình 3 nhân tố, mô hình 5 nhân tố hiệu quả hơn trongviệc giải thích biến động tỷ suất sinh lợi

Một số kiểm định liên quan đến mô hình Fama-French 5 nhân tố điển hình 39] Cakici [37] nghiên cứu thị trường chứng khoán trên 23 nước phát triển trong giaiđoạn 7/1992 đến 12/2014 Kết quả nghiên cứu này thu được như sau: đối với các thị

[37-trường như Bắc Mỹ, Châu Âu và thị [37-trường Quốc Tế thì mô hình 5 nhân tố hiệu quả hơn

so với mô hình 3 nhân tố, hầu hết các nhân tố đầu có ý nghĩ thống kê, nhân tố HML đôikhi không có ý nghĩa thống kê Đối với thị trường Nhật Bản và Châu Á Thái Bình

Dương, hai nhân tố mới thêm vào của mô hình 5 nhân tố tác động không có ý nghĩathống kê hoặc có mức độ rất thấp Ở nghiên cứu của Gruodis [38], tác giả nghiên cứu

trên thị trường chứng khoán Thụy Điền trên 600 công ty từ năm 1991 đến 2014 Kết quảcũng tương tự: Mô hình 5 nhân tố hiệu quả hơn so với mô hình 3 nhân tố, hơn nữa nhân

tố HML không có ý nghĩa thống kê Zheng [39] nghiên cứu trên thị trường chứng khoán

Australia giai đoạn 2001 đến 2012 thu được kết quả mô hình 5 nhân tố hiệu quả nhất

với hệ số xác định R? = 0.7539 cao nhất Mô hình hồi quy có dạng:

tự —rạ =0, + 0MMI, + B,SMB, + 0,HML, + 8,RMW, + 8,CMA, + e,

eI

Trong do:

r„ = Tỷ suất sinh lợi của danh mục i ở thời điểm t

e_ r„= Lãi suất phi rủi ro ở thời điểm t

Mkt, = Tỷ suất sinh lợi vượt trội của danh mục thị trường ở thời điểm t

SMB,= Phần bù quy mô (quy mô nhỏ trừ quy mô lớn)

HML, = Phần bù giá trị (cổ phiếu giá trị trừ cổ phiếu tăng trưởng)

RMW, = Phan bi lợi nhuận (danh mục có lợi nhuận cao trừ danh mục có lợi

nhuận thấp).

15

Trang 27

e CMA, = Phan bù đầu tư (danh mục dau tu ít trừ danh mục dau tư nhiều).

© /;;,„ = Các hệ số hỗồi quy

© ¢, = Sai số ngẫu nhiên.

Dữ liệu nghiên cứu của Fama và French đã được sử dụng trong nhiều nghiên cứu liên

quan.

Fama và French [35] đã nghiên cứu minh chứng tồn tại một số hiệu ứng như quy

mô, giá trị mà mô hình | nhân tố không thể giải thích Sử dụng dữ liệu từ năm1962-1989 đề ước lượng hệ số beta của danh mục và tỷ suất sinh lợi kỳ vọng

Kết quả cho thấy tồn tại mối quan hệ tuyến tính cùng chiều giữa tỷ suất sinh lợi

kỳ vọng và hệ số beta danh mục Kết quả này hàm ý rằng ủng hộ lý thuyết CAPM.Tuy nhiên, tác giả còn phát hiện tồn tại hiệu ứng về quy mô và hiệu ứng giá trị lànguyên nhân hệ số chặn không đồng nhất với dự báo của lý thuyết CAPM

Fama và French [40] đề xuất mô hình 3 nhân tố (mô hình Fama-French 3 nhân

tố) Dựa vào minh chứng từ một số nghiên cứu trước đó, nhóm tác giả xây dựngcác nhân tô và thực hiện một số kiểm định liên quan Từ đó đề xuất mô hình mới

Sử dụng dữ liệu từ 1963-1991 Tác giải sử dụng 25 danh mục đa dạng hóa để

kiểm định một số mô hình: 1 nhân tố, 3 nhân tố, 4 nhân tố và 5 nhân tố Kết quảthen chốt trong nghiên cứu này là mô hình 3 nhân tó giải thích tốt hơn mô hình 1

nhân tố Các hệ số ước lượng của các môFama và French [36] nghiên cứu tiếp tục công việc từ câu hỏi mở ở mô hình

Fama-French 3 nhân tố Một số minh chứng cho thấy mô hình Fama-French 3

nhân tố không hoàn chỉnh, chưa giải thích tác động từ lợi nhuận và đầu tư đến tỷsuất sinh lợi Nhóm tác giải một lần nữa xây dựng mô hình 5 nhân tố bằng cáchthêm vào 2 nhân tố mới liên quan đến lợi nhuận và đầu tư từ mô hình 3 nhân tố

Nghiên cứu thực nghiệm trên thư viện Kenneth R French giai đoạn 1963-2013

với 25 và 32 danh mục khác nhau cho các mô hình | nhân tố, 3 nhân tố, 4 nhân

tố và 5 nhân tố Phương pháp ước lượng được sử dụng là OLS Kết quả cho thấy

mô hình 5 nhân tố hiệu quả nhất trong việc giải thích tỷ suất sinh lợi kỳ vọng của

các danh mục.

16

Trang 28

Gogas và cộng sự [29] nghiên cứu so sánh khả năng dự báo của các mô hình định

giá: CAPM, Fama-Friench 3-5 nhân té và mô hình APT khi sử dung OLS so với

SVR Dữ liệu được sử dụng giai đoạn từ 1926-2014 với 6 danh mục ở thư viện

Kenneth R French Kết quả cho thấy SVR với radial kernel tương đối hiệu quả

hơn các thuật toán khác.

Fama và French [41] nghiên cứu tập trung giải thích phần bù giá trị (tỷ suất sinhlợi của danh mục trừ cho tỷ suất sinh lợi danh mục thị trường) Nhóm tác giả sử

dụng 7 danh mục từ thư viện Kenneth R French giai đoạn từ 1963 — 2019 Biến

độc lập được sử dụng là khác biệt giữa giá trị số sách trên giá trị thị trường củadanh mục so với thị trường trước đó 1 kỳ Kết quả cho thay phan bù giá trị không

đồng nhất giữa các giai đoạn

17

Trang 29

CHUONG 3 PHƯƠNG PHÁP NGHIÊN CỨU

Tóm tắt Chương 3 tập trung vào phương pháp nghiên cứu được sử dụng

để thiết kế và chuẩn bị các kết quả thực nghiệm Phương pháp nghiên cứu

mô tả toàn bộ phương pháp ước lượng các hệ số hồi quy dựa trên mô hình

chuỗi thời gian nhằm phát triển một mô hình hiệu quả tạo ra các dự báo

chính xác cho các bộ dữ liệu tài chính Trong đó, chúng tôi trình bày các

bước thu thập dữ liệu, làm sạch dữ liệu, quá trình huấn luyện dữ liệu vàtiêu chí đánh giá kết quả dự đoán

3.1 Thuật toán

3.1.1 Hồi quy bình phương nhỏ nhất (OLS)

Hồi quy tuyến tính là một trong những thuật toán nổi tiếng và được hiểu rõ nhấttrong thống kê và học máy Hồi quy tuyến tính được phát triển trong lĩnh vực thống kê

và được nghiên cứu như một mô hình để hiểu mối quan hệ giữa các biến số đầu vào vàđầu ra Khi chúng ta có nhiều hơn một đầu vào, chúng ta có thể sử dụng hồi quy bình

phương nhỏ nhất dé ước tính giá trị của các hệ số Thủ tục hồi quy bình phương nhỏnhất tim cách giảm thiểu tổng các phần dư bình phương Điều này có nghĩa là cho một

đường héi quy thông qua dữ liệu, chúng tôi tính toán khoảng cách từ mỗi điểm đữ liệu

đến đường hồi quy, bình phương nó và tổng tat cả các lỗi bình phương lại với nhau Day

là đại lượng mà bình phương nhỏ nhất thông thường tìm cách tối thiểu hóa

Hồi quy là một trong những phương pháp quan trọng trong lĩnh vực thống kê — họcmáy Mục tiêu chính của phương pháp này là tìm một hàm ƒ ánh xạ các phan tử trong

tập R” vào tập số thực Ñ Chúng ta giả sử rằng cho trước tập dao tạo với n phan tử đầu

vào x, và biến đầu ra y, chứa nhiễu theo công thức y, =f (x, ) +£,, trong đó £, là sai số

ngẫu nhiên.

Một số điểm quan trong để xác định một mô hình dự báo hiệu quả bao gồm:

© _ Lựa chọn kiểu đường cong: Một số đường cong hồi quy được sử dụng thông

thường như dạng tuyến tính, dạng bậc hai nên được cân nhắc sử dụng tùy

18

Trang 30

vào bản chất của van dé Lựa chọn mô hình đơn giản nhưng cho hiệu quả cao

còn hơn mô hình phức tạp nhưng khả năng giải thích thấp

© _ Xác định các tham số trong mô hình: Sử dụng các hàm mục tiéu/ham mắt mát

khác nhau và các thuật toán tối ưu thích hợp nhằm ước lượng các tham số trong

mô hình.

e Hiện tượng quá mức xác định và lựa chọn mô hình: Trong lĩnh vực học máy,

vấn đề quá mức xác định luôn hiện hữu Do đó, lựa chọn mô hình và phươngpháp train-test thích hợp sẽ giảm thiểu vấn đề này

© Mối quan hệ giữa hàm mất mát va các tham số: Bởi vì chúng ta sử dụng tập

đào tạo để ước lượng các tham số, do đó việc lựa chọn hàm mắt mát là quan

trọng nếu lựa chọn hàm mắt mát không thích hợp sẽ cho kết quả khác xa so

với mối quan hệ thực tế giữ các biến

e Tính bất định của mô hình: Trong thực nghiệm chúng ta chỉ tiếp cận dữ liệu

mẫu, trong khi mối quan hệ thực tế giữa các biến thường phức tạp và bắt định

Chúng ta chỉ kiểm soát một phần trên tập hudn luyện nên không thé kiểm soáttất cả các kịch bản có thê xảy ra đối với mối quan hệ thực tế của biến đầu vàobiến đầu ra

Xét phương trình hồi quy tổng thê có dạng:

y=f (x) +E

Trong đó, x e RP là biến đầu vào, y e R là biến đầu ra và ¢ là sai số ngẫu nhiên cóphân phối chuẩn với kỳ vọng bằng 0 và phương sai là ø? không đổi Mục tiêu chính củachúng ta là tìm một hàm gan nhất có thể với hàm ƒ chưa biết Mô hình hồi quy tuyến

tính đạng tổng quát như sau:

y=xØ+e

Dựa vào tập đào tạo, ta sẽ ước lượng các hệ số hồi quy / theo phương pháp bìnhphương nhỏ nhất Giả sử ta có mẫu ngẫu nhiên gồm n quan sát

D= {(x.y, Jorn I ER? OY, € R} Y tưởng của phương pháp này là tìm /ổ„„; sao cho

|› =x" Bors I, nhỏ nhất Trong kỹ thuật học máy, không mắt tinh téng quát và dé tinh

19

Trang 31

toán, chúng ta hay sử dụng biểu thức tương đương là |› =x" Bors |; hoặc “ip =x" Bors

Chúng ta định nghĩa hàm mắt mát như sau:

1(8)=|y~x'2|,

Trong đó: |e|| là chuẩn /,

Do đó: ys =argmin2 (/)

Sử dụng phương pháp đạo hàm riêng cho bài toán tối ưu lồi không ràng buộc, ta

thu được nghiệm như sau:

Pots =argmin J (f)=(X7X) ` Xy

8

3.12 Hoi quy Ridge

Hồi quy Ridge (RR) có thể được sử dụng đề ước tính các hệ số của mô hình hồiquy bội trong các tình huống khi các biến độc lập được liên kết chặt chẽ với nhau [42]

RR được đề xuất ý tưởng lần đầu tiên vào năm 1970 [43, 44] có nhiều ứng dụng trong

các lĩnh vực khác nhau, bao gồm kinh tế lượng, kỹ thuật và hóa học [45] Phương phápnày là đỉnh cao của nghiên cứu kéo dài hàng thập kỷ về chủ đề phân tích Ridge Trong

trường hợp mô hình hồi quy tuyến tính với các biến độc lập đa tuyến tính, hồi quy Ridgeđược phát triển để khắc phục sự không chính xác của các ước lượng bình phương nhỏ

nhất Có thể ước tính chính xác hơn các tham số sườn núi bằng cách tạo RR có phươngsai và sai số bình phương trung bình thấp hơn các công cụ ước tính bình phương nhỏnhất trước đây [46]

Hồi quy Ridge được phát triển như là một giải pháp khả thi thay thế cho phươngpháp bình phương nhỏ nhất trong trượng hợp xảy ra hiện tượng đa cộng tuyến (tươngquan cao giữa các biến độc lập) Phương pháp hồi quy Ridge cung cấp các ước lượng

chính xác hơn so với bình phương nhỏ nhất, chang hạn như phương sai và trung bình

bình phương các ước lượng trong hồi quy Ridge thường thấp hơn Giả sử mô hình hồiquy tổng thể có dạng:

y=XB+£()

20

Trang 32

Trong đó, £ là sai số ngẫu nhiên, / là các hệ số hồi quy Với giả định cơ bản làmẫu đại diện tổng thể và £(zl X )=0, các ước lượng thu được từ phương pháp bình

phương nhỏ nhất Øọ„s là các ước lượng vững và không chệch, trong đó ổọ,s =

(X7X)-1XTy Tuy nhiên, nếu có hiện tượng đa cộng tuyến, các ước lượng /„„ thu

được sẽ có phương sai cao và lệch xa so với /j Giải pháp của phương pháp Ridge là sử

dụng tham số k (có giá trị nhỏ) trong công thức xác định ước lượng các hệ số hồi quy

như sau:

T T7

Braye =(XTMX +KI) X'y

Trong đó, J là ma trận đơn vi Các ước lượng Ridge hiệu quả hon so với phương

pháp bình phương nhỏ nhất trong trường hợp xảy ra hiện tượng đa cộng tuyến

3.1.3 Hồi quy Lasso

Hồi quy Lasso được phát triển một cách độc lập trong lĩnh vực Địa —Vật lý năm

1986 dựa vào lý thuyết trước đó, sử dụng hệ số phạt cho các hệ số ước lượng theo chuẩnI, Nhà thống kê Robert Tibshirani đề xuất một cách độc lập và phổ biến nó vào năm

1996 dựa vào nghiên cứu trước đó của Breiman [47].

Trước đó, hầu hết sử dụng phương pháp chọn từng bước (stepwise), có nghĩa là

từng bước một đưa vào các biến dự báo cho tới khi tìm được mô hình tốt nhất hoặc là

xóa bớt từng biến một Cách tiếp cận này chỉ cải thiện độ chính xác dự báo trong một số

tình huống cụ thể, chẳng hạn như chỉ có một số biến dự báo tương quan mạnh đến biến

đầu ra Tuy nhiên, một một sé tình huống khác, nó có thé lam tăng sai số dự báo Ở thờiđiểm lúc bấy giờ, hồi quy Ridge cải thiện sai số dự báo bằng cách thu hẹp tổng bình

phương của các hệ số hồi quy sao cho nó nhỏ hơn một số cho trước đề giảm thiểu hiện

tượng xác định quá mức (overfitting) của mô hình Bởi vì nó không thực hiện lựa chọn

biến đầu vào nên những biến không có ý nghĩa giải thích van còn trong mô hình Hồi

quy Lasso đạt được cả 2 mục đích: tổng bình phương của các hệ số nhỏ hơn giá trị chotrước và ràng buộc một số hệ số bằng 0, ngoại trừ các biến có tác động đến biến phụthuộc Ý tưởng này tương tự như phương pháp hồi quy Ridge đó là thu hẹp độ lớn của

21

Trang 33

các hệ số hồi quy, tuy nhiên, hồi quy Rige thì ít có xu hướng loại trừ các biến không liên

quan.

Xét mô hình hồi quy tổng thể với p biến độc lập:

y=fea+XB+e

Trong đó, /, là hệ số chặn, / là ma trận hệ số góc và z là sai số ngẫu nhiên Giả

sử mẫu thu được từ tổng thể là mẫu ngẫu nhiên với ø quan sát Phương pháp hồi quy

Lasso là xác định các hệ số ước lượng

Biassothoa mãn bài toán tối ưu như sau: minlly — Bo — X|lš với ràng buộc ||Ø|l? < t

ho,

Trong đó / là tham số tự do và ||s||„ là chuẩn J, Thực hiện chuẩn hóa dữ liệu đưa bàitoán về dạng tương đương:

PEST — 7L A le

min [5 ly — XI] với ràng buộc IIBII? < t

Sử dụng phương pháp nhân tử Larange ta thu được: min f lly - X/llỆ + alls}

(Chú ý rang  va £ là hằng số không phụ thuộc vào / nên có thé bỏ qua trong bài toán

tìm min)

3.1.4 Hồi quy vector hỗ trợ (SVR - Support Vector Regression)

Hồi quy vector hỗ trợ (SVM) là một thuật toán học có giám sát giải quyết bài toán

về vấn đề phân lớp dữ liệu được đề xuất bởi Cortes và Vapnik [48] Ý tưởng của SVM

là ánh xạ tập dữ liệu ban đầu đến một không gian nhiều chiều hơn bở ánh xạ ©, thuậnlợi cho việc phân lớp dữ liệu SVM tìm một siêu phẳng tối ưu (H) được tính toán dựa

vào tập dữ liệu huấn luyện Giả sử X là ma trận các biến độc lập và Y là vector biếnphân loại (, < {-11}) ) Do đó, siêu phẳng phân lớp được cho bởi phương trình sau đây:

H:a'®(x,)+b =0 Giả sử dé liệu đầu vào được có thé tách rời hoàn hảo, khi đó, bằng

cách điều chỉnh các tham só thích hợp ta có thể chuyên đổi bài toán sao cho khoảng cáchngắn nhất đến (H) luôn bằng 1 ở cả hai phía Như vậy, bài toán SVM là tìm các tham số

a và b của mô hình.

2

Trang 34

Chúng ta xét một quan sát ¡ bất kỳ, nếu a'®(x,)+b >I thi y, =1 và ngược lại nếu

a”®(x,)+b <—Ithì y, =—1 Một cách tương đương như sau: y, [aTM®(x, ) +b] >1(4).

Cực tiểu hóa |a|| và b theo điều kiện ràng buộc (4) thu được các tham số tối ưu của môhình phân lớp Cortes và Vapnik [48] khi đó đã đề suất kiều kiện phân lớp làclass(x,)= sgn(a"(x,) +b) Bởi vì giả định tồn tại siêu phẳng (H) tách hoàn hảo rất

khó được thỏa mãn trong thực tế, vì vậy, Cortes và Vapnik [48] đề suất thêm một lề

mềm mà ở đó có thé cho phép một số quan sát bị phân loại sai Điều kiện ràng buộc khi

Trang 35

Trong đó, hàm K(x,x,)=®(x} ®(x,) được gọi là kernel function và

Hy =, v,K(X.x, ) Kết quả phân lớp sẽ được căn cứ vào phương trình sau:

class(x,) = sgn(a"(x, ) +b) = =p y,a,K (s.3)+0]

isl

Với ý tưởng tương tự như thuật toán SVM, thuật toán SVR cũng được thực hiện

tương tự chỉ khác ở biến phụ thuộc là biến liên tục nhận giá trị thực Tuy nhiên, theo

Patel và cộng sự [50], Qu va Zhang [51], thay vì đi tìm siêu phẳng như trong (Š), thuậttoán SVR tìm một hàm hồi quy ƒ (x.4) = a“x+b Dé làm được điều nay, một biên £

được đưa vào như sau:

3.2 Đề xuất mô hình dự báo

Trong đề tài này, chúng tôi đề xuất sử dụng một mô hình cho nhiệm vụ dự đoáncủa dữ liệu chuỗi thời gian tài chính Cac mô hình được trình bày dựa trên các giai đoạnnghiên cứu chính Các thử nghiệm được thiết kế được thực hiện trên các tập dữ liệu lịch

sử trình bày các loại dữ liệu tài chính khác nhau đề đánh giá đầy đủ tính hiệu quả của

các mô hình dự báo.

Chúng tôi xem xét chỉ sử dụng các giá trị chuỗi bao gồm Mkt, HML, RMW, SMB,

CMA, va lai suat phi rủi ro T-bill kỳ han 1 thang dé dự báo cho tỷ suất sinh lợi của 10

danh mục có trọng số được xếp theo nhóm ngành bao gồm: NoDur, Durbl, Manuf,

Enrgy, HiTec, Telcm, Shops, Hlth, Utils, Other Mô hình dự báo được mô tả trong Hình

3.2.

24

Ngày đăng: 08/11/2024, 17:05

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN