Trong giai đoạn 2, nghiên cứu đã sử dụng các siêu tham số tối ưu thu được trong giai đoạn 1 để thiết lập bốn mô hình dự báo sử dụng bốn thuật toán khác nhau: SVR, RR, LR và OLS Bình phươ
Trang 1ĐẠI HỌC QUỐC GIA TP HÒ CHÍ MINHTRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TINKHOA KHOA HỌC VÀ KỸ THUẬT THÔNG TIN
BÙI THÀNH KHOA - ĐINH TRƯỜNG SON
MACHINE LEARNING
Analyzing the relationship between the rate of return and risk of security:
A machine learning approach
CU NHAN NGANH CONG NGHE THONG TIN
TP.HO CHÍ MINH - 2022
Trang 2ĐẠI HỌC QUỐC GIA TP HÒ CHÍ MINHTRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TINKHOA KHOA HỌC VÀ KỸ THUẬT THÔNG TIN
BÙI THÀNH KHOA - ĐINH TRUONG SON
KHÓA LUẬN TÓT NGHIỆP
PHAN TÍCH QUAN HỆ GIỮA TY SUÁT SINH LỢI VÀ RỦI RO CHỨNG KHOÁN: ỨNG DỤNG
MACHINE LEARNING
Analyzing the relationship between the rate of return and risk of security:
A machine learning approach
CU NHAN NGANH CONG NGHE THONG TIN
GIANG VIEN HUONG DAN
PHAM THE SON
TP.HO CHÍ MINH — 2022
Trang 3DANH SÁCH HỘI ĐÒNG BẢO VỆ KHÓA LUẬN
Hội đồng chấm khóa luận tốt nghiệp, thành lập theo Quyết định số 265/QD-DHCNTT
ngày 25 tháng 4 năm 2022 của Hiệu trưởng Trường Đại học Công nghệ Thông tin.
1 TS Đỗ Trọng Hợp - Chủ tịch.
2 ThS Tạ Thu Thủy - Thư ký.
3 ThS Nguyễn Văn Kiệt - Ủy viên
Trang 4LOI CAM ON.
TOM TAT KET QUA
CHƯƠNG 1 TONG QUAN NGHIÊN CỨU
1.1 Ly do chọn dé tài
1.2 Đối tượng nghiên cứu
1.3 Mục tiêu nghiên cứu.
1.4 Phương pháp nghiên cứu.
2.2 Học máy trong tài chính - - ¿5+ St 112121 E1 1012121111 t1 Hy 8
2.3 Máy vectơ hỗ trợ (SVM — Support Vector Machine) cssssscsssseseessseeseesnees 10
2.4 Mô hình Fama — French 5 nhân t6 ccsssccsssssssesssssseescssseescssssecsessseeseessseesesssees 13
CHƯƠNG 3 PHƯƠNG PHÁP NGHIÊN CỨU -ccccercee 18
BAL Tht tan occ ad 18
3.1.1 Hồi quy bình phương nhỏ nhất (OLS) - : -¿£©252cz2225sce2 183.1.2 Hổi quy Ridge ccccc22 222 treo 20
3.1.3 Hồi quy LassO 222cc2 2222222112221 co 21
3.1.4 Hồi quy vector hỗ trợ (SVR - Support Vector Regression) 2
ii
Trang 53.2 Đề xuất mô hình dự báo -.-2-:++£222E22v2++ttE2E2EEEEErrtEEEEkkrrrrrrrrrrrrrree 243.3 Phần mềm -222222++22222222222222222131112 222222111112 ccctrrrrrree 25
3.4 Mô tả bộ dữ liệu c::-22222222++t222222211222222221111 2212111 cccctrrrrree 26
3.5 Phương pháp thực hiện - ¿+ - + SE TH HH1 Hàn 28
3.6 Đánh giá hiệu suất -22222222+222222121112122222111111 221111 ecc.rrrrrrree 29CHƯƠNG 4 KET QUA NGHIÊN CỨU -5c5ccccccccscccccveec.c v3Ö
4.1 Thống kê mô tả -22¿222+SzttEEEEEerrtrkterrrrrrrrrrrrrrrrrrrrrrrerr 3Ô)
4.2 Tương quan giữa các biến :+22+2++2222++E222E11 2221111222112 324.3 Kết quả dự báo ở tập dữ liệu (1) c¿¿-5222222+2e+tttEEEEEESeerrrrrrrrkkkeercee 33
4.4 Kết qua dự báo ở tập dữ liệu (2) -cccccccccceveereessrrrrrercecsrrrrrreere 34
4.5 Kết quả kiểm định F-Test -22225ccccc2cSccvvverrrrrrrrrrrtrerrrrrrrrrrvrcere Ÿf7
4.6 Kiểm tra sự thay đổi RMSE dữ liệu theo thời gian -+ 37CHƯƠNG 5 KET LUẬN .2cc222222222 2222222 CEEEErrrerrrrrrrrer 39
5.1 Thảo luận kết quả :-¿ 52225c2cccetcEEvrvrertrtrrrrtrrerrrrrrrrrrrerrrerrrv.20)
5.2 Kếtluận -222cc222 2222222222221 EE rrrrrrrrrrev 40
5.3 Hạn chế và hướng phát triỂn -¿-2:++22++++t2E++++ttErxvrtttrrxrrrrrrrsree 41TÀI LIEU THAM KHẢO 222-22222£222+22922E2229E2EE122222311222223122222112 22112 42PHU LUC 1 LẬP TRINH CHO CHUOI THỜI GIAN HUAN LUYỆN 5 NĂM (60
THÁNG) 46PHU LUC 2 LẬP TRINH CHO CHUOI THỜI GIAN HUAN LUYỆN 3,4, 5 NAM(36, 48, 60 THANG) ooesccscssssecsssssssssssssssecssssecscssssscssssssecsssssussssssssssssiuseesssusecessseeecesssecees 51PHU LUC 3 BAI BAO LIEN QUAN wuveescssssssssssssseccccsssssisecsscessssunesscecssssnneeseeessssniuess 59
11
Trang 6DANH MỤC HÌNH
Hình 3.1 Mô hình thuật toán SM 6-52 tk k2 HH ưn 23
Hình 3.2 Mô hình dự báo - - ¿c5 + té HH H2 12 1 1 rrgườn 25
Hình 3.3 Sơ đồ rolling windOW -. -+¿¿+2222+2E2221122221122212112 2.111 re 28
Hình 4.1 Phân phối tỷ suất sinh lợi các danh mục -:¿++2s+ez++ 31
Hình 4.2 Tương quan giữa các danh mục - - + +5 ++k£x+EeEkrkeketekrkrkrkeree 33
Hình 4.3 Giá tri du báo so với giá trị thực tế
iv
Trang 7DANH MUC BANG
Bảng mô tả biến 2 -2222222E2222222112922211122211112222112122111 E221 re 26
Các tham số tiềm năng của các mô hình - ¿ ¿+22 28Bảng thống kê mô tả các biến - 22-2222 2222E22E22E12EEEEEErrrrrrrrrrrr 30
Sai số RMSE tương ứng với các tham số của mô hình LR, RR và SVR 35Sai số RMSE của mô hình SVR, RR, LR và OLS -c¿ 36
Kết quả One-Way ANOVA
Tổng kết RMSE theo các giai đoạn 3, 4, 5 năm
Trang 8TU VIET TAT
STT Viết tắt Giải thích
1 AI Artificial intelligence - Trí tuệ nhân tạo
2 AMEX American Express Company - công ty dịch vụ tài chính
đa quôc gia của Mỹ
3 CAPM Capital Asset Pricing Model - Mô hình định giá tài sản
4 LR Lasso Regression - Hồi quy Lasso
5 MAPE Mean Absolute Percent Error - Phân trăm sai số tuyệt đôi
trung bình
6 NASDAQ National Association of Securities Dealers Automated
Quotation System - san giao dịch chứng khoán Hoa Kỳ
The New York Stock Exchange - Thi trường chứng
7 NYSE khoán New York
Ordinary Least Square Regression - Hồi quy tuyến tính
8 OLS ý ke ag
bình phương tôi thiêu
9 RMSE Foot Ngư Square Error - Căn bậc 2 của sai sô trung
bình bình phương
10 RR Ridge Regression - Hồi quy Ridge
11 SVM Support Vector Machine - Thuật toán máy vecto hỗ trợ
J2 SVR Support Vector Regression - Thuật toán hôi quy vectơ hỗ
trợ
vi
Trang 9LỜI CAM ĐOAN
Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi và được sự hướng
dẫn khoa học của ThS Phạm Thế Sơn Một phần nội dung nghiên cứu, kết quả trong đề
tài này là trung thực Những số liệu trong các bảng biểu phục vụ cho việc phân tích,
nhận xét, đánh giá được chính tác giả thu thập từ các nguồn khác nhau và cũng ghi rõtrong phan tài liệu tham khảo
Nếu phát hiện có bất kỳ sự gian lận nào tôi xin hoàn toàn chịu trách nhiệm về nộidung khóa luận của mình Trường Đại Học Công Nghệ Thông Tin TP Hồ Chí Minh
không liên quan đến những vi phạm tác quyền, bản quyền do tôi gây ra trong quá trình
thực hiện (nếu có)
Nhóm tác giả
Bùi Thành Khoa - Dinh Trường Sơn
vii
Trang 10LOI CAM ON
Trước hết với tình cảm chân thành va lòng biết ơn sâu sắc, tôi xin gửi lời cảm ơnđến quý Thay/Cé trong Khoa Khoa học và Kỹ thuật Thông tin thuộc Trường Dai HọcCông Nghệ Thông Tin TP Hồ Chí Minh đã tận tình giúp đỡ tôi trong quá trình học tập
và nghiên cứu dé hoàn thành Khóa luận Tốt nghiệp
Đặc biệt, tôi xin bày tỏ lòng biết ơn sâu sắc đến thầy Phạm Thế Sơn đã dành
nhiều thời gian tâm huyết, trực tiếp hướng dẫn tận tình, chỉ bảo và tạo điều kiện thuậnlợi cho tôi trong suốt quá trình thực hiện nghiên cứu dé tài và hoàn chỉnh Khóa luận Tốt
nghiệp ngành Công nghệ thông tin.
Cuối cùng, tôi xin chân thành cảm ơn gia đình và bạn bè đã động viên, khích lệ,
sẻ chia, giúp đỡ và đồng hành cùng tôi trong cuộc sống cũng như trong quá trình học
tập, nghiên cứu.
Nhóm tác giả
Bùi Thành Khoa — Dinh Trường Sơn
viii
Trang 11TOM TAT KET QUA
Phân tích quan hệ giữa tỷ suất sinh lợi và rủi ro chứng khoán là một trong nhữngvấn đề quan trọng trong phân tích tài chính Mục tiêu của nghiên cứu này nhằm áp dụng
các thuật toán hồi quy vectơ hỗ trợ (SVR), hồi quy Ridge (RR) và hồi quy Lasso (LR)
cho mô hình Fama-French 5 nhân tố bao gồm thị trường (Mkt), quy mô (SML), giá trị(HML), khả năng sinh lời (RMW) và đầu tư (CMA) để giải thích những biến động về
lợi nhuận kỳ vọng của các danh mục đầu tư đa dang
Nghiên cứu đã xem xét thị trường chứng khoán ở Mỹ từ tháng 7 năm 1963 đến
tháng 9 năm 2021 Các cỗ phiếu được nhóm thành mười danh mục đầu tư theo ngành
và được tách thành hai giai đoạn Trong giai đoạn 1, nghiên cứu nay đã lựa chọn các
siêu tham số tối ưu cho các thuật toán SVR, RR và LR Trong giai đoạn 2, nghiên cứu
đã sử dụng các siêu tham số tối ưu thu được trong giai đoạn 1 để thiết lập bốn mô hình
dự báo sử dụng bốn thuật toán khác nhau: SVR, RR, LR và OLS (Bình phương tối
thiểu) Phương pháp tiếp cận cửa số cuón (rolling window) được sử dụng dé tạo dự báo
Dựa trên thang đo sai số trung bình bình phương (RMSE), kết quả chỉ ra rằng
thuật toán hồi quy Lasso có sai sé dự đoán nhỏ nhất; tuy nhiên, sự khác biệt này không
có ý nghĩa thống kê qua F-test Bên cạnh đó, trong quá trình thực hiện khóa luận tốt
nghiệp, chúng tôi đã công bó kết quả của dé tài trên tap chí quốc tế (Journal of System
and Management Sciences) thuộc danh mục SCOPUS được xếp hạng Q3
ix
Trang 12CHUONG 1 TONG QUAN NGHIÊN CUU
Tóm tắt Trong chương 1, chúng tôi trình bày lý do chọn dé tài nghiên cứu,
mô tả đối tượng nghiên cứu, đặt ra mục tiêu cần đạt được trong nghiên
cứu, xác định phương pháp nghiên cứu, giới hạn phạm vi nghiên cứu, các
ý nghĩa của nghiên cứu Cuối cùng, trình bày bố cục của khóa luận tốt
nghiệp.
1.1 Ly do chọn đề tài
Học máy là một lĩnh vực của trí tuệ nhân tạo và được ứng dụng nhiều trong ngành
khoa học dữ liệu Thuật ngữ "học máy" đề cập đến lĩnh vực nghiên cứu tập trung vàoviệc xây dựng các mô hình dé đưa ra dự báo Học máy là quá trình tạo ra thông tin từ
dữ liệu, sau đó thông tin được sử dụng để dự đoán và tạo ra kiến thức, làm giảm sự
không chắc chắn vì nó chỉ ra cách giải quyết các van dé cụ thể Ứng dụng của học máyđặc biệt hữu ích trong việc giải quyết các tác vụ mà giải pháp phân tích không thé địnhhướng rõ ràng, chang hạn như xử lý hình ảnh và giọng nói, nhận dạng mẫu hoặc các tác
vụ phân loại phức tạp Thông qua học máy, nhà nghiên cứu có thé học hỏi từ đữ liệu vàcải thiện hiệu suất của công việc theo thời gian
Một trong những nhiệm vụ quan trọng nhưng khó khăn nhất sử dụng chuỗi thờigian là dự báo thị trường chứng khoán [1] Dữ liệu chuỗi thời gian về giá chứng khoán
không cố định trên thị trường tài chính rất khó xác định [2, 3] bởi vì chúng là nhữngchuỗi ngẫu nhiên có xu hướng phi tuyến tính do bị ảnh hưởng bởi nền kinh tế chung,đặc điểm của các ngành, chính trị và thậm chí là tâm lý của các nhà đầu tư [1 4] Gia
thuyết thị trường hiệu quả (Efficient Market Hypothesis) cho rằng giá của chứng khoán
là một bước đi ngau nhiên (random walk), do đó khó có thé đoán trước được [5, 6]; mặc
dù việc nghiên cứu các mô hình dự báo tỷ suất sinh lợi vẫn đang thu hút rất nhiều sự
quan tâm từ giới học thuật và thực nghiệm [7] Nghiên cứu của Kumar và Thenmozhi
[8], Atsalakis và Valavanis [9], Malkiel [10] đã nêu ra bằng chứng trái ngược nhau về
tính hiệu quả của thị trường tài chính Do đó, một mô hình dự đoán có khả năng tạo ra
lợi nhuận vượt trội, sẽ không chỉ thể hiện bằng chứng mạnh mẽ bác bỏ với giả thuyết
1
Trang 13thị trường hiệu quả, mà còn mang lại lợi nhuận cho các doanh nghiệp từ các hoạt động
tài chính Các nghiên cứu gần đây đã đề xuất các mô hình nhằm tăng hiệu quả dự báo
dựa trên dữ liệu lịch sử Những phương pháp phổ biến được sử dụng đề dự báo kết quả
như chỉ báo trung bình động, mô hình tự hồi quy, phân tích khác biệt và phân tích tương
quan [8, II] Gần đây hơn, một xu thế mới được tập trung nghiên cứu trong việc dựđoán chuỗi thời gian là học máy, nhằm xử lý dữ liệu ngẫu nhiên va phi tuyến tính [1]
Đối với phương pháp hồi quy và phân loại, thuật toán SVM (Support Vector
Machine) đã trở nên nổi bật và được coi là một công cụ hiện đại [12] Dự báo giá cổ
phiếu bằng cách sử dụng mô hình dựa trên ánh xạ ngẫu nhiên (chaotic mapping), thuật
toán dom đóm (firefly algorithm), và hồi quy vecto hỗ trợ (Support Vector Regression,
SVR) được đề xuất bởi Kazem và cộng sự [13] SVM được sử dụng bởi Chen và cộng
sự [14] để dự đoán sự biến động của thị trường chứng khoán Mỹ Dự báo và ước lượng
trong tài chính là công cụ đầu tiên sử dụng SVM hoặc SVR, thay vì ước lượng hợp lý
cực đại [15, 16].
Một trong những hạn chế của các nghiên cứu trước đó là phương pháp phân chiatập dữ liệu Do đặc điểm của chuỗi thời gian nên các thông số của mô hình cũng thay
đổi theo từng thời điểm Do đó, phương pháp cửa số cuộn nên được sử dụng dé dự đoán
chuỗi thời gian Ngoài ra, thời lượng của dữ liệu lịch sử cũng cần được xem xét dựa trên
tính đại diện của mẫu Nghiên cứu này sử dụng phương pháp tiếp cận cửa số cuốn chiếu
với độ dài dữ liệu lịch sử là 5 năm Tại Việt Nam, SVM/SVR đã được ứng dụng rộng
rãi trong nhiều lĩnh vực của đời sống Trong lĩnh vực giáo dục, Nguyễn [17] đã sử dụng
thuật toán toán f-SVM để tôi ưu hóa hồi quy và mô hình mờ Takagi-Sugeno trong phântích dữ liệu điểm sinh viên Kiên và cộng sự [18] sử dụng kết hợp giữa giải thuật di
truyền (GA- Genetic Algirithm) va SVR dé dự báo giá chứng khoán của Việt Nam trong
lĩnh vực tài chính Cũng trong lĩnh vực tài chính, Nguyen va Pham [19] dựa vào hồi quy
học máy tối ưu dé xây dựng mô hình liên kết giữa thuật toán dom dom và bình phương
vector hỗ trợ hồi quy (Least Squares Support Vector Regression) đề xuất mô hình dựđoán giá cổ phiếu các công ty xây dựng Ngoài ra, Dũng và Phương [20] đã sử dụng
SVR dé ước lượng các dữ liệu bị thiếu bằng cách phát triển mô hình hồi quy dé tự độngtối ưu hóa các tham số Như vậy, đối với lĩnh vực tài chính, các nghiên cứu liên quan
đến SVR tại Việt Nam còn nhiều hạn chế Đồng thời, các nghiên cứu trước đây cũng
2
Trang 14chưa chỉ được một mô hình tối ưu Do đó, nhóm nghiên cứu đã quyết định chọn đề tài
“Phân tích quan hệ giữa tỷ suất sinh lợi và rủi ro chứng khoán: ứng dụng MachineLearning” cho khóa luận tốt nghiệp
1.2 Đối tượng nghiên cứu
Nghiên cứu tập trung vào thông tin cô phiếu NYSE, AMEX và NASDAQ vào
danh mục đầu tư ngành vào cuối tháng 6 năm t dựa trên mã SIC bốn chữ số của nó tại
thời điểm đó! Sau đó, nghiên cứu sẽ tính toán lợi nhuận từ tháng 7 của t đến tháng 6
của t +1.
Ngoài ra, nghiên cứu còn ứng dụng các thuật toán học máy như hồi quy tuyến tính
bình phương tối thiểu (OLS - Ordinary Least Square Regression), hồi quy dựa theoVector hỗ trợ (SVR - Support Vector Regression), Hồi quy Ridge (RR - Ridge
Regression), và hồi quy Lasso (LR - Lasso Regression) vào mô hình lý thuyết
Fama-French 5 nhân tố
1.3 Mục tiêu nghiên cứu
Phân tích quan hệ giữa ty suất sinh lợi và rủi ro chứng khoán là van đề nghiên cứu
chính mà chúng tôi đã đặt ra trong đề tài Để hoàn thành kết quả nghiên cứu, chúng tôi
đặt ra ba mục tiêu chính sau:
- Téng hợp các cơ sở lý thuyết liên quan đến thuật toán học máy và tài chính
doanh nghiệp liên quan đến mô hình Fama-French 5 nhân tố
- Cung cấp một phương pháp lựa chọn siêu tham số đầu vào tối ưu trong thuật
toán học máy dưới khung mô hình lý thuyết Fama-French 5 nhân tố
- So sánh hiệu quả của các thuật toán học máy SVR, LR, RR, va OLS
1.4 Phương pháp nghiên cứu
Nghiên cứu này sử dụng phương pháp nghiên cứu định tính và phương pháp nghiên
cứu định lượng để đạt được các mục tiêu nghiên cứu Trong nghiên cứu định tính, chúng
tôi sử dụng phương pháp phỏng vấn sâu dé thu thập ý kiến của các chuyên gia tài chính,chuyên gia về khoa học dữ liệu nhằm thu thập ý kiến về các vấn đề nghiên cứu, cũng
1 Chúng tôi sử dụng mã Compustat SIC cho năm tài chính kết thúc vào năm dương lịch t-1 Khi mã Compustat
SIC không thu thập được, nghiên cứu sử dụng mã CRSP SIC cho tháng 6 của năm t.
3
Trang 15như định hướng cho hàm ý quản trị trong ngành tài chính Ngoài ra, nghiên cứu còn sử
dụng phương pháp định lượng, thông qua việc áp dụng các học máy trong qua trình phân
tích dữ liệu dé đưa ra các nhận định liên quan đến lựa chọn tham số đầu vào tối ưu trong
thuật toán hoc máy đưới khung mô hình lý thuyết Fama-French 5 nhân tố Nghiên cứu
sử dụng ngôn ngữ R để xử lý dữ liệu thu thập với phần mềm R Studio
Để đánh giá kết quả sai số dự báo, chúng tôi đã chọn tiêu chí đánh giá RMSE (Root
Mean Square Error - Căn bậc 2 của sai số trung bình bình phương) Cuối cùng, nghiêncứu này sử dụng phân phối F để kiểm tra hiệu suất của các mô hình Kết quả nghiên cứu
bên cạnh so sánh giữa các thuật toán học máy với nhau thông qua độ chính xác, còn so
sánh với các nghiên cứu trước đây cùng lĩnh vực.
1.5 Pham vi nghiên cứu
Dữ liệu sẽ được thu thập từ 07/1963 đến 09/2021 bao gồm các thông tin cỗ phiếu
NYSE, AMEX và NASDAQ.
Nghiên cứu được thực hiện trên thị trường Mỹ, dữ liệu được cung cấp từ French
Data Library.
1.6 Dong góp của nghiên cứu
Về mặt lý thuyết, nghiên cứu đã chỉ ra được phương pháp lựa chọn tham số đầu
vào tối ưu trong thuật toán học máy dưới khung mô hình lý thuyết Fama-French 5 nhântố
Về thực tiễn, nghiên cứu đã chỉ ra được tính hiệu quả về mặt dự báo tỷ suất sinhlợi của các danh mục đầu tư, làm tiền đề cho các nhà đầu tư lựa chọn phương pháp dự
báo phù hợp theo phương pháp học máy.
1.7 Bố cục của đề tài
Chương 1 Tổng quan nghiên cứu Ở phan này nghiên cứu sẽ trình bày về lý do
chọn dé tài nghiên cứu Qua đó, chương | cũng trình bày về đối tượng nghiên cứu, mục
tiêu nghiên cứu, phương pháp nghiên cứu, phạm vi nghiên cứu, ý nghĩa của nghiên cứu.
Đồng thời, bố cục của nghiên cứu cũng được trình bày ở chương này
Trang 16Chương 2 Cơ sở lý thuyết Chương này cung cấp một cái nhìn tổng quan về học
máy, và học máy trong lĩnh vực tài chính Hơn nữa, chúng tôi đề cập đến mô hình Fama
— French 5 nhân tổ như một lý thuyết nền tảng cho nghiên cứu
Chương 3 Phương pháp nghiên cứu Chương này tập trung vào phương pháp
nghiên cứu của khóa luận được sử dụng đề thiết kế và chuẩn bị các kết quả thực nghiệm
Phương pháp nghiên cứu mô tả toàn bộ phương pháp ước lượng các hệ số hồi quy dựa
trên mô hình chuỗi thời gian nhằm phát triển một mô hình hiệu quả tạo ra các dự báo
chính xác cho các bộ dữ liệu tài chính Nó bao gồm các bước thu thập dữ liệu, làm sạch
dữ liệu, quy trình học tập và đánh giá hiệu suất
Chương 4 Kết quả nghiên cứu Chương này báo cáo các kết quả thực nghiệm rút
ra từ các phương pháp luận được đề xuất Phân tích so sánh được thực hiện nhằm mục
đích chọn một mô hình cung cấp kết quả tốt nhất dựa trên thang đo RMSE Ngoài ra,việc xem xét chỉ tiết các kết quả thống kê mô tả, tương quan của tập dữ liệu được trình
bày trong chương này.
Chương 5 Kết luận Chương này tóm tắt toàn bộ công việc nghiên cứu bao gồmcác thảo luận, kết luận, những hạn chế cũng như tính khả thi của những cải tiến tiềm
năng của nghiên cứu và những dé xuất để có thé mở rộng nghiên cứu trong tương lai
Trang 17CHƯƠNG2 CƠ SỞ LÝ THUYET
Tóm tắt Chương này trình bày tổng quan về học máy và ứng dụng họcmáy trong lĩnh vực tài chính Bên cạnh đó, chúng tôi đề cập đến mô hình
Fama — French 5 nhân tố như một lý thuyết nền tảng dé thực hiện nghiên
cứu.
2.1 Học máy
2.1.1 Định nghĩa và phân loại
Học máy là một lĩnh vực của trí tuệ nhân tạo và được ứng dụng nhiều trong phântích dữ liệu tài chính Các thuật toán học máy sử dụng dữ liệu lich sử làm đầu vào dé dự
đoán các giá trị đầu ra mới Học máy là một tập hợp con của khoa học dữ liệu cung cấp
khả năng học hỏi và cải thiện từ kinh nghiệm mà không cần được lập trình [21]
Máy học cổ điển thường được phân loại theo cách một thuật toán học để trở nên
chính xác hơn trong các dự đoán của nó Có bốn cách tiếp cận cơ bản: học có giám sát,
học không giám sát, học bán giám sát và học tăng cường Thuật toán mà các nhà khoa
học chọn phụ thuộc vào loại dữ liệu mà họ muốn dự đoán
¢ Hoc có giám sát: Trong loại học máy này, các nhà khoa học dữ liệu cung cấp các
thuật toán với dữ liệu huấn luyện được gắn nhãn và xác định các biến mà họ
muốn thuật toán đánh giá dé tìm mối tương quan Ca đầu vào và đầu ra của thuậttoán đều được chỉ định
e Hoc không giám sát: Loại học máy này liên quan đến các thuật toán đảo tạo trên
dữ liệu không được gắn nhãn Thuật toán quét qua các tập dữ liệu dé tìm kiếmcác đặc trưng có mối quan hệ với nhau Dữ liệu trong quá trình dao tạo cũng như
các dự đoán hoặc khuyến nghị được xác định trước.
¢ Hoc bán giám sát: Cách tiếp cận này là sự kết hợp giữa học có giám sát và học
không giám sát Phương pháp này sử dụng dữ liệu đã gán nhãn và chưa gán nhãn
để phát trién mô hình Chúng ta có thể xác định thuật toán chủ yếu dựa trên tập
Trang 18đữ liệu huấn luyện được gắn nhãn, tiếp theo mô hình có thể tự động thăm dò dữliệu dé cải thiện độ chính xác.
¢ Hoc tăng cường: Các nhà khoa học dữ liệu thường sử dụng học tăng cường dé
dạy máy hoàn thành quy trình gồm nhiều bước trong đó có các quy tắc được xác
định rõ ràng Các nhà khoa học dữ liệu lập trình một thuật toán để hoàn thànhmột nhiệm vụ và cung cấp cho nó những dấu hiệu tích cực hoặc tiêu cực khi nó
tìm ra cách hoàn thành một nhiệm vụ Nhưng phần lớn, thuật toán tự quyết định
những bước cần thực hiện trong quá trình thực hiện
2.1.2 Ung dụng của học máy
Ngày nay, học máy được sử dụng trong một loạt các ứng dụng Có lẽ một trong
những ví dụ nồi tiếng nhất về hoạt động của học máy là công cụ đề xuất cung cấp nănglượng cho nguồn cấp tin tức của Facebook Facebook sử dụng công nghệ học máy đề cá
nhân hóa cách thức phân phối nguồn cấp dữ liệu của mỗi thành viên Nếu một thành
viên thường xuyên dừng lại để đọc bài đăng của một nhóm cụ thể, công cụ đề xuất sẽbắt đầu hiển thị nhiều hoạt động của nhóm đó sớm hon trong nguồn cấp dữ liệu
Ngoài các công cụ đề xuất, các ứng dụng khác cho học máy bao gồm:
© Quan trị quan hệ khách hàng Phần mềm quan trị quan hệ khách hàng có thé sử
dụng mô hình học máy đề phân tích email và nhắc nhở các thành viên trong nhómbán hàng trả lời những thông điệp quan trọng nhất trước Các hệ thống nâng cao
hơn thậm chí có thé dé xuất các phản hồi tiềm năng hiệu quả
e Tài chính: Các ngân hàng, công ty môi giới giao dich và công ty fintech sử dụng
thuật toán học máy để tự động hóa giao dịch và cung cấp dịch vụ tư vấn tài chính
cho các nhà đầu tư Bank of America đang sử dụng một chatbot, Erica, để tự động
hóa hỗ trợ khách hàng
e Cham sóc sức khỏe: học máy được sử dung dé phân tích các bộ dữ liệu chăm sóc
sức khỏe khổng lồ nhằm đầy nhanh việc khám phá các phương pháp điều trị vàchữa bệnh, cải thiện kết quả của bệnh nhân và tự động hóa các quy trình thường
quy đề ngăn ngừa sai sót của con người Vi dụ: Watson của IBM sử dụng khaithác dit liệu dé cung cấp dữ liệu bác sĩ mà họ có thé sử dụng để cá nhân hóa việc
điều trị cho bệnh nhân
Trang 19e Phát hiện gian lận: AI dang được sử dụng trong lĩnh vực tài chính và ngân hang
dé tự động phân tích số lượng lớn các giao dịch nhằm phát hiện hoạt động gian
lận trong thời gian thực Công ty dịch vụ công nghệ Capgemini tuyên bố rằngcác hệ thống phát hiện gian lận sử dụng học máy và phân tích giảm thiểu thời
gian điều tra gian lận tới 70% và cải thiện độ chính xác của việc phát hiện lên
90%.
¢ Ban lẻ: Các nhà nghiên cứu và phát triển AI đang sử dụng thuật toán học máy dé
phát triển các công cụ dé xuất AI đưa ra các dé xuất sản phẩm có liên quan dựa
trên các lựa chọn trước đây của người mua, cũng như dữ liệu lịch sử, địa lý và
nhân khẩu học
e - Hệ thống thông tin nguồn nhân lực: Hệ thống quản trị nguồn nhân lực có thể sử
dụng mô hình học máy đề lọc thông qua các ứng dụng và xác định các ứng viêntốt nhất cho một vị trí mở
© Xe ô tô tự lái: Các thuật toán học máy thậm chí có thể giúp một chiếc xe bán tự
hành có thể nhận ra một đối tượng có thể nhìn thấy một phần và cảnh báo cho
người lái xe.
¢ Trợ lý ảo: Trợ lý thông minh thường kết hợp các mô hình học máy có giám sát
và không giám sát để diễn giải giọng nói tự nhiên và ngữ cảnh cung cấp.
2.2 Học máy trong tài chính
Học máy được áp dụng cho các van đề kinh tế có thé dược bắt nguồn từ đầu năm
1974 mặc dù chỉ là một đề cập đơn thuần trong phần tóm tắt của nghiên cứu [22] Bàibáo đầu tiên mà chúng tôi xem qua thực sự áp dụng phương pháp học máy riêng cho
một van đề kinh tế là nghiên cứu của Wang và cộng sự [23] Bài báo chấp nhận thuật
ngữ AI, và thuật ngữ chính xác đáng lẽ phải là học máy Năm 1988, White [24] đã xuấtbản một bài báo liên quan đến ứng dụng mạng thần kinh đề dự báo lợi nhuận hàng ngày
của cô phiếu IBM Kể từ đó, sự xuất hiện của học máy trong kinh tế học tăng dần đều.Ban đầu, nó được áp dụng trong dự báo chuỗi thời gian tài chính, nơi các bộ dữ liệu dài
được phổ biến rộng rãi Cần có các hệ thống học máy từ thời đó dé đào tạo hiệu quả các bộ dữ liệu mở rộng không tồn tại trong các lĩnh vực kinh tế học khác Hơn nữa, việc
-đào tạo rất tốn thời gian do khả năng xử lý tương đối thấp của các máy tính thời kỳ đó
Trang 20Ngày nay, việc sử dụng nhiều kiến trúc học máy mới không yêu cầu các tập dữ liệu dàimột cách bat hợp lý, là một con đường thú vị và rất hứa hen trong dự báo kinh tế Day
là trường hợp không chỉ đối với các van đề tài chính mà còn cả các ứng dụng kinh tế vĩ
mô hoặc kinh tế vi mô, nơi các tập dữ liệu vốn có giới hạn về kích thước Kết quả là,các ứng dụng học máy gần đây trong các chu kỳ kinh doanh và dự báo suy thoái đường
như rất thành công so với các mô hình thực nghiệm truyền thống Hiện tại, chúng ta gặp
phải những phương pháp luận mới hợp nhất và kết hợp Kinh tế lượng với học máy (tức
là Garch — SVM) Hơn nữa, điều thú vị là các kỹ thuật học máy và quy trình thực nghiệmnhư xác thực chéo hiện đang phổ biến và được áp dụng đều đặn cho các phương pháp
luận kinh tế lượng truyền thống
Học máy trong tài chính hiện được coi là một khía cạnh quan trọng của một sốdịch vụ và ứng dụng tài chính, bao gồm quản lý tài sản, đánh giá mức độ rủi ro, tính
toán điểm tín dụng và thậm chí phê duyệt các khoản vay Học máy có xu hướng chính
xác hơn trong việc rút ra thông tin chỉ tiết và đưa ra dự đoán khi lượng lớn đữ liệu đượcđưa vào hệ thống Ví dụ: ngành dịch vụ tài chính có xu hướng gặp phải khối lượng dữliệu khổng 16 liên quan đến các giao dich hàng ngày, hóa đơn, thanh toán, nhà cung cấp
và khách hàng, những dữ liệu này hoàn hảo cho học máy.
Ngày nay, nhiều công ty tài chính và công nghệ tài chính hàng đầu đang kết hợphọc máy vào hoạt động của họ, dẫn đến quy trình hợp lý hóa tốt hơn, giảm rủi ro và
danh mục đầu tư được tối ưu hóa tốt hơn
Giao dịch theo thuật toán đề cập đến việc sử dụng các thuật toán để đưa ra các
quyết định giao dịch tốt hơn Thông thường, các nhà giao dịch xây dựng các mô hìnhtoán học theo dõi tin tức kinh doanh và hoạt động giao dịch trong thời gian thực đề phát
hiện bat kỳ yếu tố nào có thể buộc giá chứng khoán tăng hoặc giảm Mô hình đi kèm
với một bộ hướng dẫn được xác định trước về các thông số khác nhau - chang hạn nhưthời gian, giá cả, số lượng và các yếu tố khác - để thực hiện các giao dịch mà không có
sự tham gia tích cực của nhà giao dịch Không giống như các nhà giao dịch con người,giao dich theo thuật toán có thé đồng thời phân tích khối lượng lớn dit liệu và thực hiện
hàng nghìn giao dịch mỗi ngày Máy học đưa ra các quyết định giao dịch nhanh chóng,mang lại lợi thế cho các nhà giao dịch là con người so với mức trung bình của thị trường
Trang 21Ngoài ra, giao dịch thuật toán không đưa ra quyết định giao dịch dựa trên cảm xúc, đây
là một hạn chế phổ biến ở các nhà giao dich con người, những người mà phán đoán của
họ có thể bị ảnh hưởng bởi cảm xúc hoặc nguyện vọng cá nhân Phương pháp giao dịch
hầu hết được sử dụng bởi các nhà quản lý quỹ đầu cơ và các tổ chức tài chính đề tự động
hóa các hoạt động giao dịch.
Cố vấn robot là các ứng dụng trực tuyến được xây dựng bằng học máy và chúng
cung cấp lời khuyên tài chính tự động cho các nhà đầu tư Các ứng dụng sử dụng cácthuật toán đề thiết lập danh mục đầu tư tài chính theo mục tiêu của nhà đầu tư và khảnăng chấp nhận rủi ro của họ Các nhà tư van r6-bét yêu cau tài khoản tối thiêu thấp và
thường rẻ hơn so với các nhà quản lý danh mục đầu tư của con người Khi sử dụng robot
cố vấn, nhà đầu tư được yêu cầu nhập mục tiêu đầu tư hoặc tiết kiệm của họ vào hệ
thống và hệ thống sẽ tự động xác định các cơ hội đầu tư tốt nhất với lợi nhuận cao nhất.
Ví dụ, một nhà đầu tư 30 tuổi với mục tiêu tiết kiệm 500.000 đô la vào thời điểm họ
nghỉ hưu có thể nhập các mục tiêu này vào ứng dụng Sau đó, ứng dụng sẽ phân bổ cáckhoản đầu tư trên các công cụ tài chính và các loại tài sản khác nhau - chang hạn như cô
phiếu, trái phiếu, bat động san, v.v - dé đạt được mục tiêu dài hạn của nhà dau tư Ứng
dụng tối ưu hóa mục tiêu của nhà đầu tư theo xu hướng thị trường thời gian thực để tìm
ra chiến lược đa dạng hóa tốt nhất
2.3 Máy vectơ hỗ trợ (SVM - Support Vector Machine)
Trong những năm gần đây, niềm tin về sự tồn tại kiểu mẫu trong dữ liệu tài chính
đã khuyến khích các nhà nghiên cứu phát triển các kỹ thuật dự báo trong đó dữ liệu lịch
sử được nghiên cứu để xác định hành vi thị trường trong tương lai Các kỹ thuật dự báotrước đây, chang hạn như phân tích cơ bản, kỹ thuật và kỹ thuật thống kê hầu hết đều
thất bại trong vấn đề dự đoán dữ liệu chuỗi thời gian phi tuyến và cho kết quả kém chính
xác hơn Do đó, để khắc phục hạn chế của mô hình tuyến tính truyền thống, cần phải tạo
ra mô hình phổ quát hơn Kỹ thuật học máy đã trở thành ứng cử viên xuất sắc dé giải
quyết van đề dự đoán dữ liệu tài chính vì chúng có khả năng tìm và nhận ra sự phụ thuộc
phi tuyến giữa các biến khác nhau Hiện tại, các kỹ thuật học máy phé biến nhất là mạng
nơ-ron nhân tao và máy vectơ hỗ trợ (SVM) So với mạng nơ-ron, máy vectơ hỗ trợ
(SVM) là kỹ thuật tương đối mới trong lĩnh vực học máy SVM là những mô hình mạnh
10
Trang 22mẽ, có cơ sở về mặt lý thuyết và đã được sử dụng hiệu quả trong các ứng dụng thực tế
khác nhau Chúng tôi nêu bật một số nghiên cứu quan trọng về việc sử dụng SVM trong
lĩnh vực dự báo tài chính.
Tay và Cao [2] đã kiểm tra khả năng sử dụng SVM trong lĩnh vực dự báo tài chính
Họ đã áp dụng một hệ thống dựa trên SVM đề dự đoán các hợp đồng tương lai thu được
từ Chicago Mercantile Exchange (CME) Nhóm tác giả đã tiến hành phân tích so sánh
bằng cách so sánh mô hình SVM với mạng no ron đa lớp lan truyền ngược (BP - layer backpropagation neural network) Kết quả mô phỏng của họ cho thấy SVM hoạtđộng tốt hơn mạng BP dựa trên các tiêu chí đánh giá khác nhau và do đó SVM có thể
multi-được áp dụng thành công cho dir liệu tài chính.
Yang và cộng sự [25] đề xuất một mô hình SVM để phân tích hồi quy SVR cho
nhiệm vụ dự đoán tài chính Họ đã áp dụng mô hình SVR dé phan ánh sự thay đổi vềtính bất ồn của dữ liệu tài chính Kết quả thử nghiệm của họ cho thay rằng việc sử dụng
độ lệch chuân để tính toán một biên độ thay đổi đã mang lại một kết quả dự đoán tốt
trong dự đoán Chỉ số Hang Seng (HSI) của Hồng Kông bằng cách cung cấp một tỷ lệsai số tối thiểu
Kim [26] đã nghiên cứu các thuộc tính của SVM như một yếu tố dự báo cho chỉ số
giá cô phiếu Hiệu suất dự đoán của SVM với các mạng no-ron khác và các phươngpháp suy luận dựa trên trường hợp (CBR - case-based reasoning) đã được kiểm tra Kết
quả thử nghiệm cho thấy SVM vượt trội hơn mạng BP và các phương pháp CBR, đồngthời kết luận rằng hiệu suất dự đoán của SVM có thể tăng lên bằng cách chọn các tham
số tối ưu của giới hạn trên và hàm nhân
Huang và cộng sự [27] đã áp dụng SVM dé dự báo hướng di chuyển hàng tuần của
chỉ số NIKKEI 225 Để đánh giá khả năng dự báo của mô hình SVM, các tác giả đã
trình bày phân tích so sánh bằng cách xem xét hoạt động của mô hình dé xuất và các mô
hình khác dựa trên phân tích phân biệt tuyến tính (LDA - linear discriminant analysis),
phân tích phân biệt bậc hai (QDA - quadratic discriminant analysis) và mạng nơ ron
Elman BP Kết quả thực nghiệm cho thấy SVM hoạt động tốt hơn so với các phươngpháp phân loại khác và việc sử dụng các mô hình tích hợp có thé làm tăng độ chính xác
của kết quả dự đoán
11
Trang 23Hsu và cộng sự [28] đã áp dụng kiến trúc hai giai đoạn dé du đoán giá cổ phiếu Họ
đã áp dung bản đồ tự tổ chức (SOM - self-organizing maps ) dé phân tách và phân loại
dữ liệu đầu vào và sử dụng héi quy vectơ hỗ trợ (SVR) dé dự báo các chỉ số tài chính
Quá trình lựa chọn tính năng được thực hiện thông qua thuật toán lựa chọn tương quan
hồi quy từng bước (SRCS - stepwise regression-correlation selection) Ngoài ra, các chỉ
số cơ bản và kỹ thuật đã được xem xét trong quá trình xây dựng mô hình Các thí nghiệm
được thực hiện trên bốn giống chính đã cho thấy rằng hiệu suất dự báo của mô hình laichính xác hơn hiệu suất của mô hình SVR tiêu chuẩn
Kazem và cộng sự [13] đã đề xuất một mô hình dự báo thị trường chứng khoán kết
hợp dựa trên ánh xạ hỗn loạn, thuật toán đom đóm và kỹ thuật hồi quy vectơ hỗ trợ
(SVR) Nghiên cứu đã sử dụng một thuật toán dom dom đã được sử dụng để tối ưu hóasiêu tham số SVR Cuối cùng, thuật toán SVR được tối ưu hóa đã được áp dụng dé dự
báo giá thị trường chứng khoán Kết quả mô phỏng của họ sử dung dé liệu lịch sử từ
sàn giao dịch chứng khoán NASDAQ đã cho thấy tính ưu việt của mô hình đề xuất so
với các mô hình khác.
Gogas và cộng sự [29] sử dụng SVR so sánh với OLS đối với các mô hình: CAPM
(Capital Asset Pricing Model - Mô hình định giá tài sản) , Fama 3 và 5 nhân tối, mô hình
APT Dữ liệu sử dụng như sau: Đối với mô hình CAPM và mô hình Fama 3 nhân tố7/1926 đến 12/2014 với 1062 quan sát, mô hình Fama 5 nhân tố 7/1963 đến 12/2014 với
618 quan sát, mô hình APT từ 2/1986 đến 12/2014 với 346 quan sát, tất cả dữ liệu đềulấy trên sàn chứng khoán Mỹ Tiêu chí chất lượng mô hình dựa vào R? hiệu chỉnh và
MAPE (Mean Absolute Percent Error - Phan trăm sai số tuyệt đối trung bình) Kết quả
cho cho thấy phương pháp SVR với kernel dạng mũ và đa thức hỗ trợ dự đoán tốt hơnphương pháp hồi quy OLS thông thừng thông qua chỉ số MAPE và R? hiệu chỉnh Một
nhược điểm của nghiên cứu là không cập nhật mô hình dự báo theo thời gian làm mất
ưu thế của học máy
Henrique và cộng sự [30] trong nghiên cứu dự đoán giá cô phiếu sử dụng SVR cho
dữ liệu hàng ngày có cập nhật mô hình theo theo gian, khắc phục nhược điểm ở nghiên
cứu Gogas (2018) Nhóm tác giả so sánh với mô hình bước đi ngẫu nhiên trong giả
thuyết thị trường hiệu quả, nhóm tác giả sử dụng 2 tiêu chí đánh giá chất lượng mô hình
12
Trang 24là MAPE va RMSE Dữ liệu nghiên cứu bao gồm cổ phiếu ở Brazil, Mỹ và Trung quốc
giai đoạn từ năm 2002 đến 2017 Nhóm tác giả chia dữ liệu ra 2 giai đoạn theo tỉ lệ 7:3,giai đoạn đầu cho việc xác định các tham số đầu vào và giai đoạn sau cho tập kiểm tra,
bao gồm giá hàng ngày và giá từng phút Hàm kernel được sử dụng cho SVR là cả 3
hàm: tuyến tính, đa thức và dạng mũ
2.4 Mô hình Fama - French 5 nhân tố
Mô hình định giá tài sản vốn (CAPM) được đề xuất đầu tiên bởi Treynor [31] dựatrên nền tảng lý thuyết đa dang hóa danh mục đầu tư Markowitz [32] Mô hình CAPM
lượng hóa mối quan hệ tuyến tính giữa tỷ suất sinh lợi và rủi ro của các tài sản rủi ro
Mô hình này nhanh chóng trở thành một trong những nền tảng lý thuyết trong lĩnh vực
tài chính hiện đại Không những trong giới học thuật sử dụng mà các nhà đầu tư, các tổchức quản lý quỹ cũng sử dụng do tính đơn giản của nó Đối với những dự án đầu tư rủi
ro, CAPM đưa ra một tỷ suất sinh lợi tối thiểu đề cho các nhà đầu tư tham khảo Đối vớicác sản phẩm tài chính đang giao dịch trên thị trường như cổ phiếu, trái phiếu, CAPM
cung cấp một ước tính rủi ro hệ thống của các sản phẩm này thông qua hệ số beta Tuy
nhiên, vì CAPM sử dụng quá nhiêu giả định rất khó được đáp ứng trên thực tế nên tínhthực tiễn của nó là một chủ đề gây tranh luận cho đến ngày nay Mối quan hệ giữa các
biến trong mô hình CAPM được xác định bởi phương trình:
CAPM :E()=", +Ø(E0)=r,}
Trong đó:
s® E(r)=Tỷ suất sinh loi kỳ vọng của tài sản i
e or, = Lãi suất phi rủi ro
© , = Hệ số beta của tài san i (do lường rủi ro hệ thống của tài sản)
© £E(r,) = Tỷ suất sinh lợi của thị trường
Những năm sau đó, Banz [33] phát hiện hiệu ứng quy mô ở thị trường Mỹ Cụ thé,
các công ty nhỏ dường như có tỷ suất sinh lợi cao hơn so với các công ty lớn Kết qua
này hàm ý rằng CAPM còn thiếu sót trong việc giải thích hiệu ứng quy mô Nghiên cứusau đó của Basu [34] cũng cho kết quả tương tự như Banz Đến năm 1992, Fama và
13
Trang 25French [35] phát hiện thêm hiệu ứng giá trị - tăng trưởng của cổ phiếu Cụ thé, các cỗphiếu giá trị (cô phiếu có tỷ số giá trị sé sách trên giá trị thị trường B/M lớn) có mức tỷ
suất sinh lợi cao hơn so với cô phiếu tăng trưởng (B/M nhỏ) Bằng cách thêm vào hai
nhân tố mới và giữ lại nhân tố thị trường, Fama và French đề xuất mô hình 3 nhân tố
(sau này gọi là mô hình Fama-French 3 nhân tố) Mô hình 3 nhân tố đã giải thích tốt hơn
so với mô hình CAPM trước đó, do đó nó đã được sử dụng rộng rãi lúc bây giờ
Mô hình Fama — French 3 nhân tố gồm có các nhân tố: quy mô, thị trường và B/M
Cụ thể, nhân tố quy mô được xây dựng bằng cách lấy tỷ suất sinh lợi các công ty nhỏtrừ cho tỷ suất sinh lợi công ty lớn (SMB), nhân tổ thị trường được đại diện bởi tỷ suất
sinh lợi vượt trội của danh mục mục thị trường (Mkt), nhân tố B/M được tính toán bằng
cách lay cổ phiếu có giá trị cao trừ cổ phiếu có giá trị thấp (HML) Phương trình hồi quy
chuỗi thời gian có dạng:
tự —r„ =ơ, + 8MkI, + B,SMB, + B,HML + e,
Trong đó:
© — r„ = Tỷ suất sinh lợi của tài sản i ở thời điểm t
© _ r„= Lãi suất phi rủi ro ở thời điểm t
© = Mkt, = Tỷ suất sinh lợi vượt trội của danh mục thị trường ở thời điểm t.
e SMB,= Phan bù quy mô (quy mô nhỏ trừ quy mô lớn).
e HML, = Phần bù giá trị (cô phiếu giá trị trừ cô phiếu tăng trưởng).
© Bo, = Các hệ số hỏi quy
© £„ = Sai số ngẫu nhiên
Bằng cách sử dụng hàng nghìn danh mục cổ phiếu ngẫu nhiên, Fama và French đã
tiến hành các nghiên cứu để kiểm tra mô hình của họ và nhận thay rang khi cac yéu t6quy mô và giá trị được kết hợp với hệ số beta, thì mô hình có thé giải thích tới 89% lợi
nhuận trong một danh mục cổ phiếu đã được đa dạng hóa Với khả năng giải thích 89%lợi nhuận của danh mục đầu tư so với toàn bộ thị trường, nhà đầu tư có thể xây dựng
danh mục đầu tư trong đó họ nhận được lợi tức kỳ vọng trung bình theo rủi ro tương đối
mà họ đã xây dựng trong danh mục dau tư của mình
14
Trang 26Tiếp tục phát triển mô hình 3 nhân tố, Fama và French [36] thêm vào hai nhân tố
liên quan đến đầu tư và lợi nhuận của công ty Sử dụng mô hình 5 nhân tố, Fama-French
đã tiễn hành kiểm định trên thị trường Mỹ giai đoạn 7/1963 đến 12/2013 Mô hình đã
giải thích khoảng 71% đến 94% biến động của chuỗi tỷ suất sinh lợi của các danh mục
đa dạng hóa Khi so sanh với mô hình 3 nhân tố, mô hình 5 nhân tố hiệu quả hơn trongviệc giải thích biến động tỷ suất sinh lợi
Một số kiểm định liên quan đến mô hình Fama-French 5 nhân tố điển hình 39] Cakici [37] nghiên cứu thị trường chứng khoán trên 23 nước phát triển trong giaiđoạn 7/1992 đến 12/2014 Kết quả nghiên cứu này thu được như sau: đối với các thị
[37-trường như Bắc Mỹ, Châu Âu và thị [37-trường Quốc Tế thì mô hình 5 nhân tố hiệu quả hơn
so với mô hình 3 nhân tố, hầu hết các nhân tố đầu có ý nghĩ thống kê, nhân tố HML đôikhi không có ý nghĩa thống kê Đối với thị trường Nhật Bản và Châu Á Thái Bình
Dương, hai nhân tố mới thêm vào của mô hình 5 nhân tố tác động không có ý nghĩathống kê hoặc có mức độ rất thấp Ở nghiên cứu của Gruodis [38], tác giả nghiên cứu
trên thị trường chứng khoán Thụy Điền trên 600 công ty từ năm 1991 đến 2014 Kết quảcũng tương tự: Mô hình 5 nhân tố hiệu quả hơn so với mô hình 3 nhân tố, hơn nữa nhân
tố HML không có ý nghĩa thống kê Zheng [39] nghiên cứu trên thị trường chứng khoán
Australia giai đoạn 2001 đến 2012 thu được kết quả mô hình 5 nhân tố hiệu quả nhất
với hệ số xác định R? = 0.7539 cao nhất Mô hình hồi quy có dạng:
tự —rạ =0, + 0MMI, + B,SMB, + 0,HML, + 8,RMW, + 8,CMA, + e,
eI
Trong do:
r„ = Tỷ suất sinh lợi của danh mục i ở thời điểm t
e_ r„= Lãi suất phi rủi ro ở thời điểm t
Mkt, = Tỷ suất sinh lợi vượt trội của danh mục thị trường ở thời điểm t
SMB,= Phần bù quy mô (quy mô nhỏ trừ quy mô lớn)
HML, = Phần bù giá trị (cổ phiếu giá trị trừ cổ phiếu tăng trưởng)
RMW, = Phan bi lợi nhuận (danh mục có lợi nhuận cao trừ danh mục có lợi
nhuận thấp).
15
Trang 27e CMA, = Phan bù đầu tư (danh mục dau tu ít trừ danh mục dau tư nhiều).
© /;;,„ = Các hệ số hỗồi quy
© ¢, = Sai số ngẫu nhiên.
Dữ liệu nghiên cứu của Fama và French đã được sử dụng trong nhiều nghiên cứu liên
quan.
Fama và French [35] đã nghiên cứu minh chứng tồn tại một số hiệu ứng như quy
mô, giá trị mà mô hình | nhân tố không thể giải thích Sử dụng dữ liệu từ năm1962-1989 đề ước lượng hệ số beta của danh mục và tỷ suất sinh lợi kỳ vọng
Kết quả cho thấy tồn tại mối quan hệ tuyến tính cùng chiều giữa tỷ suất sinh lợi
kỳ vọng và hệ số beta danh mục Kết quả này hàm ý rằng ủng hộ lý thuyết CAPM.Tuy nhiên, tác giả còn phát hiện tồn tại hiệu ứng về quy mô và hiệu ứng giá trị lànguyên nhân hệ số chặn không đồng nhất với dự báo của lý thuyết CAPM
Fama và French [40] đề xuất mô hình 3 nhân tố (mô hình Fama-French 3 nhân
tố) Dựa vào minh chứng từ một số nghiên cứu trước đó, nhóm tác giả xây dựngcác nhân tô và thực hiện một số kiểm định liên quan Từ đó đề xuất mô hình mới
Sử dụng dữ liệu từ 1963-1991 Tác giải sử dụng 25 danh mục đa dạng hóa để
kiểm định một số mô hình: 1 nhân tố, 3 nhân tố, 4 nhân tố và 5 nhân tố Kết quảthen chốt trong nghiên cứu này là mô hình 3 nhân tó giải thích tốt hơn mô hình 1
nhân tố Các hệ số ước lượng của các môFama và French [36] nghiên cứu tiếp tục công việc từ câu hỏi mở ở mô hình
Fama-French 3 nhân tố Một số minh chứng cho thấy mô hình Fama-French 3
nhân tố không hoàn chỉnh, chưa giải thích tác động từ lợi nhuận và đầu tư đến tỷsuất sinh lợi Nhóm tác giải một lần nữa xây dựng mô hình 5 nhân tố bằng cáchthêm vào 2 nhân tố mới liên quan đến lợi nhuận và đầu tư từ mô hình 3 nhân tố
Nghiên cứu thực nghiệm trên thư viện Kenneth R French giai đoạn 1963-2013
với 25 và 32 danh mục khác nhau cho các mô hình | nhân tố, 3 nhân tố, 4 nhân
tố và 5 nhân tố Phương pháp ước lượng được sử dụng là OLS Kết quả cho thấy
mô hình 5 nhân tố hiệu quả nhất trong việc giải thích tỷ suất sinh lợi kỳ vọng của
các danh mục.
16
Trang 28Gogas và cộng sự [29] nghiên cứu so sánh khả năng dự báo của các mô hình định
giá: CAPM, Fama-Friench 3-5 nhân té và mô hình APT khi sử dung OLS so với
SVR Dữ liệu được sử dụng giai đoạn từ 1926-2014 với 6 danh mục ở thư viện
Kenneth R French Kết quả cho thấy SVR với radial kernel tương đối hiệu quả
hơn các thuật toán khác.
Fama và French [41] nghiên cứu tập trung giải thích phần bù giá trị (tỷ suất sinhlợi của danh mục trừ cho tỷ suất sinh lợi danh mục thị trường) Nhóm tác giả sử
dụng 7 danh mục từ thư viện Kenneth R French giai đoạn từ 1963 — 2019 Biến
độc lập được sử dụng là khác biệt giữa giá trị số sách trên giá trị thị trường củadanh mục so với thị trường trước đó 1 kỳ Kết quả cho thay phan bù giá trị không
đồng nhất giữa các giai đoạn
17
Trang 29CHUONG 3 PHƯƠNG PHÁP NGHIÊN CỨU
Tóm tắt Chương 3 tập trung vào phương pháp nghiên cứu được sử dụng
để thiết kế và chuẩn bị các kết quả thực nghiệm Phương pháp nghiên cứu
mô tả toàn bộ phương pháp ước lượng các hệ số hồi quy dựa trên mô hình
chuỗi thời gian nhằm phát triển một mô hình hiệu quả tạo ra các dự báo
chính xác cho các bộ dữ liệu tài chính Trong đó, chúng tôi trình bày các
bước thu thập dữ liệu, làm sạch dữ liệu, quá trình huấn luyện dữ liệu vàtiêu chí đánh giá kết quả dự đoán
3.1 Thuật toán
3.1.1 Hồi quy bình phương nhỏ nhất (OLS)
Hồi quy tuyến tính là một trong những thuật toán nổi tiếng và được hiểu rõ nhấttrong thống kê và học máy Hồi quy tuyến tính được phát triển trong lĩnh vực thống kê
và được nghiên cứu như một mô hình để hiểu mối quan hệ giữa các biến số đầu vào vàđầu ra Khi chúng ta có nhiều hơn một đầu vào, chúng ta có thể sử dụng hồi quy bình
phương nhỏ nhất dé ước tính giá trị của các hệ số Thủ tục hồi quy bình phương nhỏnhất tim cách giảm thiểu tổng các phần dư bình phương Điều này có nghĩa là cho một
đường héi quy thông qua dữ liệu, chúng tôi tính toán khoảng cách từ mỗi điểm đữ liệu
đến đường hồi quy, bình phương nó và tổng tat cả các lỗi bình phương lại với nhau Day
là đại lượng mà bình phương nhỏ nhất thông thường tìm cách tối thiểu hóa
Hồi quy là một trong những phương pháp quan trọng trong lĩnh vực thống kê — họcmáy Mục tiêu chính của phương pháp này là tìm một hàm ƒ ánh xạ các phan tử trong
tập R” vào tập số thực Ñ Chúng ta giả sử rằng cho trước tập dao tạo với n phan tử đầu
vào x, và biến đầu ra y, chứa nhiễu theo công thức y, =f (x, ) +£,, trong đó £, là sai số
ngẫu nhiên.
Một số điểm quan trong để xác định một mô hình dự báo hiệu quả bao gồm:
© _ Lựa chọn kiểu đường cong: Một số đường cong hồi quy được sử dụng thông
thường như dạng tuyến tính, dạng bậc hai nên được cân nhắc sử dụng tùy
18
Trang 30vào bản chất của van dé Lựa chọn mô hình đơn giản nhưng cho hiệu quả cao
còn hơn mô hình phức tạp nhưng khả năng giải thích thấp
© _ Xác định các tham số trong mô hình: Sử dụng các hàm mục tiéu/ham mắt mát
khác nhau và các thuật toán tối ưu thích hợp nhằm ước lượng các tham số trong
mô hình.
e Hiện tượng quá mức xác định và lựa chọn mô hình: Trong lĩnh vực học máy,
vấn đề quá mức xác định luôn hiện hữu Do đó, lựa chọn mô hình và phươngpháp train-test thích hợp sẽ giảm thiểu vấn đề này
© Mối quan hệ giữa hàm mất mát va các tham số: Bởi vì chúng ta sử dụng tập
đào tạo để ước lượng các tham số, do đó việc lựa chọn hàm mắt mát là quan
trọng nếu lựa chọn hàm mắt mát không thích hợp sẽ cho kết quả khác xa so
với mối quan hệ thực tế giữ các biến
e Tính bất định của mô hình: Trong thực nghiệm chúng ta chỉ tiếp cận dữ liệu
mẫu, trong khi mối quan hệ thực tế giữa các biến thường phức tạp và bắt định
Chúng ta chỉ kiểm soát một phần trên tập hudn luyện nên không thé kiểm soáttất cả các kịch bản có thê xảy ra đối với mối quan hệ thực tế của biến đầu vàobiến đầu ra
Xét phương trình hồi quy tổng thê có dạng:
y=f (x) +E
Trong đó, x e RP là biến đầu vào, y e R là biến đầu ra và ¢ là sai số ngẫu nhiên cóphân phối chuẩn với kỳ vọng bằng 0 và phương sai là ø? không đổi Mục tiêu chính củachúng ta là tìm một hàm gan nhất có thể với hàm ƒ chưa biết Mô hình hồi quy tuyến
tính đạng tổng quát như sau:
y=xØ+e
Dựa vào tập đào tạo, ta sẽ ước lượng các hệ số hồi quy / theo phương pháp bìnhphương nhỏ nhất Giả sử ta có mẫu ngẫu nhiên gồm n quan sát
D= {(x.y, Jorn I ER? OY, € R} Y tưởng của phương pháp này là tìm /ổ„„; sao cho
|› =x" Bors I, nhỏ nhất Trong kỹ thuật học máy, không mắt tinh téng quát và dé tinh
19
Trang 31toán, chúng ta hay sử dụng biểu thức tương đương là |› =x" Bors |; hoặc “ip =x" Bors
Chúng ta định nghĩa hàm mắt mát như sau:
1(8)=|y~x'2|,
Trong đó: |e|| là chuẩn /,
Do đó: ys =argmin2 (/)
Sử dụng phương pháp đạo hàm riêng cho bài toán tối ưu lồi không ràng buộc, ta
thu được nghiệm như sau:
Pots =argmin J (f)=(X7X) ` Xy
8
3.12 Hoi quy Ridge
Hồi quy Ridge (RR) có thể được sử dụng đề ước tính các hệ số của mô hình hồiquy bội trong các tình huống khi các biến độc lập được liên kết chặt chẽ với nhau [42]
RR được đề xuất ý tưởng lần đầu tiên vào năm 1970 [43, 44] có nhiều ứng dụng trong
các lĩnh vực khác nhau, bao gồm kinh tế lượng, kỹ thuật và hóa học [45] Phương phápnày là đỉnh cao của nghiên cứu kéo dài hàng thập kỷ về chủ đề phân tích Ridge Trong
trường hợp mô hình hồi quy tuyến tính với các biến độc lập đa tuyến tính, hồi quy Ridgeđược phát triển để khắc phục sự không chính xác của các ước lượng bình phương nhỏ
nhất Có thể ước tính chính xác hơn các tham số sườn núi bằng cách tạo RR có phươngsai và sai số bình phương trung bình thấp hơn các công cụ ước tính bình phương nhỏnhất trước đây [46]
Hồi quy Ridge được phát triển như là một giải pháp khả thi thay thế cho phươngpháp bình phương nhỏ nhất trong trượng hợp xảy ra hiện tượng đa cộng tuyến (tươngquan cao giữa các biến độc lập) Phương pháp hồi quy Ridge cung cấp các ước lượng
chính xác hơn so với bình phương nhỏ nhất, chang hạn như phương sai và trung bình
bình phương các ước lượng trong hồi quy Ridge thường thấp hơn Giả sử mô hình hồiquy tổng thể có dạng:
y=XB+£()
20
Trang 32Trong đó, £ là sai số ngẫu nhiên, / là các hệ số hồi quy Với giả định cơ bản làmẫu đại diện tổng thể và £(zl X )=0, các ước lượng thu được từ phương pháp bình
phương nhỏ nhất Øọ„s là các ước lượng vững và không chệch, trong đó ổọ,s =
(X7X)-1XTy Tuy nhiên, nếu có hiện tượng đa cộng tuyến, các ước lượng /„„ thu
được sẽ có phương sai cao và lệch xa so với /j Giải pháp của phương pháp Ridge là sử
dụng tham số k (có giá trị nhỏ) trong công thức xác định ước lượng các hệ số hồi quy
như sau:
T T7
Braye =(XTMX +KI) X'y
Trong đó, J là ma trận đơn vi Các ước lượng Ridge hiệu quả hon so với phương
pháp bình phương nhỏ nhất trong trường hợp xảy ra hiện tượng đa cộng tuyến
3.1.3 Hồi quy Lasso
Hồi quy Lasso được phát triển một cách độc lập trong lĩnh vực Địa —Vật lý năm
1986 dựa vào lý thuyết trước đó, sử dụng hệ số phạt cho các hệ số ước lượng theo chuẩnI, Nhà thống kê Robert Tibshirani đề xuất một cách độc lập và phổ biến nó vào năm
1996 dựa vào nghiên cứu trước đó của Breiman [47].
Trước đó, hầu hết sử dụng phương pháp chọn từng bước (stepwise), có nghĩa là
từng bước một đưa vào các biến dự báo cho tới khi tìm được mô hình tốt nhất hoặc là
xóa bớt từng biến một Cách tiếp cận này chỉ cải thiện độ chính xác dự báo trong một số
tình huống cụ thể, chẳng hạn như chỉ có một số biến dự báo tương quan mạnh đến biến
đầu ra Tuy nhiên, một một sé tình huống khác, nó có thé lam tăng sai số dự báo Ở thờiđiểm lúc bấy giờ, hồi quy Ridge cải thiện sai số dự báo bằng cách thu hẹp tổng bình
phương của các hệ số hồi quy sao cho nó nhỏ hơn một số cho trước đề giảm thiểu hiện
tượng xác định quá mức (overfitting) của mô hình Bởi vì nó không thực hiện lựa chọn
biến đầu vào nên những biến không có ý nghĩa giải thích van còn trong mô hình Hồi
quy Lasso đạt được cả 2 mục đích: tổng bình phương của các hệ số nhỏ hơn giá trị chotrước và ràng buộc một số hệ số bằng 0, ngoại trừ các biến có tác động đến biến phụthuộc Ý tưởng này tương tự như phương pháp hồi quy Ridge đó là thu hẹp độ lớn của
21
Trang 33các hệ số hồi quy, tuy nhiên, hồi quy Rige thì ít có xu hướng loại trừ các biến không liên
quan.
Xét mô hình hồi quy tổng thể với p biến độc lập:
y=fea+XB+e
Trong đó, /, là hệ số chặn, / là ma trận hệ số góc và z là sai số ngẫu nhiên Giả
sử mẫu thu được từ tổng thể là mẫu ngẫu nhiên với ø quan sát Phương pháp hồi quy
Lasso là xác định các hệ số ước lượng
Biassothoa mãn bài toán tối ưu như sau: minlly — Bo — X|lš với ràng buộc ||Ø|l? < t
ho,
Trong đó / là tham số tự do và ||s||„ là chuẩn J, Thực hiện chuẩn hóa dữ liệu đưa bàitoán về dạng tương đương:
PEST — 7L A le
min [5 ly — XI] với ràng buộc IIBII? < t
Sử dụng phương pháp nhân tử Larange ta thu được: min f lly - X/llỆ + alls}
(Chú ý rang  va £ là hằng số không phụ thuộc vào / nên có thé bỏ qua trong bài toán
tìm min)
3.1.4 Hồi quy vector hỗ trợ (SVR - Support Vector Regression)
Hồi quy vector hỗ trợ (SVM) là một thuật toán học có giám sát giải quyết bài toán
về vấn đề phân lớp dữ liệu được đề xuất bởi Cortes và Vapnik [48] Ý tưởng của SVM
là ánh xạ tập dữ liệu ban đầu đến một không gian nhiều chiều hơn bở ánh xạ ©, thuậnlợi cho việc phân lớp dữ liệu SVM tìm một siêu phẳng tối ưu (H) được tính toán dựa
vào tập dữ liệu huấn luyện Giả sử X là ma trận các biến độc lập và Y là vector biếnphân loại (, < {-11}) ) Do đó, siêu phẳng phân lớp được cho bởi phương trình sau đây:
H:a'®(x,)+b =0 Giả sử dé liệu đầu vào được có thé tách rời hoàn hảo, khi đó, bằng
cách điều chỉnh các tham só thích hợp ta có thể chuyên đổi bài toán sao cho khoảng cáchngắn nhất đến (H) luôn bằng 1 ở cả hai phía Như vậy, bài toán SVM là tìm các tham số
a và b của mô hình.
2
Trang 34Chúng ta xét một quan sát ¡ bất kỳ, nếu a'®(x,)+b >I thi y, =1 và ngược lại nếu
a”®(x,)+b <—Ithì y, =—1 Một cách tương đương như sau: y, [aTM®(x, ) +b] >1(4).
Cực tiểu hóa |a|| và b theo điều kiện ràng buộc (4) thu được các tham số tối ưu của môhình phân lớp Cortes và Vapnik [48] khi đó đã đề suất kiều kiện phân lớp làclass(x,)= sgn(a"(x,) +b) Bởi vì giả định tồn tại siêu phẳng (H) tách hoàn hảo rất
khó được thỏa mãn trong thực tế, vì vậy, Cortes và Vapnik [48] đề suất thêm một lề
mềm mà ở đó có thé cho phép một số quan sát bị phân loại sai Điều kiện ràng buộc khi
Trang 35Trong đó, hàm K(x,x,)=®(x} ®(x,) được gọi là kernel function và
Hy =, v,K(X.x, ) Kết quả phân lớp sẽ được căn cứ vào phương trình sau:
class(x,) = sgn(a"(x, ) +b) = =p y,a,K (s.3)+0]
isl
Với ý tưởng tương tự như thuật toán SVM, thuật toán SVR cũng được thực hiện
tương tự chỉ khác ở biến phụ thuộc là biến liên tục nhận giá trị thực Tuy nhiên, theo
Patel và cộng sự [50], Qu va Zhang [51], thay vì đi tìm siêu phẳng như trong (Š), thuậttoán SVR tìm một hàm hồi quy ƒ (x.4) = a“x+b Dé làm được điều nay, một biên £
được đưa vào như sau:
3.2 Đề xuất mô hình dự báo
Trong đề tài này, chúng tôi đề xuất sử dụng một mô hình cho nhiệm vụ dự đoáncủa dữ liệu chuỗi thời gian tài chính Cac mô hình được trình bày dựa trên các giai đoạnnghiên cứu chính Các thử nghiệm được thiết kế được thực hiện trên các tập dữ liệu lịch
sử trình bày các loại dữ liệu tài chính khác nhau đề đánh giá đầy đủ tính hiệu quả của
các mô hình dự báo.
Chúng tôi xem xét chỉ sử dụng các giá trị chuỗi bao gồm Mkt, HML, RMW, SMB,
CMA, va lai suat phi rủi ro T-bill kỳ han 1 thang dé dự báo cho tỷ suất sinh lợi của 10
danh mục có trọng số được xếp theo nhóm ngành bao gồm: NoDur, Durbl, Manuf,
Enrgy, HiTec, Telcm, Shops, Hlth, Utils, Other Mô hình dự báo được mô tả trong Hình
3.2.
24