1. Trang chủ
  2. » Tất cả

Ứng dụng một số mô hình học máy trong dự báo chiều biến động của thị trường chứng khoán việt nam

7 5 0

Đang tải... (xem toàn văn)

THÔNG TIN TÀI LIỆU

Nội dung

ỨNG DỤNG MỘT SỐ MÔ HÌNH HỌC MÁY TRONG DỰ BÁO CHIỀU BIẾN ĐỘNG CỦA THỊ TRƯỜNG CHỨNG KHOÁN VIỆT NAM APPLICATION OF SOME MACHINE LEARNING MODELS IN FORECASTING THE DIRECTION OF VIETNAM STOCK MARKET ThS Lê[.]

INTERNATIONAL CONFERENCE FOR YOUNG RESEARCHERS IN ECONOMICS & BUSINESS 2020 ICYREB 2020 ỨNG DỤNG MỘT SỐ MƠ HÌNH HỌC MÁY TRONG DỰ BÁO CHIỀU BIẾN ĐỘNG CỦA THỊ TRƯỜNG CHỨNG KHOÁN VIỆT NAM APPLICATION OF SOME MACHINE LEARNING MODELS IN FORECASTING THE DIRECTION OF VIETNAM STOCK MARKET ThS Lê Văn Tuấn, TS Nguyễn Thu Thủy, ThS Lê Thị Thu Giang Trường Đại học Thương mại tuanlevan@tmu.edu.vn Tóm tắt Bài viết sử dụng số mơ hình/thuật tốn học máy để dự báo xu hướng biến động (tăng/giảm) số thị trường chứng khoán Việt Nam Kết cho thấy, mơ hình hồi quy Logistic, mơ hình phân tích phân biệt tuyến tính (LDA), phân tích phân biệt tồn phương (QDA) mơ hình K – lân cận (KNN): mơ hình KNN(10) có độ xác dự báo tốt Từ khóa: Hồi quy Logistic; phân tích phân biệt tuyến tính; phân tích phân biệt tồn phương; K – lân cận; thị trường chứng khoán Việt Nam Abstract The article uses several machine learning models / algorithms to predict the trend of volatility (increase / decrease) of Vietnam’s stock market index The results show that, among Logistic regression model, Linear discriminant analysis model (LDA), Quadratic discriminant analysis (QDA) and K-nearest neighbors model (KNN): KNN(10) model has the best forecast accuracy Keywords: Logistic regression; Linear discriminant analysis; Quadratic discriminant analysis; K-nearest neighbors; Vietnam’s stock market Mở đầu Chuỗi số thị trường chứng khoán thường đặc trưng hành vi theo đám đông phi tuyến tính khiến cho việc dự báo trở thành nhiệm vụ đầy thách thức Các yếu tố tạo biến động lĩnh vực phức tạp bắt nguồn từ nhiều nguyên nhân với chất khác Từ định kinh tế, trị đầu tư nguyên nhân không rõ ràng, khía cạnh đó, gây nhiều khó khăn dự đốn số thị trường chứng khốn Thị trường chứng khốn ln thu hút nhà đầu tư khả sinh lời cao, nhiên, chứa đựng nhiều rủi ro Vì vậy, cần có cơng cụ thơng minh để giảm thiểu rủi ro với hy vọng tối đa hóa lợi nhuận Ngày nay, mơ hình Học máy (Machine Learning) trở thành cơng cụ phân tích mạnh mẽ sử dụng để trợ giúp quản lý đầu tư hiệu Các mơ hình sử dụng rộng rãi lĩnh vực tài để cung cấp phương pháp nhằm giúp nhà đầu tư đưa định tốt việc đầu tư chứng khoán Thị trường chứng khoán quốc gia ngày phát triển sâu rộng hòa nhập vào thị 652 INTERNATIONAL CONFERENCE FOR YOUNG RESEARCHERS IN ECONOMICS & BUSINESS 2020 ICYREB 2020 trường quốc tế chúng có lợi nhuận hấp dẫn (He cộng sự, 2015; Chou Nguyễn, 2018) tài sản có tính khoản tương đối cao chúng mua - bán nhiều lần thông qua sở giao dịch chứng khoán Mặc dù vậy, đầu tư cổ phiếu có rủi ro cao khơng chắn biến động thị trường chứng khoán (Hyndman Athanasopoulos, 2018) Do đó, nhà đầu tư phải hiểu chất cổ phiếu riêng lẻ yếu tố phụ thuộc chúng ảnh hưởng đến giá cổ phiếu để tăng hội đạt lợi nhuận cao Quan trọng nhất, nhà đầu tư cần phải đưa định đầu tư hiệu vào thời điểm (Ijegwa cộng sự, 2014) cách sử dụng lượng thơng tin xác thích hợp (Nguyen cộng sự, 2015) Dự báo biến động thị trường chứng khoán chủ đề quan trọng lĩnh vực tài Việc dự báo hiệu giúp nhà đầu tư xây dựng chiến lược đầu tư tối ưu phòng ngừa rủi ro Dự báo số số tài dựa số yếu tố tác động dễ dàng kết khơng xác yếu tố chưa đưa vào mơ hình quan trọng việc giải thích biến động số tài Chẳng hạn, giá cổ phiếu số thị trường bị ảnh hưởng nhiều yếu tố khác nhau, ví dụ: tăng trưởng kinh tế (Perwej Perwej, 2012; Selvin cộng sự, 2017) Rất khó để phân tích tất yếu tố theo cách thủ công (Nguyen cộng sự, 2015; Sharma cộng sự, 2017), vậy, tốt có cơng cụ hỗ trợ phân tích liệu Trong đầu tư chứng khoán, việc đưa định đắn khoảng thời gian kịp thời thách thức lớn cần lượng thơng tin đồ sộ để dự đốn biến động giá thị trường chứng khoán Những thông tin quan trọng nhà đầu tư biến động thị trường chứng khốn dẫn đến tổn thất đầu tư đáng kể Do đó, việc phân tích thơng tin lớn hữu ích cho nhà đầu tư hữu ích cho việc phân tích xu hướng biến động số thị trường chứng khoán (Kim Kang, 2019) Với thành công rực rỡ mơ hình Học máy (Machine Learning) nhiều lĩnh vực, ứng dụng Học máy tài ngày ý phát triển không ngừng (Nguyen et al., 2015; Attigeri et al., 2015; Kim and Kang, 2019) Việc áp dụng mơ hình Học máy để dự báo chứng khoán, cổ phiếu phổ biến giới, khơng học thuật mà cịn thực tiễn Ở toán dự báo nghiên cứu trước đây, tác giả thường sử dụng liệu lịch sử chuỗi thời gian để cung cấp ước lượng cho giá trị tương lai Gần đây, nhà nghiên cứu bắt đầu phát triển kỹ thuật Học máy giống với trình sinh học tiến hóa để giải vấn đề phức tạp phi tuyến Kỹ thuật trái ngược với cách tiếp cận truyền thống, tức phương pháp thống kê cổ điển Ví dụ kỹ thuật học máy nhắc đến Mạng thần kinh nhân tạo (Artificial Neural Networks - ANN), Máy vectơ hỗ trợ (Support Vector Machines - SVM) Lập trình di truyền (Genetic Programming GP), thuật tốn K-lân cận (K-nearest neighbors - KNN), Mơ hình hồi quy Logistic, phân tích phân biệt tuyến tính (Linear Discriminant Analysis – LDA), phân tích phân biệt tồn phương (Quadratic Discriminant Analysis - QDA) Bài báo khám phá ứng dụng Học máy tài Cụ thể, chúng tơi sử dụng mơ hình Học máy quen thuộc để áp dụng dự báo cho thị trường chứng khốn Việt Nam Kết cho thấy, mơ hình hồi quy Logistic, LDA, QDA, KNN: mơ hình KNN(10) có độ xác dự báo tốt 653 INTERNATIONAL CONFERENCE FOR YOUNG RESEARCHERS IN ECONOMICS & BUSINESS 2020 ICYREB 2020 Một số mơ hình học máy Vấn đề dự báo tăng/giảm thị trường chứng khoán thực tốn phân lớp (2 lớp) đó: Biến đầu ra: Y ∈ { Up, Down} Biến đầu vào: X = (X1, X2, X , Xp) Bài toán dự báo Y thuộc lớp Up, với Y tương ứng với đầu vào x0, nếu: Pr(Y = Up|X = x0) > 0.5; ngược lại với lớp Down 2.1 Phương pháp K- láng giềng gần (KNN) Về mặt lý thuyết, thường muốn dự báo hành vi cách sử dụng công thức Bayes Nhưng liệu thực tế, phân phối xác suất có điều kiện Y biết X, việc tính tốn sử dụng công thức Bayes thực Do đó, cơng thức xác suất Bayes xem như tiêu chuẩn vàng khó đạt Chúng ta cần tìm kiếm phương pháp khác khả thi Có nhiều cách tiếp cận hướng tới mục tiêu ước lượng phân phối xác suất có điều kiện Y biết X, sau phân loại quan sát với xác suất ước tính cao Một phương pháp phương pháp K-láng giềng gần Cho trước số nguyên dương K quan sát thử nghiệm x0, phân lớp KNN xác định K điểm liệu định hướng gần với x0, ký hiệu N0 Sau đó, xác suất có điều kiện cho lớp Up tỷ lệ điểm N0 có giá trị Up: Với K số cho trước, N0 K điểm gần x0 tập liệu, I biến báo Trong bước cuối cùng, KNN sử dụng công thức Bayes phân lớp quan sát thử nghiệm với lớp có xác suất lớn Một số ưu điểm mơ hình KNN dễ sử dụng cài đặt, việc dự báo kết liệu dễ dàng, độ phức tạp tính tốn vừa phải Tuy nhiên, phương pháp KNN tồn số nhược điểm KNN nhiễu dễ đưa kết khơng xác K nhỏ, cần thời gian lưu tập huấn luyện, tập huấn luyện tập kiểm tra tăng lên nhiều thời gian tính tốn 2.2 Mơ hình hồi quy Logistic Phân tích hồi qui logistic kỹ thuật thống kê để xem xét mối liên hệ biến độc lập (biến số biến phân loại) với biến phụ thuộc biến nhị phân Trong hồi qui logistic, biến phụ thuộc y có trạng thái (ví dụ tăng) (ví dụ giảm) Muốn đổi biến số liên tục người ta tính xác suất trạng thái Nếu gọi p xác suất để biến cố xảy (ví dụ: tăng), 1-p xác suất để biến cố khơng xảy (ví dụ: giảm) Ký hiệu: p(X) = Pr(Y = Up|X) Mơ hình mơ hình hồi quy Logistic có dạng: log ( p(X) )= β - p(X) + β1X1 + ,,, + βpXp 654 INTERNATIONAL CONFERENCE FOR YOUNG RESEARCHERS IN ECONOMICS & BUSINESS 2020 ICYREB 2020 Hay p(X) = eβ0 + β1X1 + ,,, + βpXp + eβ0 + β1X1 + ,,, + βpXp Trong đó: β0, β1, , βpXp hệ số cần ước lượng Mơ hình ý tưởng đơn giản cho kết khả quan áp dụng nhiều sống 2.3 Phân tích phân biệt tuyến tính (LDA) LDA (Linear Discriminant Alnalysic) phương pháp giảm chiều liệu cho tốn phân lớp LDA coi phương pháp giảm chiều liệu (dimensionality reduction), coi phương pháp phân lớp (classification), áp dụng đồng thời cho hai, tức giảm chiều liệu cho việc phân lớp hiệu Số chiều liệu nhỏ C−1 C số lớp Từ ‘Discriminant’ hiểu thơng tin đặc trưng cho lớp, khiến không bị lẫn với lớp khác Từ ‘Linear’ dùng cách giảm chiều liệu thực ma trận chiếu (projection matrix), phép biến đổi tuyến tính (linear transform) Ký hiệu: πUp xác suất (tiên nghiệm) quan sát ngẫu nhiên thuộc lớp Up (tương tự cho πDown) fUp(X) = Pr(X = x|Y = Up) hàm mật độ X cho quan sát thuộc lớp Up (tương tự cho fUp(X)) Trong mơ hình LDA: Mơ hình LDA giả thiết quan sát X thuộc lớp Up có phân phối chuẩn nhiều chiều: , với vectơ trung bình lớp Up, ma trận hiệp phương sai chung lớp (tương tự cho quan sát X thuộc lớp Down) Có thể nói, LDA phương pháp giảm chiều liệu có sử dụng thơng tin nhãn của liệu Ý tưởng LDA tìm khơng gian với số chiều nhỏ khơng gian ban đầu cho hình chiếu điểm lớp lên không gian gần hình chiếu điểm các lớp khác khác LDA có giả sử ngầm liệu lớp tuân theo phân phối chuẩn ma trận hiệp phương sai lớp gần LDA hoạt động tốt lớp tuyến tính riêng biệt (linear seperable), nhiên, chất lượng mơ hình giảm rõ rệt lớp không tuyến tính riêng biệt Điều dễ hiểu đó, chiếu liệu lên phương bị chồng lần, việc tách biệt thực khơng gian ban đầu 2.4 Phân tích phân biệt tồn phương (QDA) Mơ hình QDA xây dựng tương tự LDA, khác biệt cho phép quan sát 655 INTERNATIONAL CONFERENCE FOR YOUNG RESEARCHERS IN ECONOMICS & BUSINESS 2020 ICYREB 2020 lớp có hiệp phương sai khác Nghĩa giả thiết X thuộc lớp Up có phân phối chuẩn nhiều chiều: (tương tự cho quan sát X thuộc lớp Down) Thực nghiệm TTCK Việt Nam Phần thực so sánh độ xác dự báo mơ hình/thuật tốn học máy giới thiệu Mục Độ xác tính bằng: số lần dự báo đúng/tổng số quan sát (trong liệu test) (Các kết tác giả thực R, câu lệnh tham khảo (James cộng sự, 2013)) 3.1 Dữ liệu Bài viết sử dụng liệu giao dịch theo ngày số VNIndex (chỉ số đại diện cho TTCK Việt Nam), download từ trang web Cơng ty Cổ phần Chứng khốn VNDIRECT Dữ liệu lấy từ ngày 26 tháng năm 2016 đến ngày 26 tháng năm 2020, gồm 1000 quan sát Bộ liệu chia thành tập, tập huấn luyện (training set) từ ngày 26 tháng năm 2016 đến ngày 26 tháng năm 2019 (gồm 748 quan sát), tập kiểm tra (test set) từ ngày 27 tháng năm 2019 đến ngày 26 tháng năm 2020 (gồm 252 quan sát) Cấu trúc liệu có biến (tương tự biến sử dụng (James cộng sự, 2013)): DATE: ngày giao dịch Volume: khối lượng cổ phiếu giao dịch Today: lợi suất % ngày VNIndex Direction: chiều tăng/giảm (Up/Down) số VNIndex Lag1, …, Lag5 lợi suất % ngày thứ 1, …, thứ liền trước ngày 3.2 Độ xác dự báo mơ hình hồi quy Logistic Trước hết, ta sử dụng mơ hình hồi quy Logistic với biến đầu Direction, biến đầu vào Volume, Lag1, …, Lag5 Kết ước lượng tham số là: Coefficients: (Intercept) Lag1 Estimate -1.54e-01 Std Error 2.553e-01 z value -0.603 Pr(>│z│) 0.54618 -2.57e+01 8.895e+00 +2.894 0.00381 ** Lag3 -8.581e-01 8.87le+00 0.097 0.92294 Lag5 1.452e+01 1.669 0.99515 Lag2 Lag4 Volume 1.111e+01 8.734e+00 1.262e+01 8.804e+00 1.852e-09 1.598e-09 8.700e+00 sifnif codes: ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ‘ 656 1.272 1.434 1.159 0.2023 0.15158 0.24630 INTERNATIONAL CONFERENCE FOR YOUNG RESEARCHERS IN ECONOMICS & BUSINESS 2020 ICYREB 2020 Giá trị P-value cho thấy có biến Lag1 có ý nghĩa thống kê Kết dự báo: glm.pred Down Down 26 Up 92 Độ xác dự báo: 0,5039683 Up 33 101 Như độ xác dự báo mơ hình thấp, xấp xỉ 50% Ta lặp lại bước nhiên đầu vào giữ lại Lag1 (là biến có ý nghĩa thống kê) Kết dự báo: glm.pred Down Up Down 27 29 Up 91 105 Độ xác dự báo: 0,5238095 Kết tăng đáng kể với độ xác 52% 3.3 So sánh độ xác dự báo mơ hình Phần trình bày độ xác dự báo mơ hình/thuật tốn giới thiệu Mục với đầu Direction, đầu vào Lag1 Độ xác dự báo: Độ xác dự báo Mơ hình/thuật toán Hồi quy Logistic 0,5238095 LDA 0,5198413 KNN(10) 0,5555556 QDA 0,5277778 Chúng tơi chọn KNN(10) cho kết dự báo tốt K từ đến 100 (hình dưới) 657 INTERNATIONAL CONFERENCE FOR YOUNG RESEARCHERS IN ECONOMICS & BUSINESS 2020 ICYREB 2020 Như vậy, giải thuật KNN(10) cho kết dự báo tốt TTCK Việt Nam, xấp xỉ 0,556 (kết tốt kết dự báo mơ hình đầu vào tất biến, xem Phụ lục) Kết luật khác với kết dự báo cho TTCK Mỹ (James cộng sự, 2013): mơ hình/giải thuật tốt QDA, xấp xỉ 0,599 Có thể kết luật TTCK Việt Nam khó dự báo TTCK Mỹ Lưu ý viết chưa sử dụng mô hình quen thuộc khác ANN, SVM để so sánh độ xác dự báo Tuy nhiên, hiệu dự báo mơ hình/thuật tốn mục tốt so với mơ hình ANN dự báo cổ phiếu TTCK Mỹ (Rivera, 2018) Kết Như vậy, biến động tăng/giảm TTCK Việt Nam phụ thuộc vào tăng/giảm ngày trước mà không phụ thuộc vào ngày xa hơn, không phụ thuộc vào khối lượng giao dịch Kết so sánh mơ hình/thuật tốn hồi quy Logistic, LDA, QDA KNN cho thấy thuật tốn KNN(10) có độ xác dự báo tốt Độ xác KNN(10) xấp xỉ 55,6%, kết chứng phủ định giả thuyết Thị trường hiệu Eugene Fama (1960) TTCK Việt Nam – giả thuyết cho “khơng dự đốn được” “chuyển động giá cổ phiếu hoàn toàn ngẫu nhiên” PHỤ LỤC Độ xác dự báo với đầu vào tất biến: Độ xác dự báo Mơ hình/thuật tốn Hồi quy Logistic 0.5039683 LDA 0.5 QDA 0.4960317 KNN(10) < 0.54 Độ xác dự báo KNN với đầu vào tất biến: 658 ... Analysis - QDA) Bài báo khám phá ứng dụng Học máy tài Cụ thể, chúng tơi sử dụng mơ hình Học máy quen thuộc để áp dụng dự báo cho thị trường chứng khoán Việt Nam Kết cho thấy, mơ hình hồi quy Logistic,... hình KNN(10) có độ xác dự báo tốt 653 INTERNATIONAL CONFERENCE FOR YOUNG RESEARCHERS IN ECONOMICS & BUSINESS 2020 ICYREB 2020 Một số mơ hình học máy Vấn đề dự báo tăng/giảm thị trường chứng khoán. .. phòng ngừa rủi ro Dự báo số số tài dựa số yếu tố tác động dễ dàng kết khơng xác yếu tố chưa đưa vào mơ hình quan trọng việc giải thích biến động số tài Chẳng hạn, giá cổ phiếu số thị trường bị ảnh

Ngày đăng: 28/02/2023, 20:42

TÀI LIỆU CÙNG NGƯỜI DÙNG

  • Đang cập nhật ...

TÀI LIỆU LIÊN QUAN