Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 70 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
70
Dung lượng
1,19 MB
Nội dung
ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC BÁCH KHOA TRẦN HOÀNG TUẤN ANH DÙNG HỌC MÁY XẾP HẠNG CỔ PHIẾU BẰNG CÁC CHỈ SỐ TÀI CHÍNH TRONG QUÁ KHỨ CHUYÊN NGÀNH : HỆ THỐNG THÔNG TIN QUẢN LÝ MÃ SỐ : 60.34.04.05 LUẬN VAN THẠC SĨ THÀNH PHỐ HỒ CHÍ MINH - NĂM 2019 CƠNG TRÌNH ĐƯỢC HOÀN THÀNH TẠI TRƯỜNG ĐẠI HỌC BÁCH KHOA -ĐHQG -HCM Cán hướng dẫn khoa học : PGS TS Đặng Trần Khánh Cán chấm nhận xét : PGS TS Nguyễn Tuấn Đăng Cán chấm nhận xét : TS Lê Lam Sơn Luận văn thạc sĩ bảo vệ Trường Đại học Bách Khoa, ĐHQG Tp HCMngày03 tháng 07 năm 2019 Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm: (Ghi rõ họ, tên, học hàm, học vị Hội đồng chấm bảo vệ luận văn thạc sĩ) PGS TS Nguyễn Thanh Bình TS Phan Trọng Nhân PGS TS Nguyễn Tuấn Đăng TS Lê Lam Sơn PGS TS Vũ Thanh Nguyên Xác nhận Chủ tịch Hội đồng đánh giá LV Trưởng Khoa quản lý chuyên ngành sau luận văn sửa chữa (nếu có) CHỦ TỊCH HỘI ĐÒNG TRƯỞNG KHOA Trang ĐẠI HỌC QUỐC GIA TP.HCM CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM TRƯỜNG ĐẠI HỌC BÁCH KHOA Độc lập - Tự - Hạnh phúc NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên : Trần Hoàng Tuấn Anh MSHV: 1670459 Ngày, tháng, năm sinh : 01/02/1985 Nơi sinh: Khánh Hòa Chun ngành : Hệ Thống Thơng Tin Quản Lý Mã số : 60.34.04.05 II TÊN ĐỀ TÀI: Dùng Học Máy xếp Hạng Cổ Phiếu Bằng Các Chỉ số Tài Chính Trong Quá Khứ NHIỆM VỤ VÀ NỘI DUNG: Kết hợp phương pháp Học máy Phân tích tài để xếp hạng cổ phiếu chí số tài khứ III NGÀY GIAO NHIỆM VỤ: 01/02/2019 IV NGÀY HOÀN THÀNH NHIỆM VỤ: 02/06/2019 V CÁN Bộ HƯỚNG DẪN: PGS TS Đặng Trần Khánh I Tp HCM, ngày tháng năm 2019 CÁN Bộ HƯỚNG DẪN (Họ tên chữ ký) CHỦ NHIỆM Bộ MÔN ĐÀO TẠO (Họ tên chữ ký) TRƯỞNG KHOA (Họ tên chữ ký) Trang LỜI CÁM ƠN Sau thời gian học tập, nghiên cứu để hoàn thành luận văn này, tơi xin bày tỏ kính trọng lòng biết on sâu sắc tới: - Thầy giáo trực tiếp huớng dẫn: PGS.TS Đặng Trần Khánh - Khoa Công Nghệ Thông Tin, Truờng Đại Học Bách Khoa Thành phố Hồ Chí Minh tận tĩnh bảo, huớng dẫn giúp đỡ suốt q trình tơi thực đề tài nghiên cứu khoa học - Lãnh đạo cơng ty chứng khốn VNDirect phòng ban công ty quan tâm, động viên tạo điều kiện cho tơi q trình nghiên cứu - Bên cạnh giúp đỡ gia đĩnh, bạn bè nguời thân ủng hộ tạo điều kiện tốt để tơi tập trung nghiên cứu hoàn thành đề tài Do mặt kiến thức thời gian hạn chế, luận văn nhiều khiếm khuyết Tơi mong đuợc đóng góp ý kiến thầy, nguời để luận văn hồn thiện Trang Tóm tắt Việc kết hợp Công nghệ thông tin Phân tích tài giúp giảm thời gian phân tích, tăng độ xác giảm phụ thuộc hồn tồn vào người phân tích Sự kết hợp ứng dụng nhiều giới tạo hội cho nhà quản lý quỹ quản lý tài sản hàng tỷ Đô la Câu hỏi nghiên cứu tổng thể luận văn liệu việc áp dụng thuật tốn học máy đóng góp giá trị việc phân biệt cổ phiếu hoạt động hiệu để xây dựng danh mục đầu tư vượt trội VNIndex số đầu tư khác VN30, HNXindex Để trả lời câu hỏi này, câu hỏi sau nghiên cứu: + Khả dự đoán thuật toán học máy phân biệt cổ phiếu hoạt động hiệu hiệu quả? + Có thể sử dụng chiến lược đầu tư cách sử dụng thuật toán học máy để xây dựng danh mục đầu tư vượt trội so với thị trường số đầu tư? + Các thuật tốn học máy đóng góp vào việc lựa chọn cổ phiếu tốt so với công cụ chọn cổ phiếu ngẫu nhiên? + Có chứng đáng kể mối liên hệ khả dự đoán thuật toán học máy lợi nhuận danh mục đầu tư tạo từ việc dự báo này? Trong giói học máy, có nhiều thuật tốn học máy sử dụng để trả lời vấn đề luận văn Một lựa chọn số chúng nghiên cứu luận văn này: Naive Bayes, Logistic Regrssion, Random Forest, Support Vector Machine (SVM) Ket nghiên cứu luận văn cho thấy giải thuật Randomforest cho kết tốt giải thuật khác áp dụng với dự liệu thị trường chứng khoán Việt Nam từ năm 2010 đến 2018 Mặc dù khả dự báo đạt mức trung bĩnh, kết từ giải thuật học máy giúp tạo thành danh mục có hiệu số tham chiếu VNindex VN30 Việc xây dựng ứng dụng hệ thống kết hợp để phát triển phần tiếp theo: Mơ hình xếp hạng theo ngành, mơ hình xếp hạng rủi ro dự báo Trang Abstracts The combination of Information Technology and Financial Analysis reduces analysis time, increases accuracy and reduces dependence entirely on analysts This combination has been applied a lot in the world and created opportunities for fund managers to manage billions of dollars of assets The overall research question in this dissertation is whether the application of machine learning algorithms could make a valuable contribution in distinguishing efficient stocks to build a portfolio that outperforms VNIndex or another investment indicators such as VN30, HNXindex To answer this question, the following sub-questions will be studied: + Predictability of machine learning algorithms when distinguishing between inefficient and efficient stocks? + Could we use investment strategies by using machine learning algorithms to build an outstanding portfolio against the market or an investment index? + Could machine learning algorithms contribute to stock selection better than a random stock picking tool? + Is there any significant evidence of the link between predictability of machine learning algorithms and portfolio returns generated from this prediction? In the world of machine learning, there are many machine learning algorithms that can be used to answer the problem in this thesis One of them is studied in this thesis: Naive Bayes, Logistic Regrssion, Random Forest, Support Vector Machine (SVM) The results of the thesis show that the Randomforest algorithm gives better results than other algorithms when applied to the data set of Vietnam stock market from 2010 to 2018 Although the forecasting ability is only achieved average, but the results from machine learning algorithms have helped to create more effective categories of VNindex and VN30 reference index The construction and application of the above-mentioned combined system will be the basis for developing the following sections: Sector ranking model, risk ranking model and forecast Trang Lời cam đoan tác giả Luận văn Tôi xin cam đoan : Luận văn thạc sĩ với đề tài “DÙNG HỌC MÁY XẾP HẠNG CỔ PHIẾU BẰNG CẮC CHỈ SĨ TÀI CHÍNH TRONG Q KHỨ” cơng trình nghiên cứu cá nhân tơi, khơng chép Tôi xin chịu trách nhiệm cơng trình nghiên cứu riêng mình! TP.HỒ Chí Minh, ngày Người cam đoan Trang MỤC LỤC Tóm tắt Giới Thiệu Phương Pháp xếp Hạng cổ Phiếu Trong Đầu Tư Chứng Khoán: 13 Học Máy 22 Dùng Học Máy xếp Hạng cổ Phiếu: 44 Thí Nghiệm Và Đánh Giá Kết Quả: 54 Kết Luận 66 Danh Mục Các Tài Liệu Tham Khảo: 68 Trang 2.1 Giới Thiệu Động lực bối cảnh: - xếp hạng cổ phiếu (Scoring Rating) phuơng pháp chấm điểm cổ phiếu dựa số tài cổ phiếu Hiện tổ chức sử dụng phuơng pháp chuyên gia để xác định trọng số cho số tài mơ hĩnh Phuơng pháp chun gia có số điểm yếu chính: + Chua xác định đuợc mức độ hiệu mơ hĩnh (độ xác mơ hĩnh, độ xác cho hạng đuợc đánh giá ) + Phụ thuộc hoàn toàn vào chuyên gia (kiến thức, trải nghiệm, cảm xúc) việc xác định trọng số - Việc xác định xếp hạng hợp lý cổ phiếu giúp nhà đầu tu lựa chọn đuợc cổ phiếu tốt gia tăng hiệu đầu tu: + David Harding: ông làm cho quỹ Winton Capital (30 tỷ Đơ la) từ 1997 Ơng sử dụng phuơng pháp Nắm bắt xu huớng (Trend Following) mơ hĩnh thống kê để đầu tu chứng khốn công cụ phái sinh + Jim Simons: ông “Ơng vua định luợng”, nhà tốn học nguời sáng lập quỹ Renaissance Technologies (11 tỷ Đô la - quỹ đầu tu sử dụng giải thuật máy tính để phân tích đầu tu chứng khốn) - Trên giới, việc nghiên cứu áp dụng mô hĩnh định luợng đầu tu phát triển từ lâu Thời gian gần đây, việc áp dụng công nghệ thông tin đầu tu bùng nổ nuớc châu Á Tuy nhiên, Việt Nam, việc áp dụng chua phổ biến, có quỹ mở định luợng VFA hoạt động Có lý chính: + Việc áp dụng cơng nghệ thơng tin vào tài phát triển Việt Nam vài năm gần + Các phuơng pháp xếp hạng cổ phiếu Việt Nam phần lớn theo phuơng pháp chuyên gia Việc nghiên cứu áp dụng cơng nghệ thơng tin, định luợng tài để xây dựng hệ thống xếp hạng cổ phiếu đuợc kỳ vọng giúp khắc phục điểm yếu phuơng pháp chuyên gia gia tăng hiệu đầu tu Hệ thống dự kiến đáp ứng mục tiêu sau: + Dùng Học máy xây dựng mơ hình xếp hạng cố phiếu + So sánh mô hĩnh với mô hĩnh theo phuơng pháp chuyên gia để đánh giá mức độ hiệu mô hĩnh 2.2 Xây dựng toán: Câu hỏi nghiên cứu tống thể luận văn liệu việc áp dụng thuật toán học máy đóng góp giá trị việc phân biệt cố phiếu hoạt động hiệu để xây dựng danh mục đầu tu vuợt trội Trang VNIndex số đầu tư khác VN30, HNXindex Để trả lời câu hỏi này, câu hỏi sau nghiên cứu: + Khả dự đoán thuật toán học máy phân biệt cổ phiếu hoạt động hiệu hiệu quả? + Có thể sử dụng chiến lược đầu tư cách sử dụng thuật toán học máy để xây dựng danh mục đầu tư vượt trội so với thị trường số đầu tư? + Các thuật tốn học máy đóng góp vào việc lựa chọn cổ phiếu tốt so với công cụ chọn cổ phiếu ngẫu nhiên? + Có chứng đáng kể mối liên hệ khả dự đoán thuật toán học máy lợi nhuận danh mục đầu tư tạo từ việc dự báo này? 2.3 Phạm vi hạn chế: - Mặc dù có nhiều cách phương pháp sử dụng để trả lời câu hỏi nghiên cứu luận văn này, nhiên, xin phép xác định rõ số giới hạn định phạm vi luận văn thạc sĩ 2.3.1 Thuật toán học tập: - Trong giới học máy, có nhiều thuật tốn học máy sử dụng để trả lời vấn đề luận văn Một lựa chọn số chúng nghiên cứu luận văn này: + Naive Bayes + Logistic Regrssion + Random Forest + Support Vector Machine (SVM) 2.3.2 Chỉ số tài chính: - Có số cách tiếp cận để phân tích số tài cố phiếu sở liệu khác Tuy nhiên, phạm vi luận văn này, sử dụng 23 số tài tính tốn từ báo cáo tài kiểm tốn cơng ty niêm yết sàn giao dịch chứng khốn Hồ Chí Minh Hà Nội Những số liệu liệt kê phần 5.2 2.3.3 VNindex HNXindex: - Danh mục đầu tư từ thuật toán học máy danh mục tham chiếu xây dựng từ cổ phiếu số thị trường chứng khốn Việt Nam VNIndex Sở giao dịch chứng khoán thành phố Trang 10 - Chuẩn hóa zscore cho tất cổ phiếu: minmax_by_sector (a) Không gia chiều (b) Khơng gian chiều Hình 15: Phân bổ liệu sau chuẩn hóa tất liệu bang z-score Khơng chuẩn hóa: (a) Khơng gia chiều (b) Khơng gian chiều Hình 15: Phân bổ liệu khơng chuẩn hóa liệu - Nhận định: + Các lớp khơng có phân tách rõ ràng không gian chiều + Dữ liệu chuấn hóa z-score khơng chuấn hóa có mật độ lớn vùng liệu nhỏ + Chuấn hóa liệu min-max tạo nên tập liệu phân tán rộng phuơng pháp khác Mặc dù lớp liệu khơng có phân tách rõ ràng, nhiên, khả kết thu đuợc từ tập liệu tốt tập liệu khác Trang 56 6.2 Triển khai thí nghiệm: 6.2.1 Naive Bayes classifier: - Naive Bayes có thời gian tính tốn ngắn giải thuật Giải thuật tuơng đối đơn giản thơng số tinh chỉnh để tối ưu hóa giải thuật Gridsearch Do đó, thay tìm thơng số tối uu cho giaỉ thuật, thực giải thuật với phuơng pháp khác nhau: Multinominal, Bemouli Gaussian - Giải thuật u cầu biến phải có giá trị khơng âm Do đó, tập liệu chuẩn hóa z-score khơng chuẩn hóa khơng áp dụng đuợc giải thuật - Trong tập liệu đuợc chuẩn hóa min-max, phuơng pháp multinominal cho kết tốt + Chuẩn hóa theo ngành: Giải thuật Biến độc lập Nãive Bayes năm chuẩn hóa theo ngành Top 25% sharpe ratio min_max MultinomialNB 0.5 0.59 0.56 0.61 0.57 Biến phụ thuộc Chuẩn hóa liệu Thơng số tốt threshold train_accuracy test_accuracy train_auc_score test_auc_score Bảng 3: Thông số kết giải thuật Naive Bayes ÍT’ A I Ấ Tập huân luyện micro avg macro avg weighted avg precision 0.6 0.58 0.59 0.59 0.59 recall fl-score 0.55 0.57 0.63 0.6 0.59 0.59 0.59 0.59 0.59 0.59 Bảng 4: Precision Recall tập huấn luyện Tập kiểm định 0.0 1.0 micro avg macro avg weighted avg precision recall 0.78 0.55 0.34 0.59 0.56 0.56 0.56 0.57 0.65 0.56 fl-score 0.65 0.43 0.56 0.54 0.59 Bảng 5: Precision Recall tập kiểm định Trang 57 + Chuẩn hóa theo tất liệu: Giải thuật Biến độc lập Biến phụ thuộc Chuẩn hóa liệu Thông số tốt threshold train_accuracy test_accuracy train_auc_score test_auc_score Naive Bayes năm chuẩn hóa theo tất liệu Top 25% sharpe ratio min_max MultinomialNB 0.50 0.58 0.60 0.62 0.57 Bảng 6: Thông số kết giải thuật Naive Bayes Tập huấn luyện 0.0 1.0 micro avg macro avg weighted avg precision 0.57 0.60 0.58 0.59 0.59 recall 0.67 0.50 0.58 0.58 0.58 fl-score 0.62 0.54 0.58 0.58 0.58 Bảng 7: Precision Recall tập huấn luyện Tập kiểm định 0.0 1.0 micro avg macro avg weighted avg precision 0.77 0.32 0.60 0.55 0.65 recall fl-score 0.65 0.71 0.46 0.38 0.60 0.60 0.56 0.54 0.60 0.62 Bảng 8: Precision Recall tập kiểm định 6.2.2 Logistic Regression: - Logistic Regression giải thuật có thời gian thực nhanh thứ 2, sau Naive bayes Bộ thông số thu đuợc từ GridsearchCV khác tập liệu khác Sau kết tốt giải thuật Logistic Regression: + Chuấn hóa theo tất liệu: Trang 58 Giải thuật Logistic Regression Biến độc lập năm Chuẩn hóa theo tất liệu Biến phụ thuộc Top 25% sharpe ratio Chuẩn hóa liệu min_max Thơng số tốt {'solver : 'newton-cg'} threshold 0.5 train_accuracy 0.61 test_accuracy 0.57 train_auc_score 0.64 test_auc_score 0.62 Bảng 9: Thông số kết giải thuật Logistic Regression Tập huấn luyện precision recall fl-score 0.0 0.62 0.60 0.61 0.63 1.0 0.61 0.62 micro avg 0.61 0.61 0.61 macro avg 0.61 0.61 0.61 weighted avg 0.61 0.61 0.61 Bảng 10: Precision Recall tập huấn luyện Tập kiểm định 0.0 1.0 micro avg macro avg weighted avg precision 0.80 0.33 0.57 0.56 0.67 recall 0.57 0.60 0.57 0.58 0.57 fl-score 0.66 0.42 0.57 0.54 0.60 Bảng 11: Precision Recall tập kiểm định + Chuẩn hóa theo ngành: Giải thuật Biến độc lập Logistic Regression năm Chuẩn hóa theo ngành Biến phụ thuộc Top 25% sharpe ratio Chuẩn hóa liệu z_score Thơng số tốt {'solver': 'newton-cg'} threshold 0.5 train_accuracy 0.61 test_accuracy 0.61 train_auc_score 0.66 test_auc_score 0.62 Bảng 12: Thông số kết giải thuật Logistic Regression Trang 59 Tập huấn luyện precision recall fl-score 0.0 0.62 0.62 0.62 1.0 0.62 0.62 0.62 micro avg 0.62 0.62 0.62 macro avg 0.62 0.62 0.62 weighted avg 0.62 0.62 0.62 Bảng 13: Precision Recall tập huấn luyện Tập kiểm định 0.0 1.0 micro avg macro avg weighted avg precision 0.78 0.36 0.61 0.57 0.67 recall fl-score 0.63 0.70 0.54 0.43 0.61 0.61 0.59 0.57 0.63 0.61 Bảng 14: Precision Recall tập kiểm định 6.2.3 Random Forest: - Random forest giải thuật có kết tốt giải thuật đuợc xem xét luận văn - Để giảm ảnh huởng over-fitting, việc áp dụng giải thuật bagging (và thân giải thuật random forest có mục đích giảm ảnh huởng over-fitting độ nhạy liệu decision tree), thông số tối uu random forest đuợc xem xét max depth (độ sâu cây) min_sample_leaf (số luợng mẫu tối thiểu leaf node) - Sau kết tốt giải thuật Random Forest: + Chuẩn hóa theo ngành: Giải thuật Biến độc lập Random Forest năm Chuẩn hóa theo ngành Biến phụ thuộc Top 25% sharpe ratio Chuẩn hóa liệu min_max Thơng số tốt {'max_depth': 27, 'min_samples_leaf: 10, 'n_estimators': 10} threshold 0.5 train_accuracy 0.90 test_accuracy 0.67 train_auc_score 0.96 test_auc_score 0.64 r Bảng 15: rhông số kết giải thuật Random Forest Trang 60 Tập huấn luyện 0.0 1.0 micro avg macro avg weighted avg precision recall 0.90 0.90 0.90 0.90 0.90 0.90 0.90 0.90 0.90 0.90 fl-score 0.90 0.90 0.90 0.90 0.90 Bảng 16: Precision Recall tập huấn luyện Tập kiểm định 0.0 1.0 micro avg macro avg weighted avg precision 0.79 0.43 0.68 0.61 0.69 recall fl-score 0.75 0.77 0.48 0.45 0.68 0.68 0.62 0.61 0.68 0.68 Bảng 17: Precision Recall tập kiểm định + Chuẩn hóa theo tất liệu: Giải thuật Biến độc lập Random Forest năm Chuẩn hóa theo tất liệu Biến phụ thuộc Top 25% sharpe ratio Chuẩn hóa liệu min_max Thông số tốt {'max_depth': 25, 'min_samples_leaf: 10, 'n_estimators': 10} threshold 0.5 train_accuracy 0.89 test_accuracy 0.66 train_auc_score 0.96 test_auc_score 0.66 r Bảng 18: rhông số kết giải thuật Random Forest Tập huấn luyện 0.0 1.0 micro avg macro avg weighted avg precision 0.90 0.89 0.90 0.90 0.90 recall fl-score 0.89 0.88 0.91 0.90 0.90 0.90 0.90 0.89 0.90 0.89 Bảng 19: Precision Recall tập huấn luyện Tập kiểm định 0.0 1.0 micro avg macro avg weighted avg precision 0.80 0.38 0.66 0.59 0.69 recall fl-score 0.71 0.75 0.50 0.43 0.66 0.66 0.61 0.59 0.66 0.67 Bảng 20: Precision Recall tập kiểm định Trang 61 6.2.4 Support Vector Machine (SVM) - SVM giải thuật có thời gian huấn luyện lâu Khi thực với tập liệu không chuẩn hóa, giải thuật chưa kết cuối - Do thời gian huấn luyện lâu, việc lựa chọn kernel thực trước, thực tim kiếm thông số tối ưu kernel Thay vĩ, thực lúc việc đánh giá kernel thơng số kernel - Độ xác tập liệu kiểm định cao ngang kết giải thuật Random Forest Tuy nhiên, kết nhận diện nhãn lại trôi hon kết nhận diện nhãn 1, dẫn đến chất lượng dự báo cho nhãn không thấp - Kết dự báo không đồng Kết thu áp dụng tập liệu chuẩn hóa phưcmg pháp min-max cho tất cổ phiếu có xác suất tập kiểm định cao hon tập huấn luyện, tập khác thi ngược lại - Sau kết tốt giải thuật SVM: + Chuẩn hóa theo ngành: Giải thuật Biến độc lập SVM năm Chuẩn hóa theo ngành Biến phụ thuộc Top 25% sharpe ratio Chuẩn hóa liệu z_score Thông số tốt {'degree1: 4, 'gamma1: 0.09, 'kernel': 'poly'} threshold 0.5 train_accuracy 0.79 test_accuracy 0.51 train_auc_score 0.92 test_auc_score 0.58 Bảng 21: Thông sôf rvà kêt giải thuật SVM m Ấ /V Tập huân luyện 0.0 1.0 micro avg macro avg weighted avg precision recall 0.95 0.62 0.72 0.97 079 0.79 0.84 0.79 0.84 0.79 fl-score 0.75 0.82 0.79 0.79 0.79 Bảng 22: Precision Recall tập huấn luyện Tập kiểm định 0.0 1.0 micro avg macro avg weighted avg precision 0.77 0.31 0.51 0.54 0.64 recall 0.47 0.63 0.51 0.55 0.51 fl-score 0.58 0.42 051 0.50 0.54 Bảng 23: Precision Recall tập kiểm định Trang 62 + Chuẩn hóa theo tất liệu: Giải thuật Biến độc lập SVM năm Chuẩn hóa theo tất liệu Biến phụ thuộc Top 25% sharpe ratio Chuẩn hóa liệu z_score Thông số tốt {'degree1: 3, 'gamma1: 0.09, 'kernel': 'poly'} threshold 0.5 train_accuracy 0.72 test_accuracy 0.66 train_auc_score 0.83 0.57 test_auc_score Bảng 24: Thông sôf rvà kêt giải thuật SVM Tập huấn luyện precision recall fl-score 0.67 0.87 0.75 0.0 0.56 1.0 0.81 0.66 micro avg 0.72 0.72 0.72 macro avg 0.74 0.72 0.71 weighted avg 0.74 0.72 0.71 Bảng 25: Precision Recall tập huấn luyện Tập kiểm định 0.0 1.0 micro avg macro avg weighted avg precision 0.76 0.33 0.66 0.54 0.64 recall fl-score 0.78 0.80 0.30 0.28 0.66 0.66 0.54 0.54 0.65 0.66 Bảng 26: Precision Recall tập kiểm định 6.3 Đánh giá mơ hình 6.3.1 Đánh giá kết dự báo mơ hình: - Hiệu suất dự đốn thuật toán học đuợc đánh giá cách sử dụng số liệu liên quan chuơng Nhìn chung, giải thuật đuợc sử dụng áp dụng cho tập dự liệu luận văn có tính dự báo thấp Ket đuợc tóm tắt bảng duới Accuracy Fl-score Random Forest 0.45 0.68 SVM 0.51 0.42 Naive Bayes 0.56 043 Logistic Regression 0.61 0.43 Bảng 27: Tổng hợp kết giải thuật Trang 63 AUC 0.64 0.58 0.57 0.62 - - Mặc dù, kết huấn luyện tốt thực giải thuật Random Forest, kết tốt việc nhận diện nhãn (cổ phiếu khơng tăng giá xuất phát từ tình hình tài khơng tốt) Tuy nhiên, kết lại khơng thực tốt thực nhận diện nhãn (cổ phiếu tăng giá xuất phát từ tĩnh hĩnh tài tốt) Ket nhận diện không tốt nhãn tới từ nguyên nhân sau: + Cổ phiếu có tình hĩnh tài khơng tốt đủ để tăng giá mạnh nhung tăng giá mạnh Với thị truờng sơ khai quản lý chua tốt nhu thị truờng chứng khoán Việt Nam, việc tác động vào giá cổ phiếu diễn nhiều chua có biện pháp phát xử lý Điều mày dẫn đến cổ phiếu có tình hĩnh kinh doanh, tài khơng thực bền vững tăng giá mạnh ngắn hạn + Cổ phiếu có tĩnh hĩnh kinh doanh tốt nhung tăng giá không mạnh đủ để lọt vào top 25% cổ phiếu tốt thị truờng Việc làm giá kể góp phần giảm ảnh huởng tăng giá cổ phiếu có tình hĩnh kinh doanh tốt Thêm nữa, bất cân xứng thơng tin dẫn đến việc định giá chua thực cổ phiếu có tĩnh hĩnh kinh doanh tốt 6.3.2 Đánh giá hiệu danh mục: - Với kết dự báo mơ hĩnh, Random Forest có kết tốt đuợc chọn để xây dựng danh mục đầu tu - Dữ liệu huấn luyện tập liệu đuợc chuẩn hóa phuơng pháp minmax theo ngành cổ phiếu - Số luợng cổ phiếu giải ngân theo nguyên tắc đa dạng hóa danh mục để tối thiểu hóa rủi ro - 12 cổ phiếu Tôi sử dụng 10 cổ phiếu để thiết lập danh mục - Mục đích tim đuợc cổ phiếu tăng giá từ số tài có độ xác cao Do đó, tơi áp dụng nguỡng (threshold) để tối đa precision nhãn cho: + precision tối đa + Số luợng cổ phiếu giải ngân