Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 101 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
101
Dung lượng
4,38 MB
Nội dung
ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN KHOA CÔNG NGHỆ PHẦN MỀM Vương Bảo Minh Nguyễn Vĩnh Duyệt KHÓA LUẬN TỐT NGHIỆP DỰ ĐOÁN CỔ PHIẾU BẰNG TIẾP CẬN PHỐI HỢP SỰ TƯƠNG ĐỒNG VÀ PHÂN LỚP CỔ PHIẾU Improving stock prediction with a hybrid approach that combines stock similarity and classification KỸ SƯ NGÀNH KỸ THUẬT PHẦN MỀM TP HỒ CHÍ MINH, 2021 ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN KHOA CÔNG NGHỆ PHẦN MỀM Vương Bảo Minh - 17520768 Nguyễn Vĩnh Duyệt - 17520411 KHĨA LUẬN TỐT NGHIỆP DỰ ĐỐN CỔ PHIẾU BẰNG TIẾP CẬN PHỐI HỢP SỰ TƯƠNG ĐỒNG VÀ PHÂN LỚP CỔ PHIẾU Improving stock prediction with a hybrid approach that combines stock similarity and classification KỸ SƯ NGÀNH KỸ THUẬT PHẦN MỀM GIẢNG VIÊN HƯỚNG DẪN TS DƯƠNG MINH ĐỨC TP HỒ CHÍ MINH, 2021 DANH SÁCH HỘI ĐỒNG BẢO VỆ KHĨA LUẬN Hội đồng chấm khóa luận tốt nghiệp, thành lập theo Quyết định số ………………… ngày ………………… Hiệu trưởng Trường Đại học Công nghệ Thông tin TS Dương Minh Đức – Chủ tịch 3 ĐHQG TP HỒ CHÍ MINH CỘNG HỒ XÃ HỘI CHỦ NGHĨA VIỆT NAM TRƯỜNG ĐẠI HỌC Độc Lập – Tự Do – Hạnh Phúc CÔNG NGHỆ THÔNG TIN TP HCM, ngày 20 tháng 07 năm 2021 NHẬN XÉT KHOÁ LUẬN TỐT NGHIỆP (CỦA CÁN BỘ HƯỚNG DẪN) Tên khoá luận: DỰ ĐOÁN CỔ PHIẾU BẰNG TIẾP CẬN PHỐI HỢP SỰ TƯƠNG ĐỒNG VÀ PHÂN LỚP CỔ PHIẾU Improving stock prediction with a hybrid approach that combines stock similarity and classification Nhóm SV thực hiện: Cán hướng dẫn: Vương Bảo Minh 17520768 Nguyễn Vĩnh Duyệt 17520411 Tiến sĩ: Dương Minh Đức Đánh giá khoá luận: Về báo cáo: Số trang: … Số chương: … Số bảng số liệu: … Số hình vẽ: … Số tài liệu tham khảo: … Sản phẩm: … Một số nhận xét hình thức báo cáo: ………………………………………………………………………………………… ………………………………………………………………………………………… ………………………………………………………………………………………… ………………………………………………………………………………………… ………………………………………………………………………… Về nội dung nghiên cứu: ………………………………………………………………………………………… ………………………………………………………………………………………… ………………………………………………………………………………………… ………………………………………………………………………………………… ………………………………………………………………………… ……………… ………………………………………………… Về chương trình ứng dụng: ………………………………………………………………………………………… ………………………………………………………………………………………… ………………………………………………………………………………………… ………………………………………………………………………………………… ………………………………………………………………………… ……………… ………………………………………………… Về thái độ làm việc sinh viên: ………………………………………………………………………………………… ………………………………………………………………………………………… ………………………………………………………………………………………… ………………………………………………………………………………………… ………………………………………………………………………………………… …………………………………………………… Đánh giá chung: ………………………………………………………………………………………… ………………………………………………………………………………………… ………………………………………………………………………………………… ………………………………………………………………………………………… ………………………………………………………………………… ……………… ………………………………………………… Điểm sinh viên: Vương Bảo Minh: /10 Nguyễn Vĩnh Duyệt: /10 Người nhận xét (Ký tên ghi rõ họ tên) LỜI CẢM ƠN Sau năm học tập rèn luyện trường Đại học Công nghệ Thông tin – Đại học Quốc gia Thành phố Hồ Chí Minh, bảo giảng dạy nhiệt tình q thầy cơ, đặc biệt quý thầy cô khoa Công nghệ phần mềm, chúng em tiếp thu nhiều kiến thức bổ ích lý thuyết lẫn thực hành lĩnh vực cơng nghệ thơng tin nói chung lĩnh vực cơng nghệ phần mềm nói riêng Trong khoảng thời gian thực luận văn tốt nghiệp, nhóm chúng em có hội học hỏi thêm nhiều kiến thức có hội tích lũy kinh nghiệm quý báu để áp dụng hoàn thành luận văn tốt nghiệp theo kế hoạch thời hạn đề Xin chân thành cảm ơn quý thầy cô khoa Công nghệ phần mềm, đặc biệt thầy: TS Dương Minh Đức tận tình hướng dẫn chúng em suốt trình thực luận văn tốt nghiệp Bên cạnh đó, chúng em xin chân thành cảm ơn nhóm bạn lớp làm khóa luận động viên, thảo luận góp ý cho nhóm tiếp thêm nguồn động lực quý giá để nhóm chúng em tự tin vượt qua giai đoạn khó khăn q trình thực luận văn tốt nghiệp Ngồi ra, chúng em xin chân thành cảm ơn anh, chị, bạn bè gia đình giúp đỡ tạo điều kiện thuận lợi để chúng em hoàn thành luận văn tốt nghiệp Mặc dù cố gắng hết sức, nhiên khả thời gian thực đề tài khóa luận có hạn nên luận văn chúng em chắc chắn khơng thể tránh khỏi thiếu sót Chúng em mong nhận thơng cảm góp ý chân tình từ q thầy bạn để luận văn ngày hoàn thiện Một lần nhóm chúng em xin chân thành cảm ơn Thành phố Hồ Chí Minh, tháng 07 năm 2021 Vương Bảo Minh Nguyễn Vĩnh Duyệt MỤC LỤC CHƯƠNG 1: TỔNG QUAN 12 1.1 GIỚI THIỆU 12 1.2 TÌNH HÌNH NGHIÊN CỨU VỀ ĐỀ TÀI TRONG NƯỚC VÀ THẾ GIỚI 12 1.2.1 NGHIÊN CỨU THẾ GIỚI 12 1.2.2 NGHIÊN CỨU TRONG NƯỚC 14 CHƯƠNG 2: CƠ SỞ LÝ THUYẾT 18 2.1 GIỚI THIỆU CÁC MƠ HÌNH ĐƯỢC SỬ DỤNG 18 2.2 LONG SHORT TERM MEMORY (LSTM) 18 2.3 LINEAR REGRESSIVE 23 2.4 SUPPORT VECTOR MACHINES (SVM) 25 2.5 K-NEAREST NEIGHBORS (KNN) 32 2.6 AUTO ARIMA 34 CHƯƠNG 3: MÔI TRƯỜNG CÀI ĐẶT VÀ CÁC NỀN TẢNG CÔNG NGHỆ 41 3.1 NGƠN NGỮ LẬP TRÌNH PYTHON 41 3.2 MÔI TRƯỜNG GOOGLE COLABORATORY 42 3.3 CÁCH CÀI ĐẶT CÁC THƯ VIỆN DÙNG TRONG THỰC NGHIỆM 47 3.3.1 THƯ VIỆN MATH 47 3.3.2 THƯ VIỆN PANDAS_DATAREADER 48 3.3.3 THƯ VIỆN MATPLOTLIB 49 3.3.4 THƯ VIỆN PANDAS 50 3.3.5 THƯ VIỆN SELENIUM 52 CHƯƠNG 4: THỰC NGHIỆM – PHÂN TÍCH VÀ ĐÁNH GIÁ 55 4.1 MÔ TẢ DỮ LIỆU 55 4.1.1 BỘ 1: TOÀN BỘ DỮ LIỆU CRAWL ĐƯỢC 55 4.1.2 BỘ 2: CÁC CƠNG TY CĨ NHĨM NGÀNH LIÊN QUAN TỚI BẤT ĐỘNG SẢN, XÂY DỰNG 61 4.1.3 BỘ 3: TOP 10 CƠNG TY THUỘC NHĨM NGÀNH BẤT ĐỘNG SẢN, XÂY DỰNG CÓ VỐN HÓA CAO NHẤT 64 4.1.4 BỘ 4: TOP CƠNG TY THUỘC NHĨM NGÀNH BẤT ĐỘNG SẢN, XÂY DỰNG CÓ VỐN HÓA CAO NHẤT 66 4.1.5 CÁC KHẢO NGHIỆM ĐƯỢC THỰC HIỆN 68 4.1.6 SO SÁNH ĐỘ CHÍNH XÁC CỦA MƠ HÌNH LSTM, LINEAR REGRESSIVE, SVM, KNN, AUTO ARIMA 69 4.1.7 KHẢO NGHIỆM TRÊN PHƯƠNG DIỆN 69 4.1.8 KIỂM TRA ĐỘ CHÍNH XÁC CỦA CÁC MƠ HÌNH TRÊN THỊ TRƯỜNG CHỨNG KHỐN VIỆT NAM 71 4.1.9 SO SÁNH ĐỘ CHÍNH XÁC CỦA MƠ HÌNH VÀ HIỆU QUẢ CỦA PHÂN NHÓM NGÀNH 71 4.2 CRAWL VÀ XỬ LÝ DỮ LIỆU 72 4.2.1 XỬ LÝ CÁC TẬP DỮ LIỆU 72 4.2.2 MƠ TẢ TIẾN TRÌNH CRAWL DỮ LIỆU 72 4.3 CHIA TẬP TRAIN, TEST CHO MỖI BỘ DỮ LIỆU, SETUP INPUT, OUPUT CỦA CÁC MƠ HÌNH 83 4.4 TRAINING CÁC MƠ HÌNH VỚI CÁC BỘ DỮ LIỆU 86 4.4.1 MODEL LSTM 86 4.4.2 MODEL LINEAR REGRESSIVE 88 4.4.3 MODEL SVM 89 4.4.4 MODEL KNN 89 4.4.5 MODEL AUTO ARIMA 89 4.5 KẾT QUẢ VÀ ĐÁNH GIÁ 90 4.5.1 KHẢO NGHIỆM 1: DỰ ĐỐN GIÁ TRỊ CHÍNH XÁC CỦA GIÁ CỔ PHIẾU 90 4.5.1.1 ĐÁNH GIÁ 90 ĐÁNH GIÁ 1.1 90 ĐÁNH GIÁ 1.2 90 ĐÁNH GIÁ 1.3 91 ĐÁNH GIÁ 1.4 91 4.5.1.2 ĐÁNH GIÁ 92 ĐÁNH GIÁ 2.1 93 ĐÁNH GIÁ 2.2 93 ĐÁNH GIÁ 2.3 93 ĐÁNH GIÁ 2.4 94 4.5.2 KHẢO NGHIỆM 2: THỬ NGHIỆM NÀY CHỈ ĐÁNH GIÁ XEM DỰ ĐOÁN LÀ TĂNG HAY TĂNG 94 CHƯƠNG 5: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 97 5.1 KẾT LUẬN 97 5.2 HƯỚNG PHÁT TRIỂN 99 5.2.1 HƯỚNG 1: TĂNG CHẤT LƯỢNG DỮ LIỆU 99 5.2.2 HƯỚNG 2: TĂNG CƯỜNG ĐÀO TẠO CHO CÁC MƠ HÌNH 99 TÀI LIỆU THAM KHẢO: 100 DANH MỤC HÌNH ẢNH Hình 1.1 Những tính chất khác thể tính tương đồng cổ phiếu[1] 13 Hình 1.2 Quy trình tiến hành việc dự đoán cổ phiếu[1] 13 Hình 1.3 Biểu đồ cho thấy vượt trội việc train loại cổ phiếu có tính chất tương đồng so với loại cổ phiếu ngẫu nhiên khác[1] 14 Hình 2.1 Cấu trúc nơron sinh học [6] 18 Hình 2.2 Mơ hình Perceptron [6] 19 Hình 2.3 Mơ hình mạng nơron nhân tạo [6] 19 Hình 2.4 Mơ hình Deep Neural Network [6] 20 Hình 2.5 RNN có vịng lặp [6] 21 Hình 2.6 RNN “trải ra” [6] 21 Hình 2.7 RNN phụ thuộc xa [6] 22 Hình 2.8 Cấu trúc đơn vị LSTM [6] 23 Hình 2.9 Biểu đồ thể mơ hình Linear Regressive [6] 24 Hình 2.10 Mơ hình thể ý tưởng mơ hình SVM 26 Hình 2.11 SVM khơng có siêu phẳng 27 Hình 2.12 Cách thức xác định siêu phẳng tối ưu 30 Hình 2.13 Trường hợp đặc biệt SVM 31 Hình 2.14 Bản đồ 1NN [11] 34 Hình 2.15 Đồ thị chuỗi nhiệt độ trung bình theo tháng thể yếu tố mùa vụ [12] 35 Hình 2.16: Đồ thị yếu tố xu hướng chuỗi thời gian chuỗi giá.[12] 36 Hình 3.1 Biểu tượng Python phiên 3.9 41 Hình 3.2 Trang chủ Python 42 Hình 3.3 Mơi trường lập trình Python Google Colab 42 Hình 3.4 Cách setup TPU 44 Hình 3.5 Ví dụ việc thực thi Google Colab 45 Hình 3.7 Cách mở file Colab 46 Hình 3.8 Cửa sổ sau mở file thành công colab 47 Hình 3.9 Cài đặt thư viện Math 47 Hình 3.10 Bộ liệu cơng ty Hưng Thịnh 48 Hình 3.11 Ví dụ vẽ biểu đồ giá chứng khốn cơng ty Hưng Thịnh 50 Hình 3.12 File liệu mẫu cung cấp 51 Hình 3.13 Dữ liệu tập đoàn Sao Mai 51 Hình 3.14 Danh mục ngành Vietstock 53 Hình 3.15 Phân tích lấy cú pháp HTML chứa tên tất ngành 54 Hình 3.16 Dữ liệu trả tất ngành 54 Hình 4.1 Cách lấy tổng cơng ty crawl 55 Hình 4.2 Lọc cơng ty có thâm niên cịn hoạt động 57 Hình 4.3 Dữ liệu tập đoàn Sao Mai 59 Hình 4.4 Biểu đồ giá cổ phiếu tập đoàn Hưng Thịnh 60 Hình 4.5 Cách lọc cơng ty theo nhóm ngành 61 Hình 4.6 Kết lọc cơng ty theo nhóm ngành 62 Hình 4.7 Dữ liệu Địa ốc NovaLand 63 Hình 4.8 Biểu đồ giá cổ phiếu Địa ốc NovaLand 64 Hình 4.9 Dữ liệu tập đoàn VINGROUP 65 Hình 4.10 Biểu đồ giá cổ phiếu tập đoàn VINGROUP 65 Hình 4.11 Dữ liệu CTCP Đầu tư Nam Long 67 Hình 4.12 Biểu đồ giá cổ phiếu CTCP Đầu tư Nam Long 67 Hình 4.13 Các nhóm ngành VietStock 73 Hình 4.14 Hình ảnh thực tế trang web VietStock 74 Hình 4.15 Phân tích HTML để lấy liệu cụ thể 75 Hình 4.16 Đường dẫn để truy cập vào trang ngành 76 Hình 4.17 Mã chứng khốn cơng ty theo từng nhóm ngành 78 Hình 4.18 Dữ liệu thời gian thực công ty Hưng Thịnh 80 Hình 4.19 Dữ liệu công ty Hưng Thịnh Vietstock 81 Hình 4.20 Lưu tồn liệu dạng file csv 81 Hình 4.21 Dữ liệu công ty file csv 82 Hình 4.22 Biểu đồ giá cổ phiếu cơng ty Hưng Thịnh theo file csv 83 Hình 4.23 Chia tập train test cho liệu 83 Hình 4.24 Hình minh họa tập liệu train test 84 Hình 4.25 Code training cho model LSTM 86 Hình 4.26 Code training cho model LSTM 87 Hình 4.27 Code training cho model Linear Regressive 88 Hình 4.28 Code training cho model LSTM 88 Hình 4.29 Code training cho model SVM 89 Hình 4.30 Code training cho model KNN 89 Hình 4.31 Code training cho model Auto Arima 89 Hình 4.32 Kết khảo nghiệm với tất công ty tất cơng ty nhóm ngành bất động sản 90 Hình 4.33 Kết khảo nghiệm với liệu công ty Bất động sản 91 Hình 4.34 Biểu đồ so sánh giá dự đốn mơ hình Tập đồn VINGROUP 92 Hình 4.35 Biểu đồ so sánh giá dự đốn mơ hình CTCP Địa ốc NovaLand 92 Hình 4.36 Các độ đo sử dụng để đánh giá kết train mơ hình tập liệu 95 Hình 4.37 Kết train mơ hình báo liên quan 95 10 Hình 4.26 Code training cho model LSTM 87 4.4.2 MODEL LINEAR REGRESSIVE Hình 4.27 Code training cho model Linear Regressive Hình 4.28 Code training cho model LSTM 88 4.4.3 MODEL SVM Hình 4.29 Code training cho model SVM 4.4.4 MODEL KNN Hình 4.30 Code training cho model KNN 4.4.5 MODEL AUTO ARIMA Hình 4.31 Code training cho model Auto Arima 89 4.5 KẾT QUẢ VÀ ĐÁNH GIÁ 4.5.1 KHẢO NGHIỆM 1: DỰ ĐOÁN GIÁ TRỊ CHÍNH XÁC CỦA GIÁ CỔ PHIẾU So sánh độ xác mơ hình training tập liệu khác để đưa hiệu việc tiền xử lý (phân nhóm ngành) trước thực train model Đồ thị thể độ lệch chuẩn, sai số mơ hình so với kết thực tế: Hình 4.32 Kết khảo nghiệm với tất công ty tất công ty nhóm ngành bất động sản 4.5.1.1 ĐÁNH GIÁ ĐÁNH GIÁ 1.1 Dựa vào biểu đồ cột thể độ lệch chuẩn (sai số trung bình) tập data so với kết thực tế ta nhận thấy rằng: - Khác với biểu đồ liệu tất cơng ty, biểu đồ nhóm ngành bất động sản cho kết mơ hình có tương đồng cao (cụ thể mơ hình LSTM, Linear Regressive, SVM, KNN, Prophet chênh lệch không 10% ) - Điều chứng minh giả thuyết đưa sử dụng liệu có tương đồng để training cho lĩnh vực ta nhận dự đốn có độ ổn định cao sử dụng với toàn data từ tất công ty ĐÁNH GIÁ 1.2 Ta nhận thấy model Auto Arima có sai số cao so với mơ hình khác 90 Lý do: mơ hình chun dụng để training liệu cơng ty việc đào tạo mơ hình qua nhiều cơng ty làm chất lượng dự đoán giảm lớn Model Auto Arima không phù hợp việc training tập liệu nhiều cơng ty Hình 4.33 Kết khảo nghiệm với liệu công ty Bất động sản ĐÁNH GIÁ 1.3 Ta dễ dàng nhận thấy thu nhỏ tập train sai số mơ hình nhỏ mơ hình bị chun hóa cho nhóm nhỏ cơng ty Tuy sai số nhỏ chưa thể kết luận mơ hình tốt lên Ở ta kết luận sai số phụ thuộc nhiều vào độ lớn tập liệu Bốn mơ hình có hiệu tốt Auto Arima training tập nhiều cơng ty ĐÁNH GIÁ 1.4 Mơ hình LSTM, Linear Regressive, SVM, KNN có độ sai số thấp khơng có chênh lệch đáng kể Lý do: mơ hình có lý thuyết phù hợp với việc đào tạo tập liệu có nhiều miền (nhiều công ty) Chúng tiếp tục thực khảo sát bốn mơ hình để đánh giá xem chất lượng dự đốn có thiện thay đổi tập liệu hay không Một vài biểu đồ giá trị dự đoán mơ hình so với giá trị thực tế cơng ty 91 Hình 4.34 Biểu đồ so sánh giá dự đốn mơ hình Tập đồn VINGROUP Hình 4.35 Biểu đồ so sánh giá dự đốn mơ hình CTCP Địa ốc NovaLand 4.5.1.2 ĐÁNH GIÁ Các thang điểm đánh giá tỷ lệ dự đốn giá tăng giảm mơ hình so với giá thực tế Dựa vào biểu đồ thể dự đoán tỷ giá cổ phiếu mơ hình so với thực tế chúng tơi nhận thấy rằng: 92 ĐÁNH GIÁ 2.1 Mơ hình KNN: cho giá dự đoán cao hẳn giá trị thực tế: Lý do: theo lý thuyết mơ hình phân cụm KNN việc dự đốn phụ thuộc vào việc phân cụm xem ngày hơm rơi vào cụm mà liệu minh giá cổ phiếu cơng ty có chênh lệch lớn với Ví dụ có cơng ty giá trung bình rơi vào khoảng 5000 VND cho cổ phiếu, cố cơng ty lại có giá trị 100.000 VNĐ cho cổ phiếu) Mơ hình KNN khơng phù hợp cho việc dự đốn xác cho giá trị cổ phiếu ĐÁNH GIÁ 2.2 Mô hình SVM: cho giá dự đốn đường thẳng Lý do: Mơ hình Support Vector Machine tạo vector nhằm phân lớp giá trị , phù hợp với việc dự đốn giá trị trung bình khơng thể dùng để dự đốn giá trị có tính chất thay đổi liên tục Mơ hình SVM khơng có giá trị thực tiễn việc dự đốn xác giá cổ phiếu ngày Nhưng ngược lại, lại phù hợp cho việc dự đốn phân lớp (giá tăng hay giảm) đưa dự đốn giá trị trung bình từ liệu trước Dựa mẫu đánh giá ta tiếp tục thử nghiệm với khảo sát cuối chất lượng dự đoán tăng giảm tập liệu mơ hình ĐÁNH GIÁ 2.3 Mơ hình Linear Regressive cho kết sát với kết thực tế Lý do: Đây mơ hình chun dùng để dự đốn kết mang tính chất liên tục Mơ hình dự đốn kết tuyến tính phụ thuộc nhiều vào kết ngày phía trước Vì có kết sát với thực tế Mơ hình Linear Regressive phù hợp việc đưa số xác giá trị cổ phiếu ngày vào kết ngày phía trước Tuy nhiên mơ hình tuyến tính nên giá dự đốn phụ thuộc vào trạng thái ngày phía trước, 93 ngày tăng ngày tăng ngược lại Chính vậy, khơng dự đốn điều bất thường xảy việc dự đốn ĐÁNH GIÁ 2.4 Mơ hình LSTM cho kết tốt Lý do: Long Short Term Memory mơ hình có lý thuyết phù hợp cho việc dự đoán giá chứng khoán lưu trữ thơng tin khoảng thời gian hoạt động công ty đồng thời kết hợp với thời gian ngắn hạn ngày phía trước kết dự đoán Kết đưa vừa tn theo tuyến tính, có đột biến liệu q khứ hay Cơng ty khác có đột biến mốc (ví dụ liệu cho thấy thơng thường cơng ty có tăng liên tục khơng giảm vượt q 20% giá trị cổ phiếu Nếu sau nhận kết ngày hôm trước cổ phiếu tăng cao mơ hình dự đốn ngày giá cổ phiếu đột ngột giảm) Đây mơ hình có khả dự đốn tốt nhất, thực tế việc dự đốn trước biến động bất thường giá cổ phiếu quan trọng nhiều so với dự đốn xác giá cổ phiếu ngày 4.5.2 KHẢO NGHIỆM 2: THỬ NGHIỆM NÀY CHỈ ĐÁNH GIÁ XEM DỰ ĐOÁN LÀ TĂNG HAY TĂNG Các thang điểm đánh giá: - Mốc tăng hay giảm phụ thuộc vào độ đo khác - F1 score chọn giá có độ phổ biến (xuất nhiều nhất) tập liệu giá dự đốn cao tăng, thấp giảm - Mean Accuracy chọn giá trị trung bình để làm mốc xác định tăng giảm - Mean Sharp chọn giá trị ngày phía trước để làm mốc xác định tăng giảm cho ngày 94 Tất Công ty BDS 10 Công ty BDS Cơng ty BDS Hình 4.36 Các độ đo sử dụng để đánh giá kết train mơ hình tập liệu Hình 4.37 Kết train mơ hình báo liên quan 95 Đánh giá kết khảo nghiệm 2: - Chúng thấy mơ hình Auto Arima có giá trị dự đoán tương đối sai so với giá trị thực quay lại tốn phân loại cho giá trị chấp nhận Đây lý mơ hình sử dụng việc dự đoán giá chứng khoán - Hầu hết kết khả dự đốn mơ hình tăng lên tập liệu toàn nhóm ngành tập liệu nhóm ngành - Trên lý thuyết kết dự đoán vượt tỉ lệ 0.5 tức 50% chiến lược đầu tư mơ hình có lãi Ở mức trung bình rơi vào khoảng 0.5 - Chúng tơi tin mơ hình đào tạo với thời gian đủ lâu từng miền xác định nhóm ngành kết dự đốn tốt Đây kết luận rút từ báo - Từ kết thu đối chiếu với kết báo, với thơng số độ xác mức dao động 0.5 thấy việc thực nghiệm cho kết theo định hướng ban đầu Tức mơ hình dự đốn có khả sinh lợi nhuận 96 CHƯƠNG 5: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 5.1 KẾT LUẬN Đề tài rút kết luận chính: • So với việc training mơ hình cơng ty việc training tập nhiều công ty mang đến hiệu cao hơn: - Nếu so sánh việc training thơng thường với mơ hình cơng ty vài nghiên cứu khác, việc training tập nhiều cơng ty có yếu tố giúp mơ hình có hiệu cao - Thứ nhất, với việc liệu mở rộng ra, có khả khiến sai số lớn đồng thời mơ hình train với nhiều dạng liệu thời gian training đạt hiệu - Thứ hai, số tất cơng ty đó, có cơng ty mang tính tương đồng so với cơng ty mà cần dự đốn Việc thực training liệu mang tính chất tương đồng chứng minh có hiệu tốt theo đánh giá mục 4.5 chương • Nếu chọn tập liệu có độ tương đồng cao(nhóm ngành) tồn liệu để làm train data làm tăng hiệu dự đốn mơ hình: - Theo đánh giá trên, thấy việc chọn tập liệu có tính tương đồng, mà cụ thể tương đồng nhóm ngành đảm bảo mơ hình có hiệu tốt - Ngun cơng ty nhóm ngành có sai lệch mặt tương quan liệu thấp hơn, đồng thời với số lượng cơng ty chun hóa giảm xuống giúp mơ hình giảm sai số từ liệu nhiễu - Ta thấy việc chênh lệch mức giá thị trường vốn hóa số cơng ty nhóm ngành gây sai số cho mơ hình Tuy nhiên tiếp tục chọn top 10 hay top cơng ty để training độ 97 sai số mơ hình giảm lúc tính tương đồng cơng ty mức tốt - Đặc biệt, mơ hình dựa tính tương đồng liệu có khả dự đoán tốt khoảng thời gian ngắn hạn(một ngày, ba ngày ) Đây kết luận rút báo [1] • Mơ hình LSTM mơ hình dự đốn tốt nhất: - Theo kết thực nghiệm, mơ hình LSTM cho khả dự đốn tốt - Đây mơ hình đặc biệt hiệu việc giải toán liên quan đến chuỗi thời gian có việc dự đốn cổ phiếu - Lí thuyết mơ hình LSTM xây dựng dựa việc kết hợp liệu ngắn hạn liệu q khứ cơng ty -> Có thể cho kết tốt dự đoán khoảng thời gian ngắn hạn đồng thời dự đoán biến động liệu - Mơ hình LSTM mơ hình có khả vận dụng thực tiễn tốt với liệu chứng khốn Việt Nam • Các mơ hình dự đốn với liệu chứng khốn Việt Nam có kết tương đồng với liệu chứng khoán giới: - Qua thực nghiệm nghiên cứu báo liên quan, chúng tơi thấy kết dự đốn mơ hình với liệu Việt Nam có kết gần giống mơ hình chạy liệu chứng khoán giới - Mặc dù hiệu mơ hình nghiên cứu chúng tơi vài điểm hạn chế so sánh với mơ hình chun hóa nghiên cứu khác, kết cho thấy tính khả quan khả áp dụng thực tế mơ hình training tốt giống nghiên cứu liên quan 98 5.2 HƯỚNG PHÁT TRIỂN 5.2.1 HƯỚNG 1: TĂNG CHẤT LƯỢNG DỮ LIỆU Trên thực tế ngày có nhiều phiên giao dịch phiên, giá trị cổ phiếu khác Để thêm thông tin cho việc dự đoán giá cổ phiếu, nên thay liệu đầu vào giá trị tất phiên giao dịch ngày thay lấy giá chốt ngày Chọn phân nhỏ nhóm ngành để đảm bảo công ty liệu có tương đồng cao trị giá chứng khốn thời điểm (nhóm ngành, số năm hoạt động, giá cổ phiếu, vốn điều lệ) 5.2.2 HƯỚNG 2: TĂNG CƯỜNG ĐÀO TẠO CHO CÁC MƠ HÌNH Thực nghiệm mơ hình train tối đa khoản ngày (giới hạn Colab) nên mơ hình chưa train tới mức độ tốt Chúng tin chắc training máy tính có cấu hình cao khoảng thời gian ngày (như báo Lior Sidi) chất lượng cải thiện đáng kể 99 TÀI LIỆU THAM KHẢO: [1] Lior Sidi 2020 Improving S&P stock prediction with time series stock similarity In Proceedings of ACM, New York, NY, USA, Article 4, 14 pages https://arxiv.org/pdf/2002.05784.pdf [2] Gavin Finnie, Bjoern Krollner, Bruce Vanstone, and Gavin Finnie 2010 Financial time series forecasting with machine learning techniques : A survey European Symposium on Artificial Neural Networks ESANN2010 April (2010) http://works bepress.com/bruce_vanstone/17 [3] Saeed Aghabozorgi and Ying Wah Teh 2014 Stock market co-movement assessment using a three-phase clustering method Expert Systems with Applications 41, PART (2014), 1301–1314 https://doi.org/10.1016/j.eswa.2013.08.028 [4] Binoy B Nair, P K.Saravana Kumar, N R Sakthivel, and U Vipin 2017 Clustering stock price time series data to generate stock trading recommendations: An empirical study Expert Systems with Applications 70 (2017), 20–36 https://doi org/10.1016/j.eswa.2016.11.002 [5] Attigeri, G V., MM, M P., Pai, R M., and Nayak, A (2015), “Stock market prediction: A big data approach”, In TENCON 2015-2015 IEEE Region 10 Conference, pages 1-5 IEEE [1] Chou, J.-S and Nguyen, T.-K (2018),” Forward Forecast of Stock Price Using Sliding-Window Metaheuristic - Optimized MachineLearning Regression”, IEEE Transactions on Industrial Informatics, 14(7):3132- 3142 [6] Graves A (2012) Long Short-Term Memory In: Supervised Sequence Labelling with Recurrent Neural Networks Studies in Computational Intelligence, vol 385 Springer, Berlin, Heidelberg https://doi.org/10.1007/978-3-642-24797-2_4 [7] G Dutta, P Jha, A K Laha, and N Mohan, “Artificial neural network models for forecasting stock price index in the bombay stock exchange,” Journal of Emerging Market Finance, vol 5, no 3, pp 283–295, 2006 https://doi.org/10.24135/afl.v5i2.47 [8] Huỳnh Quyết Thắng, Phùng Đinh Vũ, Dự đoán hiệu Web Services sử dụng mơ hình mạng hàng đợi phân tích hồi quy Gaussian , Journal of Research and 100 Development on Information and Communication Technology: Tập V-1 Số 31 (2014) https://doi.org/10.32913/rd-ict.vol1.no39.571 [9] Applied linear regression S Weisberg - 2005 - books.google.com C Burges, T Shaked, E Renshaw, A Lazier, M Deeds, N Hamilton, and G Hullender Learning to Rank using Gradient Descent Proceedings of the 22nd International Conference on Machine Learning, 2005 [10] Support Vector Machine Classification and Validation of Cancer Tissue Samples Using Microarr ay Expression Data, Terrence S Furey, Nigel Duffy, Nello Cristianini, David Bednarski, Michel Schummer, and David Haussler, Bioinformatics 2000, 16(10):906-914 [11] Wang, H.: Nearest Neighbours without k: A Classification Formalism based on Probability, technical report, Faculty of Informatics, University of Ulster, N.Ireland, UK (2002) [12] Stock Market Prediction for Time-series Forecasting using Prophet upon ARIMA 2020 7th International Conference on (ICSSS)Published: 2020 101 Smart Structures and Systems ... 20 tháng 07 năm 2021 NHẬN XÉT KHOÁ LUẬN TỐT NGHIỆP (CỦA CÁN BỘ HƯỚNG DẪN) Tên khoá luận: DỰ ĐOÁN CỔ PHIẾU BẰNG TIẾP CẬN PHỐI HỢP SỰ TƯƠNG ĐỒNG VÀ PHÂN LỚP CỔ PHIẾU Improving stock prediction with... Bảo Minh - 17520768 Nguyễn Vĩnh Duyệt - 17520411 KHĨA LUẬN TỐT NGHIỆP DỰ ĐỐN CỔ PHIẾU BẰNG TIẾP CẬN PHỐI HỢP SỰ TƯƠNG ĐỒNG VÀ PHÂN LỚP CỔ PHIẾU Improving stock prediction with a hybrid approach... phân loại hai lớp lớp tăng lớp giảm cách học siêu phẳng để phân lớp 15 liệu, dựa vào liệu lịch sử để dự đoán số chứng khoán năm công ty thuộc lớp tăng hay lớp giảm Kết cho thấy tác giả dự đốn cho