NGHIÊN cứu mô HÌNH KHAI PHÁ dữ LIỆU sử DỤNG THUẬT TOÁN PHÂN lớp NEURAL NETWORK và ỨNG DỤNG TRONG VIỆC RA QUYẾT ĐỊNH đầu tư HIỆU QUẢ TRÊN THỊ TRƯỜNG CHỨNG KHOÁN VIỆT NAM

61 6 0
NGHIÊN cứu mô HÌNH KHAI PHÁ dữ LIỆU sử DỤNG THUẬT TOÁN PHÂN lớp NEURAL NETWORK và ỨNG DỤNG TRONG VIỆC RA QUYẾT ĐỊNH đầu tư HIỆU QUẢ TRÊN THỊ TRƯỜNG CHỨNG KHOÁN VIỆT NAM

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC KINH TẾ TP HCM KHOA CÔNG NGHỆ THÔNG TIN KINH DOANH TIỂU LUẬN CUỐI KỲ MÔN KHOA HỌC DỮ LIỆU NGHIÊN CỨU MÔ HÌNH KHAI PHÁ DỮ LIỆU SỬ DỤNG THUẬT TOÁN PHÂN LỚP NEURAL N[.]

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC KINH TẾ TP.HCM KHOA CÔNG NGHỆ THÔNG TIN KINH DOANH TIỂU LUẬN CUỐI KỲ MÔN KHOA HỌC DỮ LIỆU NGHIÊN CỨU MƠ HÌNH KHAI PHÁ DỮ LIỆU SỬ DỤNG THUẬT TỐN PHÂN LỚP NEURAL NETWORK VÀ ỨNG DỤNG TRONG VIỆC RA QUYẾT ĐỊNH ĐẦU TƯ HIỆU QUẢ TRÊN THỊ TRƯỜNG CHỨNG KHOÁN VIỆT NAM GIẢNG VIÊN HƯỚNG DẪN: NCS TS THÁI KIM PHỤNG MÃ LỚP HỌC PHẦN: 21C1INF50905915 SINH VIÊN THỰC HIỆN: TRƯƠNG THÁI NGỌC MÃ SỐ SINH VIÊN: 31191025696 – STT: 14 TP Hồ Chí Minh - Tháng 10/2021 NGHIÊN CỨU MƠ HÌNH KHAI PHÁ DỮĐỊNH LIỆUĐẦU SỬ DỤNG THUẬT LỚP NEURAL NETWORK VÀ ỨNG DỤNG TRONG VIỆC RA QUYẾT TƯ HIỆU QUẢTOÁN TRÊN PHÂN THỊ TRƯỜNG CHỨNG KHOÁN VIỆT NAM MỤC LỤC MỤC LỤC I DANH MỤC BẢNG BIỂU VÀ HÌNH VẼ III DANH MỤC CHỮ VIẾT TẮT V CHƯƠNG 1: GIỚI THIỆU 1.1 Lý lựa chọn đề tài 1.2 Mục tiêu nghiên cứu 1.3 Đối tượng phạm vi nghiên cứu 1.4 Phương pháp nghiên cứu 1.4.1 Phương pháp nghiên cứu lý luận 1.4.2 Phương pháp nghiên cứu thực tiễn 1.5 Cấu trúc nghiên cứu CHƯƠNG 2: CƠ SỞ LÝ LUẬN 2.1 Khai phá liệu 4 2.1.1 Quá trình phát tri thức khai phá liệu 2.1.2 Khái niệm khai phá liệu 2.1.3 Quá trình khai phá liệu 2.1.4 Các kỹ thuật khai phá liệu 2.1.4.1 Khai thác tập phổ biến luật kết hợp 2.1.4.2 Phân lớp liệu 2.1.4.3 Phân cụm liệu 2.1.5 Các ứng dụng khai phá liệu 2.2 Phân lớp liệu NGHIÊN CỨU MƠ HÌNH KHAI PHÁ DỮĐỊNH LIỆUĐẦU SỬ DỤNG THUẬT LỚP NEURAL NETWORK VÀ ỨNG DỤNG TRONG VIỆC RA QUYẾT TƯ HIỆU QUẢTOÁN TRÊN PHÂN THỊ TRƯỜNG CHỨNG KHOÁN VIỆT NAM 2.2.1 Quá trình phân lớp liệu 2.2.2 Phân loại toán phân lớp 11 2.2.3 Một số thuật toán phân lớp liệu sử dụng 11 2.2.3.1 Cây định (Decision tree) 11 2.2.3.2 Support Vector Machine (SVM) 12 2.2.3.3 Mạng Nơ ron nhân tạo (Neural Network) 13 2.2.3.4 Hồi quy Logistic (Logistic Regression) 14 Một số phương pháp đánh giá mơ hình phân lớp 15 2.2.4 2.2.4.1 Ma trận nhầm lẫn (Confusion matrix) 15 2.2.4.2 Độ xác (Accuracy) 16 2.2.4.3 Precision, Recall, F1 - score 16 2.2.4.4 (Receiver Operating Characteristic) AUC (Area Under the Curve) 17 2.2.4.5 Cross Validation: K-fold Holdout 2.3 Mô hình khai phá liệu sử dụng thuật tốn phân lớp Neural network 18 19 2.3.1 Đặc điểm Neural network 19 2.3.2 Kiến trúc Neural network 19 2.3.3 Ưu, nhược điểm Neural network 20 2.3.4 Ứng dụng Neural network 20 2.4 Mơ hình nghiên cứu đề xuất 2.4.1 Mô tả biến sử dụng mô hình 20 20 2.4.1.1 Biến phụ thuộc 20 2.4.1.2 Biến độc lập 21 2.4.1.2.1 Tỷ suất thu nhập cổ phần (EPS) 21 2.4.1.2.2 Hệ số giá thu nhập (PE) 21 NGHIÊN CỨU MƠ HÌNH KHAI PHÁ DỮĐỊNH LIỆUĐẦU SỬ DỤNG THUẬT LỚP NEURAL NETWORK VÀ ỨNG DỤNG TRONG VIỆC RA QUYẾT TƯ HIỆU QUẢTOÁN TRÊN PHÂN THỊ TRƯỜNG CHỨNG KHOÁN VIỆT NAM 2.4.2 2.4.1.2.3 Tỷ số lợi nhuận ròng tài sản (ROA) 22 2.4.1.2.4 Tỷ suất thu nhập vốn chủ sở hữu (ROE) 22 2.4.1.2.5 Beta 22 Mơ hình đề xuất CHƯƠNG 3: PHÂN TÍCH VÀ THẢO LUẬN 23 24 3.1 Tổng quan thị trường chứng khốn Việt Nam 24 3.2 Mơ tả liệu huấn luyện dự báo 25 3.3 Kết huấn luyện 26 3.4 Kết dự báo 30 CHƯƠNG 4: KẾT LUẬN 33 4.1 Kết luận 33 4.2 Hạn chế đề tài hướng nghiên cứu 34 TÀI LIỆU THAM KHẢO I PHỤ LỤC 1: BỘ DỮ LIỆU HUẤN LUYỆN (210 CÔNG TY) V PHỤ LỤC 2: BỘ DỮ LIỆU DỰ BÁO (90 CÔNG TY) X PHỤ LỤC 3: KẾT QUẢ DỰ BÁO (90 CÔNG TY) XII PHỤ LỤC 4: KẾT QUẢ DỰ BÁO DỰA VÀO CHỈ SỐ NEURAL NETWORK (90 CÔNG TY) XV NGHIÊN CỨU MƠ HÌNH KHAI PHÁ DỮĐỊNH LIỆUĐẦU SỬ DỤNG THUẬT LỚP NEURAL NETWORK VÀ ỨNG DỤNG TRONG VIỆC RA QUYẾT TƯ HIỆU QUẢTOÁN TRÊN PHÂN THỊ TRƯỜNG CHỨNG KHOÁN VIỆT NAM DANH MỤC BẢNG BIỂU VÀ HÌNH VẼ Hình 2.1 Quá trình KDD Hình 2.2: Quá trình khai phá liệu Hình 2.3: Bước trình trình phân lớp: Xây dựng mơ hình phân lớp Hình 2.4: Bước 2.1 trình trình phân lớp: Đánh giá mơ hình 10 Hình 2.5: Bước 2.2 trình trình phân lớp: Phân lớp liệu 11 Hình 2.6: Minh họa thuật tốn phân lớp định (Decision tree) 12 Hình 2.7: Minh họa thuật tốn phân lớp Support Vector Machine (SVM) 13 Hình 2.8: Minh họa thuật toán phân lớp Mạng Nơ ron nhân tạo (Neural Network) 14 Hình 2.9: Minh họa thuật tốn phân lớp Hồi quy Logistic (Logistic Regression) 15 Hình 2.10: Minh họa phương pháp ma trận nhầm lẫn (Confusion matrix) 16 Hình 2.11: Minh họa phương pháp ROC (Receiver Operating Characteristic) 17 Hình 2.12: Minh họa phương pháp AUC (Area Under the Curve) 18 Hình 3.1: Bộ liệu huấn luyện (minh họa MCK 25 công ty đầu tiên) 25 Hình 3.2: Bộ liệu dự báo (minh họa MCK 25 cơng ty đầu tiên) 26 Hình 3.3: Khai báo thuộc tính cho biến liệu huấn luyện 27 Hình 3.4: Mơ tả tổng quan trình huấn luyện vào dự báo 28 Hình 3.5: Kết đánh giá mơ hình phương pháp K-fold 28 Hình 3.6: Đánh giá mơ hình lớp thơng qua Ma trận nhầm lẫn 29 Hình 3.7: Khai báo thuộc tính cho biến liệu dự báo 30 Hình 3.8: Kết dự báo (minh họa MCK 18 cơng ty đầu tiên) 31 Hình 3.9: Kết dự báo đựa vào số Neural Network (minh họa MCK 25 công ty đầu tiên) 32 NGHIÊN CỨU MƠ HÌNH KHAI PHÁ DỮĐỊNH LIỆUĐẦU SỬ DỤNG THUẬT LỚP NEURAL NETWORK VÀ ỨNG DỤNG TRONG VIỆC RA QUYẾT TƯ HIỆU QUẢTOÁN TRÊN PHÂN THỊ TRƯỜNG CHỨNG KHOÁN VIỆT NAM DANH MỤC CHỮ VIẾT TẮT Chữ viết tắt TTCK Ý nghĩa Thị trường chứng khoán KPDL Khai phá liệu HOSE Sở Giao dịch Chứng khoán TP.HCM HNX Sở Giao dịch Chứng khoán Hà Nội UPCOM KDD Thị trường công ty đại chúng chưa niêm yết Knowledge Discovery in Database CSDL Cơ sở liệu SVM Support Vector Machine ROC Receive Operating Characteristic AUC Area Under the Curve MCK Mã chứng khoán EPS Tỷ suất thu nhập cổ phần PE Hệ số giá thu nhập ROA Tỷ số lợi nhuận ròng tài sản ROE Tỷ suất thu nhập vốn chủ sở hữu NGHIÊN CỨU MƠ HÌNH KHAI PHÁ LIỆU SỬ DỤNG TỐN PHÂN LỚP NEURAL NETWORK VÀDỮ ỨNG DỤNG TRONGTHUẬT VIỆC RA QUYẾT ĐỊNH ĐẦU TƯ HIỆU QUẢ TRÊN THỊ TRƯỜNG CHỨNG KHOÁN VIỆT NAM CHƯƠNG 1: GIỚI THIỆU 1.1 Lý lựa chọn đề tài Trong năm gần đây, xã hội thay đổi phát triển không ngừng với bùng nổ ngành công nghệ thông tin khiến kho liệu hệ thống thông tin quản lý tăng lên cách khơng kiểm sốt Đặc biệt, có nghiên cứu cho rằng, luồng thơng tin chuyển tải giới ước tính tăng gấp đơi khoảng 20 tháng Trước tình hình bùng nổ thơng tin diễn ra, người định tổ chức tài chính, thương mại, khoa học, khơng muốn bỏ sót thơng tin thu thập Họ muốn lưu trữ tất thông tin cho ẩn chứa giá trị tiềm ẩn cần phát Những lí tiền đề cho đời kỹ thuật khai phá liệu (KPDL) (Data Mining) nhu cầu phát triển kỹ thuật thu thập, lưu trữ, phân tích liệu, … địi hỏi kỹ thuật xử lý thông minh hiệu ngày tăng cao Nhờ đó, có khả khai thác tri thức hữu dụng thật cần thiết từ kho liệu khổng lồ Việc chọn lọc đắn giúp cải thiện kết đầu mà hỗ trợ việc định cách xác Ngày nay, kỹ thuật KPDL nghiên cứu, ứng dụng nhiều lĩnh vực đời sống, kinh tế xã hội nước giới, mẻ Việt Nam Rất nhiều doanh nghiệp tổ chức giới ứng dụng kĩ thuật vào hoạt động sản xuất kinh doanh thu lợi ích đáng kể Tuy nhiên, năm gần đây, nước ta dần chấp nhận đưa vào sử dụng Trong đó, lĩnh vực ứng dụng phổ biến hơm lĩnh vực tài chính, đặc biệt không nhắc đến thị trường chứng khoán (TTCK) Tuy xuất từ năm 2000, TTCK dần chiếm vị vô quan trọng Việt Nam, thu hút nhiều nhà đầu tư nước tham gia, kể sinh viên Nó hấp dẫn khơng đóng vai trị quan trọng phát triển kinh tế, thời đại 4.0 thời mà cịn có ý nghĩa nhà đầu tư khả sinh lợi Nhưng để khả tham gia vào, họ cần phải có kiến thức định Đây hạn chế nhà đầu tư Việt Nam TTCK tồn phát triển có tham gia ngày đơng người có đầy đủ kiến thức NGHIÊN CỨU MƠ HÌNH KHAI PHÁ LIỆU SỬ DỤNG TOÁN PHÂN LỚP NEURAL NETWORK VÀDỮ ỨNG DỤNG TRONGTHUẬT VIỆC RA QUYẾT ĐỊNH ĐẦU TƯ HIỆU QUẢ TRÊN THỊ TRƯỜNG CHỨNG KHỐN VIỆT NAM Vì vậy, nhà đầu tư nhận thức cần có cách tiếp cận thật nhanh để tham gia đầu tư có hiệu vào tùy theo điều kiện, khả minh, góp phần đưa TTCK Việt Nam ngày phát triển Tuy mang đến nhiều lợi ích TTCK cịn tiềm ẩn nhiều rủi ro Vì vậy, tìm hiểu cơng ty niêm yết sàn chứng khoán phù hợp để đưa định đầu tư, nhà đầu tư dựa vào cảm tính ban đầu mà cần nhận trợ giúp từ công cụ khoa học để giảm thiểu rủi ro tránh sai lầm đáng tiếc xảy Trong đó, KPDL cơng cụ phù hợp, giúp họ nâng cao kiến thức kinh nghiệm quý báu phục vụ cho định đầu tư vận dụng học cho định tài quan trọng khác Để làm điều đó, phát triển mơ hình tốn học giải thuật hiệu chìa khóa định, nên nghiên cứu này, chủ yếu đề cập đến kỹ thuật thường dùng dự báo “Phân loại liệu” (Classification), cụ thể thuật toán Neural Network Qua đó, tơi định chọn đề tài: “Nghiên cứu mơ hình khai phá liệu sử dụng thuật toán phân lớp Neural Network ứng dụng việc định đầu tư hiệu thị trường chứng khoán Việt Nam.” làm đề tài nghiên cứu 1.2 Mục tiêu nghiên cứu Bài nghiên cứu chủ yếu tập trung vào mục tiêu sau: ● Nghiên cứu lý thuyết tổng quan KPDL, cụ thể thuật toán phân lớp liệu Neural Network ● Xây dựng mơ hình vào dựa liệu huấn luyện có sẵn lựa chọn mơ hình phù hợp tiến hành dự báo liệu dự báo chọn ● Tạo tiền đề phát triển nghiên cứu sau 1.3 Đối tượng phạm vi nghiên cứu Đối tượng nghiên cứu: ● Mơ hình KPDL thuật tốn phân lớp liệu Neural Network để ứng dụng việc định đầu tư hiệu thị trường chứng khoán Việt Nam ● Các yếu tố ảnh hưởng đến định đầu tư hiệu nhà đầu tư, liệu thực số tài lấy từ trang cophieu68.vn NGHIÊN CỨU MƠ HÌNH KHAI PHÁ LIỆU SỬ DỤNG TỐN PHÂN LỚP NEURAL NETWORK VÀDỮ ỨNG DỤNG TRONGTHUẬT VIỆC RA QUYẾT ĐỊNH ĐẦU TƯ HIỆU QUẢ TRÊN THỊ TRƯỜNG CHỨNG KHOÁN VIỆT NAM ● Phạm vi nghiên cứu: 300 công ty niêm yết thị trường chứng khoán Việt Nam, bao gồm nhiều ngành nhóm ngành khác sàn: HOSE, HNX UPCOM ● Thời gian: giá trị số tài thu thập thuộc năm 2020 1.4 Phương pháp nghiên cứu 1.4.1 Phương pháp nghiên cứu lý luận Tiến hành tìm hiểu, thu thập, chắt lọc phân tích liệu, thơng tin thơng qua đọc sách báo, tài liệu nhằm mục đích tìm chọn khái niệm quan điểm để xây dựng sở lý thuyết cho nghiên cứu, dự đoán thuộc tính đối tượng nghiên cứu, xây dựng mơ hình lý thuyết ban đầu Bao gồm phương pháp sau: ● Phương pháp phân tích – tổng hợp lý thuyết: từ nguồn tài liệu, papers có được, sau đọc tổng hợp để rút nội dung cần thiết cho luận điểm nghiên cứu ● Phương pháp mơ hình hóa: xây dựng mơ hình nghiên cứu dựa lý thuyết ứng dụng mô hình để dự báo nhằm kiểm định tính xác mơ hình 1.4.2 Phương pháp nghiên cứu thực tiễn Từ sở lý luận ấy, tiến hành vận dụng vào phương pháp nghiên cứu thực tiễn: ● Thông qua thuật toán KPDL, đồng thời, sử dụng sử dụng phần mềm Orange - công cụ trực quan để nghiên cứu thuật toán machine learning thực hành KPDL phổ biến để phân tích liệu làm rõ vấn đề nghiên cứu ● Từ đó, xây dựng mơ hình dự báo dựa vào liệu huấn luyện có sẵn so sánh kết rút với nhằm lựa mơ hình phù hợp nhằm giúp nhà đầu tư có định xác đầu tư hiệu 1.5 Cấu trúc nghiên cứu Ngồi phần mục lục, danh mục bảng biểu hình vẽ, danh mục chữ viết tắt, tài liệu tham khảo phụ lục, đề tài kết cấu thành chương sau: ● Chương 1: Giới thiệu ● Chương 2: Cơ sở lý luận ● Chương 3: Phân tích thảo luận NGHIÊN CỨU MƠ HÌNH KHAI PHÁ LIỆU SỬ DỤNG TOÁN PHÂN LỚP NEURAL NETWORK VÀDỮ ỨNG DỤNG TRONGTHUẬT VIỆC RA QUYẾT ĐỊNH ĐẦU TƯ HIỆU QUẢ TRÊN THỊ TRƯỜNG CHỨNG KHOÁN VIỆT NAM ● Chương 4: Kết luận CHƯƠNG 2: CƠ SỞ LÝ LUẬN 2.1 Khai phá liệu 2.1.1 Quá trình phát tri thức khai phá liệu Biết chọn lọc sử dụng thơng tin hiệu định thành cơng bạn phân tích liệu Điều có nghĩa phải tìm giá trị tiềm ẩn, yếu tố tác động xu hướng phát triển liệu sẵn có Quá trình gọi q trình phát tri thức (Knowledge Discovery in Database – KDD) mà KPDL kỹ thuật quan trọng cho phép ta thu tri thức mong muốn Hình 2.1 Quá trình KDD Nguồn: Phantuanduy (2013) Quy trình Khai phá liệu (Process of Data mining) Quá trình phát tri thức gồm bước bản: ● Bước 1: Chọn lọc liệu (selection): Giai đoạn cần gom liệu khai thác vào sở liệu (CSDL) riêng Ở đây, chọn lọc giữ lại liệu mà giai đoạn sau u cầu Tuy nhiên, cơng việc thường khó khăn tốn nhiều thời gian liệu tồn nhiều dạng khác nằm rải rác khắp nơi ● Bước 2: Tiền xử lý liệu (preprocessing): Khi tập hợp liệu thường mắc phải số lỗi liệu thiếu logic, thiếu chặt chẽ, chưa đầy đủ, liệu ... NGHIÊN CỨU MÔ HÌNH KHAI PHÁ DỮĐỊNH LIỆUĐẦU SỬ DỤNG THUẬT LỚP NEURAL NETWORK VÀ ỨNG DỤNG TRONG VIỆC RA QUYẾT TƯ HIỆU QUẢTOÁN TRÊN PHÂN THỊ TRƯỜNG CHỨNG KHOÁN VIỆT NAM 2.2.1 Quá trình phân lớp liệu. .. DỰA VÀO CHỈ SỐ NEURAL NETWORK (90 CÔNG TY) XV NGHIÊN CỨU MƠ HÌNH KHAI PHÁ DỮĐỊNH LIỆUĐẦU SỬ DỤNG THUẬT LỚP NEURAL NETWORK VÀ ỨNG DỤNG TRONG VIỆC RA QUYẾT TƯ HIỆU QUẢTOÁN TRÊN PHÂN THỊ TRƯỜNG CHỨNG... Chương 3: Phân tích thảo luận NGHIÊN CỨU MƠ HÌNH KHAI PHÁ LIỆU SỬ DỤNG TOÁN PHÂN LỚP NEURAL NETWORK VÀDỮ ỨNG DỤNG TRONGTHUẬT VIỆC RA QUYẾT ĐỊNH ĐẦU TƯ HIỆU QUẢ TRÊN THỊ TRƯỜNG CHỨNG KHOÁN VIỆT NAM

Ngày đăng: 20/11/2022, 22:53

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan