BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC KINH TẾ TP HCM KHOA CÔNG NGHỆ THÔNG TIN KINH DOANH TIỂU LUẬN CUỐI KỲ MÔN KHOA HỌC DỮ LIỆU NGHIÊN CỨU MÔ HÌNH KHAI PHÁ DỮ LIỆU SỬ DỤNG THUẬT TOÁN PHÂN LỚP NEURAL N[.]
BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC KINH TẾ TP.HCM KHOA CÔNG NGHỆ THÔNG TIN KINH DOANH TIỂU LUẬN CUỐI KỲ MÔN KHOA HỌC DỮ LIỆU NGHIÊN CỨU MƠ HÌNH KHAI PHÁ DỮ LIỆU SỬ DỤNG THUẬT TỐN PHÂN LỚP NEURAL NETWORK VÀ ỨNG DỤNG TRONG VIỆC RA QUYẾT ĐỊNH ĐẦU TƯ HIỆU QUẢ TRÊN THỊ TRƯỜNG CHỨNG KHOÁN VIỆT NAM GIẢNG VIÊN HƯỚNG DẪN: NCS TS THÁI KIM PHỤNG MÃ LỚP HỌC PHẦN: 21C1INF50905915 SINH VIÊN THỰC HIỆN: TRƯƠNG THÁI NGỌC MÃ SỐ SINH VIÊN: 31191025696 – STT: 14 TP Hồ Chí Minh - Tháng 10/2021 I MỤC LỤC MỤC LỤC I DANH MỤC BẢNG BIỂU VÀ HÌNH VẼ .III DANH MỤC CHỮ VIẾT TẮT V CHƯƠNG 1: GIỚI THIỆU 1.1 Lý lựa chọn đề tài 1.2 Mục tiêu nghiên cứu 1.3 Đối tượng phạm vi nghiên cứu 1.4 Phương pháp nghiên cứu .3 1.4.1 Phương pháp nghiên cứu lý luận 1.4.2 Phương pháp nghiên cứu thực tiễn .3 1.5 Cấu trúc nghiên cứu .3 CHƯƠNG 2: CƠ SỞ LÝ LUẬN 2.1 Khai phá liệu 2.1.1 Quá trình phát tri thức khai phá liệu 2.1.2 Khái niệm khai phá liệu 2.1.3 Quá trình khai phá liệu 2.1.4 Các kỹ thuật khai phá liệu .6 2.1.4.1 Khai thác tập phổ biến luật kết hợp 2.1.4.2 Phân lớp liệu .7 2.1.4.3 Phân cụm liệu 2.1.5 Các ứng dụng khai phá liệu 2.2 Phân lớp liệu 2.2.1 Quá trình phân lớp liệu II 2.2.2 Phân loại toán phân lớp 11 2.2.3 Một số thuật toán phân lớp liệu sử dụng .11 2.2.3.1 Cây định (Decision tree) 11 2.2.3.2 Support Vector Machine (SVM) 12 2.2.3.3 Mạng Nơ ron nhân tạo (Neural Network) 13 2.2.3.4 Hồi quy Logistic (Logistic Regression) .14 2.2.4 Một số phương pháp đánh giá mơ hình phân lớp .15 2.2.4.1 Ma trận nhầm lẫn (Confusion matrix) 15 2.2.4.2 Độ xác (Accuracy) .16 2.2.4.3 Precision, Recall, F1 - score .16 2.2.4.4 (Receiver Operating Characteristic) AUC (Area Under the Curve) 17 2.2.4.5 Cross Validation: K-fold Holdout 18 2.3 Mơ hình khai phá liệu sử dụng thuật toán phân lớp Neural network 19 2.3.1 Đặc điểm Neural network 19 2.3.2 Kiến trúc Neural network 19 2.3.3 Ưu, nhược điểm Neural network 20 2.3.4 Ứng dụng Neural network 20 2.4 Mơ hình nghiên cứu đề xuất 20 2.4.1 Mô tả biến sử dụng mơ hình .20 2.4.1.1 Biến phụ thuộc 20 2.4.1.2 Biến độc lập 21 2.4.1.2.1 Tỷ suất thu nhập cổ phần (EPS) 21 2.4.1.2.2 Hệ số giá thu nhập (PE) 21 2.4.1.2.3 Tỷ số lợi nhuận ròng tài sản (ROA) 22 III 2.4.1.2.4 Tỷ suất thu nhập vốn chủ sở hữu (ROE) 22 2.4.1.2.5 Beta 22 2.4.2 Mơ hình đề xuất 23 CHƯƠNG 3: PHÂN TÍCH VÀ THẢO LUẬN .24 3.1 Tổng quan thị trường chứng khoán Việt Nam .24 3.2 Mô tả liệu huấn luyện dự báo 25 3.3 Kết huấn luyện 26 3.4 Kết dự báo 30 CHƯƠNG 4: KẾT LUẬN 33 4.1 Kết luận .33 4.2 Hạn chế đề tài hướng nghiên cứu .34 TÀI LIỆU THAM KHẢO I PHỤ LỤC 1: BỘ DỮ LIỆU HUẤN LUYỆN (210 CÔNG TY) V PHỤ LỤC 2: BỘ DỮ LIỆU DỰ BÁO (90 CÔNG TY) .X PHỤ LỤC 3: KẾT QUẢ DỰ BÁO (90 CÔNG TY) XII PHỤ LỤC 4: KẾT QUẢ DỰ BÁO DỰA VÀO CHỈ SỐ NEURAL NETWORK (90 CÔNG TY) .XV IV DANH MỤC BẢNG BIỂU VÀ HÌNH VẼ Hình 2.1 Q trình KDD Hình 2.2: Quá trình khai phá liệu Hình 2.3: Bước trình trình phân lớp: Xây dựng mơ hình phân lớp Hình 2.4: Bước 2.1 trình trình phân lớp: Đánh giá mơ hình 10 Hình 2.5: Bước 2.2 trình trình phân lớp: Phân lớp liệu 11 Hình 2.6: Minh họa thuật toán phân lớp định (Decision tree) 12 Hình 2.7: Minh họa thuật toán phân lớp Support Vector Machine (SVM) .13 Hình 2.8: Minh họa thuật toán phân lớp Mạng Nơ ron nhân tạo (Neural Network) .14 Hình 2.9: Minh họa thuật toán phân lớp Hồi quy Logistic (Logistic Regression) 15 Hình 2.10: Minh họa phương pháp ma trận nhầm lẫn (Confusion matrix) .16 Hình 2.11: Minh họa phương pháp ROC (Receiver Operating Characteristic) 17 Hình 2.12: Minh họa phương pháp AUC (Area Under the Curve) 18 Hình 3.1: Bộ liệu huấn luyện (minh họa MCK 25 công ty đầu tiên) 25 Hình 3.2: Bộ liệu dự báo (minh họa MCK 25 công ty đầu tiên) 26 Hình 3.3: Khai báo thuộc tính cho biến liệu huấn luyện .27 Hình 3.4: Mơ tả tổng quan q trình huấn luyện vào dự báo 28 Hình 3.5: Kết đánh giá mơ hình phương pháp K-fold .28 Hình 3.6: Đánh giá mơ hình lớp thơng qua Ma trận nhầm lẫn .29 Hình 3.7: Khai báo thuộc tính cho biến liệu dự báo 30 Hình 3.8: Kết dự báo (minh họa MCK 18 công ty đầu tiên) .31 Hình 3.9: Kết dự báo đựa vào số Neural Network (minh họa MCK 25 công ty đầu tiên) 32 V DANH MỤC CHỮ VIẾT TẮT Chữ viết tắt Ý nghĩa TTCK Thị trường chứng khoán KPDL Khai phá liệu HOSE Sở Giao dịch Chứng khoán TP.HCM HNX Sở Giao dịch Chứng khốn Hà Nội UPCOM Thị trường cơng ty đại chúng chưa niêm yết KDD Knowledge Discovery in Database CSDL Cơ sở liệu SVM Support Vector Machine ROC Receive Operating Characteristic AUC Area Under the Curve MCK Mã chứng khoán EPS Tỷ suất thu nhập cổ phần PE Hệ số giá thu nhập ROA Tỷ số lợi nhuận ròng tài sản ROE Tỷ suất thu nhập vốn chủ sở hữu CHƯƠNG 1: GIỚI THIỆU 1.1 Lý lựa chọn đề tài Trong năm gần đây, xã hội thay đổi phát triển không ngừng với bùng nổ ngành công nghệ thông tin khiến kho liệu hệ thống thông tin quản lý tăng lên cách khơng kiểm sốt Đặc biệt, có nghiên cứu cho rằng, luồng thông tin chuyển tải giới ước tính tăng gấp đơi khoảng 20 tháng Trước tình hình bùng nổ thơng tin diễn ra, người định tổ chức tài chính, thương mại, khoa học, khơng muốn bỏ sót thơng tin thu thập Họ muốn lưu trữ tất thơng tin cho ẩn chứa giá trị tiềm ẩn cần phát Những lí tiền đề cho đời kỹ thuật khai phá liệu (KPDL) (Data Mining) nhu cầu phát triển kỹ thuật thu thập, lưu trữ, phân tích liệu, … địi hỏi kỹ thuật xử lý thơng minh hiệu ngày tăng cao Nhờ đó, có khả khai thác tri thức hữu dụng thật cần thiết từ kho liệu khổng lồ Việc chọn lọc đắn giúp cải thiện kết đầu mà hỗ trợ việc định cách xác Ngày nay, kỹ thuật KPDL nghiên cứu, ứng dụng nhiều lĩnh vực đời sống, kinh tế xã hội nước giới, mẻ Việt Nam Rất nhiều doanh nghiệp tổ chức giới ứng dụng kĩ thuật vào hoạt động sản xuất kinh doanh thu lợi ích đáng kể Tuy nhiên, năm gần đây, nước ta dần chấp nhận đưa vào sử dụng Trong đó, lĩnh vực ứng dụng phổ biến hơm lĩnh vực tài chính, đặc biệt khơng thể khơng nhắc đến thị trường chứng khốn (TTCK) Tuy xuất từ năm 2000, TTCK dần chiếm vị vô quan trọng Việt Nam, thu hút nhiều nhà đầu tư nước tham gia, kể sinh viên Nó hấp dẫn khơng đóng vai trị quan trọng phát triển kinh tế, thời đại 4.0 thời mà cịn có ý nghĩa nhà đầu tư khả sinh lợi Nhưng để khả tham gia vào, họ cần phải có kiến thức định Đây hạn chế nhà đầu tư Việt Nam TTCK tồn phát triển có tham gia ngày đơng người có đầy đủ kiến thức Vì vậy, nhà đầu tư nhận thức cần có cách tiếp cận thật nhanh để tham gia đầu tư có hiệu vào tùy theo điều kiện, khả minh, góp phần đưa TTCK Việt Nam ngày phát triển Tuy mang đến nhiều lợi ích TTCK cịn tiềm ẩn nhiều rủi ro Vì vậy, tìm hiểu cơng ty niêm yết sàn chứng khoán phù hợp để đưa định đầu tư, nhà đầu tư khơng thể dựa vào cảm tính ban đầu mà cần nhận trợ giúp từ công cụ khoa học để giảm thiểu rủi ro tránh sai lầm đáng tiếc xảy Trong đó, KPDL công cụ phù hợp, giúp họ nâng cao kiến thức kinh nghiệm quý báu phục vụ cho định đầu tư vận dụng học cho định tài quan trọng khác Để làm điều đó, phát triển mơ hình tốn học giải thuật hiệu chìa khóa định, nên nghiên cứu này, chủ yếu đề cập đến kỹ thuật thường dùng dự báo “Phân loại liệu” (Classification), cụ thể thuật tốn Neural Network Qua đó, tơi định chọn đề tài: “Nghiên cứu mơ hình khai phá liệu sử dụng thuật toán phân lớp Neural Network ứng dụng việc định đầu tư hiệu thị trường chứng khoán Việt Nam.” làm đề tài nghiên cứu 1.2 Mục tiêu nghiên cứu Bài nghiên cứu chủ yếu tập trung vào mục tiêu sau: Nghiên cứu lý thuyết tổng quan KPDL, cụ thể thuật toán phân lớp liệu Neural Network Xây dựng mô hình vào dựa liệu huấn luyện có sẵn lựa chọn mơ hình phù hợp tiến hành dự báo liệu dự báo chọn Tạo tiền đề phát triển nghiên cứu sau 1.3 Đối tượng phạm vi nghiên cứu Đối tượng nghiên cứu: Mơ hình KPDL thuật toán phân lớp liệu Neural Network để ứng dụng việc định đầu tư hiệu thị trường chứng khoán Việt Nam Các yếu tố ảnh hưởng đến định đầu tư hiệu nhà đầu tư, liệu thực số tài lấy từ trang cophieu68.vn Phạm vi nghiên cứu: 300 cơng ty niêm yết thị trường chứng khốn Việt Nam, bao gồm nhiều ngành nhóm ngành khác sàn: HOSE, HNX UPCOM Thời gian: giá trị số tài thu thập thuộc năm 2020 1.4 Phương pháp nghiên cứu 1.4.1 Phương pháp nghiên cứu lý luận Tiến hành tìm hiểu, thu thập, chắt lọc phân tích liệu, thông tin thông qua đọc sách báo, tài liệu nhằm mục đích tìm chọn khái niệm quan điểm để xây dựng sở lý thuyết cho nghiên cứu, dự đốn thuộc tính đối tượng nghiên cứu, xây dựng mơ hình lý thuyết ban đầu Bao gồm phương pháp sau: Phương pháp phân tích – tổng hợp lý thuyết: từ nguồn tài liệu, papers có được, sau đọc tổng hợp để rút nội dung cần thiết cho luận điểm nghiên cứu Phương pháp mơ hình hóa: xây dựng mơ hình nghiên cứu dựa lý thuyết ứng dụng mơ hình để dự báo nhằm kiểm định tính xác mơ hình 1.4.2 Phương pháp nghiên cứu thực tiễn Từ sở lý luận ấy, tiến hành vận dụng vào phương pháp nghiên cứu thực tiễn: Thơng qua thuật tốn KPDL, đồng thời, sử dụng sử dụng phần mềm Orange - công cụ trực quan để nghiên cứu thuật toán machine learning thực hành KPDL phổ biến để phân tích liệu làm rõ vấn đề nghiên cứu Từ đó, xây dựng mơ hình dự báo dựa vào liệu huấn luyện có sẵn so sánh kết rút với nhằm lựa mơ hình phù hợp nhằm giúp nhà đầu tư có định xác đầu tư hiệu 1.5 Cấu trúc nghiên cứu Ngoài phần mục lục, danh mục bảng biểu hình vẽ, danh mục chữ viết tắt, tài liệu tham khảo phụ lục, đề tài kết cấu thành chương sau: Chương 1: Giới thiệu Chương 2: Cơ sở lý luận Chương 3: Phân tích thảo luận Chương 4: Kết luận CHƯƠNG 2: CƠ SỞ LÝ LUẬN 2.1 Khai phá liệu 2.1.1 Quá trình phát tri thức khai phá liệu Biết chọn lọc sử dụng thơng tin hiệu định thành cơng bạn phân tích liệu Điều có nghĩa phải tìm giá trị tiềm ẩn, yếu tố tác động xu hướng phát triển liệu sẵn có Q trình gọi q trình phát tri thức (Knowledge Discovery in Database – KDD) mà KPDL kỹ thuật quan trọng cho phép ta thu tri thức mong muốn Hình 2.1 Quá trình KDD Nguồn: Phantuanduy (2013) Quy trình Khai phá liệu (Process of Data mining) Quá trình phát tri thức gồm bước bản: Bước 1: Chọn lọc liệu (selection): Giai đoạn cần gom liệu khai thác vào sở liệu (CSDL) riêng Ở đây, chọn lọc giữ lại liệu mà giai đoạn sau yêu cầu Tuy nhiên, công việc thường khó khăn tốn nhiều thời gian liệu tồn nhiều dạng khác nằm rải rác khắp nơi Bước 2: Tiền xử lý liệu (preprocessing): Khi tập hợp liệu thường mắc phải số lỗi liệu thiếu logic, thiếu chặt chẽ, chưa đầy đủ, liệu ... cứu sau 1.3 Đối tư? ??ng phạm vi nghiên cứu Đối tư? ??ng nghiên cứu: Mơ hình KPDL thuật toán phân lớp liệu Neural Network để ứng dụng việc định đầu tư hiệu thị trường chứng khoán Việt Nam Các yếu... báo ? ?Phân loại liệu? ?? (Classification), cụ thể thuật toán Neural Network Qua đó, tơi định chọn đề tài: ? ?Nghiên cứu mơ hình khai phá liệu sử dụng thuật tốn phân lớp Neural Network ứng dụng việc định. .. Nghiên cứu thuật toán phân lớp liệu dựa định Công nghệ thông tin, – 62 2.2.2 Phân loại toán phân lớp Nhiệm vụ toán phân lớp phân đối tư? ??ng liệu vào n lớp cho trước: thuộc phân lớp nhị phân n = phân