Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 117 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
117
Dung lượng
12 MB
Nội dung
BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC MỞ THÀNH PHỐ HỒ CHÍ MINH ∞0∞ NGUYỄN XUÂN THỊNH NHẬN DIỆN THAO TÚNG GIÁ CHỨNG KHOÁN VIỆT NAM BẰNG PHƯƠNG PHÁP HỌC THEO NHÓM LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH TP HỒ CHÍ MINH, NĂM 2022 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC MỞ THÀNH PHỐ HỒ CHÍ MINH ∞0∞ NGUYỄN XUÂN THỊNH NHẬN DIỆN THAO TÚNG GIÁ CHỨNG KHOÁN VIỆT NAM BẰNG PHƯƠNG PHÁP HỌC THEO NHĨM Chun ngành: Khoa học máy tính Mã số chun ngành: 48 01 01 LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Giảng viên hướng dẫn: TS PHẠM VĂN CHUNG TP HỒ CHÍ MINH, NĂM 2022 TRƯỜNG ĐẠI HỌC MỞ THÀNH PHỐ HỒ CHÍ MINH KHOA ĐÀO TẠO SAU ĐẠI HỌC CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập – Tự – Hạnh phúc GIẤY XÁC NHẬN Tôi tên là: Nguyễn Xuân Thịnh Ngày sinh: 24/04/1983 Nơi sinh: Lâm Đồng Chuyên ngành: Khoa Học Máy Tính Mã học viên: 1884801010015 Tơi đồng ý cung cấp tồn văn thơng tin luận văn tốt nghiệp hợp lệ quyền cho Thư viện trường đại học Mở Thành phố Hồ Chí Minh Thư viện trường đại học Mở Thành phố Hồ Chí Minh kết nối tồn văn thông tin luận văn tốt nghiệp vào hệ thống thông tin khoa học Sở Khoa học Công nghệ Thành phố Hồ Chí Minh Ký tên Nguyễn Xuân Thịnh i LỜI CAM ĐOAN Tôi cam đoan luận văn “Nhận Diện Thao Túng Giá Chứng Khoán Việt Nam Bằng Phương Pháp Học Theo Nhóm” nghiên cứu tơi Ngoại trừ tài liệu tham khảo trích dẫn luận văn này, tơi cam đoan toàn phần hay phần nhỏ luận văn chưa công bố sử dụng để nhận cấp nơi khác Khơng có sản phẩm/nghiên cứu người khác sử dụng luận văn mà khơng trích dẫn theo quy định Luận văn chưa nộp để nhận cấp trường đại học sở đào tạo khác Thành phố Hồ Chí Minh, năm 2022 Nguyễn Xuân Thịnh ii LỜI CÁM ƠN Trong q trình thực hồn thành đề tài luận văn “Nhận Diện Thao Túng Giá Chứng Khốn Việt Nam Bằng Phương Pháp Học Theo Nhóm” nhận nhiều giúp đỡ, động viên, bảo nhiệt tình bạn quý thầy khoa Công nghệ Thông Tin trường Đại Học Mở TP HCM Tôi xin phép gửi lời cảm ơn chân thành đến: Người Thầy hướng dẫn khoa học tôi: Tiến sĩ Phạm Văn Chung Em đặc biệt cám ơn Thầy vơ tận tình hết lịng hướng dẫn, bảo em khơng q trình học tập mà cịn suốt q trình làm luận văn Thầy dùng kinh nghiệm thực tiễn phong phú, rộng lớn để dẫn dắt em, giúp em có thêm nhiều kiến thức hiểu biết khoa học, đề tài nghiên cứu Thầy ln động lực để em nhìn vào mà phấn đấu nhiều Quý Thầy ngành Khoa Học Máy Tính khoa Sau Đại Học, trường Đại học Mở TP.HCM giảng dạy em suốt năm học trường Các Anh Chị cơng tác văn phịng Khoa Đào Tạo Sau Đại Học, trường Đại học Mở TP.HCM ln nhiệt tình dẫn, giúp đỡ giải đáp thắc mắc suốt trình học làm luận văn Sau tất cả, dù nỗ lực thời gian, kinh nghiệm trình độ cịn hạn chế, luận văn khơng thể tránh khỏi thiếu sót Tác giả mong nhận cảm thông dẫn, đóng góp ý kiến Q Thầy Cơ chuyên gia, nhà khoa học để nghiên cứu hoàn thiện Xin chân thành cám ơn! iii TĨM TẮT Sự phát triển nhanh chóng thị trường chứng khoán, đặc biệt thị trường Việt Nam kéo theo hành vi gian lận nhằm thu lợi cho cá nhân tổ chức Thao túng giá chứng khoán hành vi gây thiệt hại lớn cho hệ thống tài làm lòng tin nhà đầu tư hay công ty tham gia niêm yết Việc phát hành vi thao túng giá để từ có chế tài xử phạt bảo vệ lợi ích nhà đầu tư thách thức cho nhà quản lý thị trường mục tiêu cho cơng trình nghiên cứu, đặc biệt lĩnh vực máy học Hiện khơng có nhiều liệu thao túng giá chứng khoán cung cấp cho nghiên cứu ứng dụng thực tiễn, Việt Nam chưa có cơng trình nghiên cứu lĩnh vực máy học nhận diện hành vi thao túng giá chứng khốn Luận văn đóng góp thêm liệu thao túng giá chứng khoán thị trường Việt Nam gồm 12158 mẫu 12 thuộc tính Bộ liệu sử dụng cho mục đích nghiên cứu tương lai thực tiễn Luận văn ứng dụng mơ hình học theo nhóm phổ biến Stacking, Bagging, Boosting để phân lớp liệu, từ có so sánh hiệu suất mơ hình phân lớp Kết thử nghiệm liệu thao túng giá thị trường Ấn Độ thị trường Việt Nam cho thấy kết phân lớp Bagging-Random Forest tốt Boosting-XGBoost Stacking-ANN Từ xây dựng ứng dụng hỗ trợ nhà quản lý thị trường phát đưa danh sách cổ phiếu có dấu hiệu bị thao túng giá vào theo dõi có chế tài xử lý nhằm bảo vệ lợi ích nhà đầu tư, cơng ty niêm yết tham gia vào thị trường iv ABSTRACT The rapid development of the stock market, especially in emerging markets such as Vietnam, brings about frauds to gain benefits for individuals and organizations Stock price manipulation is an act that causes great damage to the financial system as well as distrust of investors or listed companies Detection of price manipulation so that there are sanctions and protection of investors' interests is a challenge for market managers and a target for research, especially in the field of machine learning Currently, there are not many datasets on stock price manipulation to provide research and practice, and in Vietnam, there is currently no research in the field of machine learning on detection of stock price manipulation The thesis has contributed an additional dataset on stock price manipulation of the Vietnamese market, including 12158 samples and 12 attributes This dataset can be used for future research purposes and can be applied in practice The thesis has applied popular ensemble learning models Stacking, Bagging and Boosting to classify data, thereby comparing the performance between the classification models The test results on two datasets of stock price manipulation of the Indian market and the Vietnamese market show that the classification result of Bagging-Random Forest is better than Boosting-XGBoost and Stacking-ANN From there, it is possible to build an application to support market managers to detect and put a list of stocks showing signs of price manipulation to monitor and have sanctions to protect the interests of investors, listed companies participate in the market v MỤC LỤC LỜI CAM ĐOAN i LỜI CÁM ƠN ii TÓM TẮT iii ABSTRACT iv MỤC LỤC v DANH MỤC CÁC HÌNH viii DANH MỤC CÁC BẢNG x DANH MỤC CÁC THUẬT NGỮ VÀ TỪ VIẾT TẮT xi CHƯƠNG 1: MỞ ĐẦU 1.1 Cơ sở hình thành luận văn 1.2 Tổng quan TTCK 1.3 Hành vi thao túng giá TTCK 1.4 Các nghiên cứu liên quan 1.4.1 Nghiên cứu Leangarun ctg 1.4.2 Nghiên cứu Zhai ctg 1.4.3 Nghiên cứu Li ctg 1.4.4 Nghiên cứu Leangarun ctg 10 1.4.5 Nghiên cứu Rizvi ctg 10 1.4.6 Nghiên cứu Wang ctg 11 1.4.7 Nghiên cứu Sridha ctg 11 1.5 Mục tiêu nghiên cứu 13 1.6 Đối tượng phạm vi nghiên cứu 14 1.6.1 Đối tượng nghiên cứu 14 1.6.2 Phạm vi nghiên cứu 14 1.7 Phương pháp nghiên cứu luận văn 14 1.8 Tính khoa học tính thực tiễn luận văn 15 1.8.1 Tính khoa học 15 1.8.2 Tính thực tiễn 15 1.9 Cấu trúc luận văn 16 1.10 Tóm tắt chương 16 vi CHƯƠNG 2: CƠ SỞ LÝ THUYẾT 17 2.1 Mạng Neural 17 2.1.1 Cấu trúc mạng Neural 17 2.1.2 Quá trình huấn luyện mạng Neural 21 2.2 Học theo nhóm (Ensemble Learning) 22 2.2.1 Stacking 23 2.2.1.1 Xác thực chéo k-phần với Stacking 25 2.2.1.2 Kết hợp nhãn tạo với liệu huấn luyện ban đầu 26 2.2.1.3 Kết hợp dự đoán cho tập liệu kiểm tra 27 2.2.1.4 Stacking đa tầng (Multi-Level Stacking) 28 2.2.1.5 Các phương pháp Stacking khác 29 2.2.2 Bagging 29 2.2.2.1 Phương pháp Bootstrap 30 2.2.2.2 MHHĐ Bagging 31 2.2.2.3 Random Forest 32 2.2.3 Boosting 34 2.2.3.1 Adaptive Boosting (AdaBoost) 35 2.2.3.2 Gradient Boosting Extreme Gradient Boosting 37 2.3 Tóm tắt chương 39 CHƯƠNG 3: PHƯƠNG PHÁP THỰC HIỆN 40 3.1 BDL thao túng giá chứng khoán 40 3.2 Xây dựng BDL thao túng giá chứng khoán Việt Nam 43 3.2.1 Thu thập liệu tiền xử lý 43 3.2.1.1 Tiền xử lý liệu 44 3.2.1.2 Nam Các bước thu thập tiền xử lý liệu thao túng giá chứng khoán Việt 44 3.2.2 Chuẩn hóa liệu 50 3.2.3 Chia tách rò rỉ liệu 51 3.2.3.1 Chia tách liệu 51 3.2.3.2 Rò rỉ liệu 52 3.3 Phân lớp liệu 52 3.3.1 Phân lớp sử dụng ANN 53 88 PHỤ LỤC HỆ THỐNG THỬ NGHIỆM NHẬN DIỆN THAO TÚNG GIÁ CHỨNG KHỐN VIỆT NAM Mơ hình hệ thống thử nghiệm nhận diện thao túng giá chứng khoán Việt Nam có thành phần sau: 89 - Hệ thống xử lý nhận diện: Gồm Back-End Server Front-End Server Back-End Server: xây dựng mô hình phân lớp học theo nhóm, cập nhật liệu chạy huấn luyện để cập nhật mơ hình gởi sang Front-End Server Back-End Server xây dựng ngôn ngữ Python với thư viện numpy, keras, pandas, sklearn để xử lý liệu đầu vào xây dựng mơ hình phân lớp học theo nhóm, thư viện joblib để lưu mơ hình huấn luyện Front-End Server: xử lý giao diện trang web tương tác với người dùng, server có chức sau: Lưu trữ tập tin CSV người dùng tải lên Nạp mơ hình phân lớp học theo nhóm lên để xử lý liệu tập tin CSV, thực dự đoán nhãn lớp trả kết lại cho người dùng Front-End Server xây dựng ngôn ngữ Python sử dụng framework Flask với công cụ werkzeug để tạo giao diện web cho người dùng Một số thư viện khác sử dụng joblib, numpy, pandas, sklearn để xử lý liệu nạp mơ hình phân lớp - Người dùng: Sử dụng trình duyệt máy tính, điện thoại thơng minh, để truy cập trang web front-end Người dùng tiến hành tải lên tập tin có định dạng CSV chứa thơng tin giao dịch ngày có cấu trúc tương tự liệu thao túng giá Việt Nam gồm có 12 cột thuộc tính, sau click chọn “Kiểm tra thao túng” để xem kết 90 Các thao tác giao diện người dùng: Giao diện web người dùng Người dùng tải lên file liệu giao dịch chứng khoán 91 Kiểm tra nội dung file liệu tải lên 92 Hệ thống trả kết kiểm tra thao túng giá cho người dùng ... học theo nhóm để tiến hành nghiên cứu đề tài ? ?Nhận Diện Thao Túng Giá Chứng Khoán Việt Nam Bằng Phương Pháp Học Theo Nhóm? ?? Thơng qua nghiên cứu này, luận văn tìm hiểu sâu kiến thức kỹ thuật học. .. luận văn ? ?Nhận Diện Thao Túng Giá Chứng Khoán Việt Nam Bằng Phương Pháp Học Theo Nhóm? ?? tơi nhận nhiều giúp đỡ, động viên, bảo nhiệt tình bạn quý thầy khoa Công nghệ Thông Tin trường Đại Học Mở TP...BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC MỞ THÀNH PHỐ HỒ CHÍ MINH ∞0∞ NGUYỄN XUÂN THỊNH NHẬN DIỆN THAO TÚNG GIÁ CHỨNG KHOÁN VIỆT NAM BẰNG PHƯƠNG PHÁP HỌC THEO NHĨM Chun ngành: Khoa học