Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 56 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
56
Dung lượng
1,4 MB
Nội dung
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ TR N T NG N P NT U UT P T NGỌ ỆU V TRƢỜNG NG NG LUẬN VĂN T Ạ SĨ HỆ THỐNG THÔNG TIN HÀ NỘI – 2015 NG O N ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ TR N T NG N P NT U UT P T NGỌ ỆU V TRƢỜNG NG NG NG O N Ngành: H thống th ng tin Chuyên ngành: H thống thông tin Mã số: 60 48 01 04 LUẬN VĂN T Ạ SĨ HỆ THỐNG THÔNG TIN NGƢỜ ƢỚNG DẪN KHOA HỌC: PGS.TS NGUYỄN HÀ NAM HÀ NỘI – 2015 Ờ M ĐO N T i xin cam đoan luận văn “Nghiên cứu khai phá li u ứng dụng phân tích xu thị trường chứng khốn" c ng trình nghiên cứu riêng t i Các số li u, kết trình bày luận văn hồn tồn trung thực chưa c ng bố c ng trình khác T i trích dẫn đầy đủ tài li u tham khảo, c ng trình nghiên cứu liên quan Ngoại trừ tài li u tham khảo này, luận văn hoàn toàn nghiên cứu riêng t i Luận văn hoàn thành thời gian t i học viên Khoa C ng ngh th ng tin, Trường Đại học C ng ngh , Đại học Quốc gia Hà Nội Hà Nội, ngày 18 tháng 10 năm 2015 ọc viên Tr n T c N ọc Ờ ẢM ƠN Lời đầu tiên, t i xin gửi lời cảm ơn lòng biết ơn sâu sắc tới PGS.TS Nguyễn Hà Nam tận tình hướng dẫn t i suốt trình thực hi n luận văn tốt nghi p T i xin trân trọng cảm ơn Thầy, C giáo tận tình dạy, cung cấp cho t i kiến thức quý báu lu n nhi t tình giúp đỡ, tạo điều ki n thuận lợi suốt trình t i học tập Trường Đại học C ng ngh T i xin gửi lời cảm ơn tới bạn nhóm thầy Nguyễn Hà Nam hướng dẫn lu n sát cánh hỗ trợ cho t i suốt trình học tập trình làm luận văn Cuối cùng, t i muốn gửi lời cảm ơn tới gia đình, đồng nghi p bạn bè, người lu n bên cạnh, động viên tạo điều ki n tốt cho t i suốt trình học tập thực hi n luận văn tốt nghi p T i xin chân thành cảm ơn! M LỜI CAM ĐOAN LỜI CẢM ƠN MỤC LỤC AN MỤC AN MỤC ẢN MỞ Đ N I Đ tv n M c tiêu n Đối tƣợng nghiên c u P ƣơn p áp n iên c u iên c u u tr c uận văn Ch g N Q AN R ỜN C N O N C C Ỹ THUẬT TRUY N THỐNG 1.1 T trƣờn c n oán .9 1.2 Một số kỹ thuật dùng th trƣờng ch ng khốn 10 1.2.1 Phân tích kỹ thuật (Technical Analysis) 10 1.2.1.1 Biểu đồ dạng đường (Line chart) 11 1.2.1.2 Biểu đồ dạng then chắn (Bar chart) 11 1.2.1.3 Biểu đồ nến (Candlestick chart) 11 1.2.2 Một số báo kỹ thuật Technical Indicator 12 1.2.2.1 Tính hội tụ phân k đường trung bình động MACD (Moving Average Convergence Divergence) 12 1.2.2.2 MACD – Histogram 12 1.2.2.3 Dải băng Bollinger 13 1.2.2.4 Chỉ số sức mạnh tương đối RSI (Relative Strength Index) 13 1.2.2.5 Aroon 14 1.3 Kỹ thuật dự báo nâng cao 14 1.3.1 Phân tích hồi quy (Regression Analysis) 14 1.3.1.1 H số tương quan coefficient correlation 14 1.3.1.2 H số xác định coefficient of determination 15 1.3.2 Mơ hình RIM utoRegressive Integrated Moving verage 15 1.3.2.1 Quá trình AR(p) 16 1.3.2.2 Quá trình MA(q) 16 1.3.2.3 Mô hình ARMA 16 1.3.2.4 Q trình tích hợp I(d) 17 1.3.2.5 M hình RIM p,d,q t ng quát 17 t uận 18 1.4 Ch g 2.1 AI P I C C Ỹ THUẬT PHÂN TÍCH DỰ BÁO 19 Khai phá tri th c khai phá liệu 19 2.1.1 2.1.2 Khai phá tri thức 19 Khai phá li u 20 2.1.2.1 2.1.2.2 2.2 Mạng Neural nhân tạo (Artificial Neural Network) 22 2.2.1 2.2.2 2.2.3 2.2.4 2.2.5 2.3 Phân lớp 20 Đánh giá m hình phân lớp 21 Kiến trúc mạng Neural 22 Mạng Perceptron 23 Mạng MLP 24 Huấn luy n mạng Neural 25 Thuật toán lan truyền ngược (Back Propagation) 26 P ƣơn p áp ensemb e .28 2.3.1 2.3.2 2.3.3 Giới thi u phương pháp ensemble 28 Kỹ thuật Bagging 29 Kỹ thuật Boosting 29 t uận 31 2.4 Ch g P ƠN P P IẢI Q O N Ự O R ỜN C N 3.1 Xây dựn b i toán dự báo t trƣờn c ỰC N I M Đ N I C O I O N 32 n oán 32 3.1.1 Mơ tả tốn 32 3.1.1.1 Tính khả thi tốn 32 3.1.1.2 C ng cụ hỗ trợ giải toán 32 3.1.2 Quy trình giải toán 32 3.1.2.1 Thu thập li u 33 3.1.2.2 Tiền xử lý li u 34 3.1.2.3 T chức li u 34 3.1.2.4 Huấn luy n m hình 35 3.1.2.5 Đánh giá m hình nhận x t kết 35 3.2 M n 3.3 Thực nghiệm 36 xu t .35 3.3.1 Mơ hình ARIMA 36 3.3.2 M hình mạng neural truyền thống 37 3.3.2.1 Thực hi n dự đoán theo chu k T+1 37 3.3.2.2 Thực hi n dự đoán theo chu k T+4 39 3.3.3 Cải tiến 1: M hình mạng neural b sung số báo kỹ thuật 42 3.3.3.1 Phân lớp 42 3.3.3.2 Hồi quy 43 3.3.4 Cải tiến 2: Mạng neural có thêm báo sử dụng phương pháp ensemble 47 3.3.4.1 Phân lớp 47 3.3.4.2 Hồi quy 47 3.4 P ntc 3.5 K t luận 51 49 K T LUẬN 52 I I AM ẢO 53 N M N V Hình 1.1: Biểu đồ dạng đường 11 Hình 1.2: Biểu đồ dạng then chắn .11 Hình 1.3 Biểu đồ dạng nến 11 Hình 2.1: Phương pháp Holdout toán phân lớp 22 Hình 2.2: Mạng truyền thẳng 22 Hình 2.3: Mạng phản hồi 23 Hình 2.4: M hình Perceptron .23 Hình 2.5: M hình mạng MLP 25 Hình 2.6: M hình trình huấn luy n mạng MLP b ng thuật toán lan truyền ngược 26 Hình 2.7: Giải thuật thuật tốn lan truyền ngược 27 Hình 2.8: Phương pháp Ensemble .28 Hình 3.1: Quy trình giải tốn .32 Hình 3.2: M hình mạng Neural giải toán dự báo chứng khoán 33 Hình 3.3: M hình đề xuất: Mạng Neural có b sung thêm báo kỹ thuật .35 Hình 3.4: M hình đề xuất: Mạng neural có thêm báo sử dụng phương pháp ensemble 36 Hình 3.5: Luồng cơng vi c thực nghi m 36 Hình 3.6: T l lỗi qua lần Epoch m hình mạng Neural .38 Hình 3.7: T l lỗi MSE 38 Hình 3.8: H số tương quan R 38 Hình 3.9: T l lỗi qua lần Epoch m hình mạng Neural 39 Hình 3.10: Biểu đồ thống kê kết dự báo mơ hình mạng neural theo tiếp cận phân lớp .40 Hình 3.11: T l lỗi MSE 40 Hình 3.12: H số tương quan R 40 Hình 3.13: Biểu đồ thể hi n giá trị MSE h số tương quan qua 20 lần kiểm nghi m 41 Hình 3.14: T l lỗi qua Epoch m hình mạng Neural 42 Hình 3.15: Biểu đồ thống kê kết dự báo theo hướng tiếp cận phân lớp sau cải tiến .43 Hình 3.16: T l lỗi MSE 44 Hình 3.17: H số tương quan R 44 Hình 3.18: Biểu đồ thể hi n giá trị MSE h số tương quan qua 20 lần kiểm nghi m 44 Hình 3.19: H số tương quan R b ng phương pháp Ensemble cho mạng neural 48 Hình 3.20: Đồ thị giá đóng cửa thực tế giá dự đoán 49 N M ẢNG U Bảng 3.1: Dữ li u c phiếu MSFT 33 Bảng 3.2: So sánh kết thực nghi m b ng m hình rima 37 Bảng 3.3: Kết dự đoán b ng m hình rima 37 Bảng 3.4: Kết phân lớp b ng mạng Neural 39 Bảng 3.5: Kết dự đốn phân tích hồi quy b ng mạng Neural truyền thống 41 Bảng 3.6: So sánh giá trị MAPE trung bình nhiều mơ hình .42 Bảng 3.7: Kết phân lớp b ng mạng Neural 43 Bảng 3.8: Kết dự đốn phân tích hồi quy b ng mạng Neural cải tiến .45 Bảng 3.9: Kết sử dụng mạng neural để phân lớp li u 46 Bảng 3.10: Kết sử dụng mạng neural để phân tích hồi quy li u .46 Bảng 3.11: Kết dự đoán mạng Neural truyền thống mạng Neural cải tiến 46 Bảng 3.12: Kết phân lớp b ng phương pháp Ensemble cho mạng neural 47 Bảng 3.13: T ng hợp kết dự đoán nhiều mơ hình thực nghi m 48 Bảng 3.14: Lời khuyên cho nhà đầu tư chứng khoán 51 MỞ Đ U Đ tv n Sự phát triển công ngh thông tin ứng dụng công ngh thông tin nhiều lĩnh vực đời sống, kinh tế xã hội sản sinh lượng li u kh ng lồ Các phương pháp quản trị khai thác li u thủ công, truyền thống tỏ hi u trước nhu cầu khai thác phát hi n th ng tin có giá trị ẩn chứa lượng lớn li u Sự đời kỹ thuật khai phá tri thức (Knowledge Discovery in Databases) khai phá li u Data Mining đem lại hi u cao vấn đề khai thác phát hi n tri thức, áp dụng nhiều lĩnh vực khác Đặc bi t m i trường kinh doanh, người ta mong muốn có thật nhiều thơng tin hữu ích để hỗ trợ kinh doanh hi u Trong đó, nhu cầu dự báo cho thị trường chứng khoán để hạn chế rủi ro thua lỗ t chức nhà đầu tư cá nhân đặt làm mối quan tâm hàng đầu Dự đoán xu thị trường chứng khoán c ng vi c kh ng đơn giản Sự khơng tuyến tính thị trường kèm theo tác động nhiều yếu tố bên làm ảnh hưởng tới giá thị trường chứng khốn Do đó, vi c xây dựng h thống phân tích dự báo với tiêu chí đầy đủ, khách quan khoa học định tính định lượng, góc độ tài phi tài cần thiết M c tiêu n iên c u Luận văn tập trung nghiên cứu hai phương pháp định tính định lượng với mong muốn có h thống dự đoán xu thị trường chứng khoán đủ mạnh hỗ trợ đắc lực cho nhà đầu tư chứng khoán Đối tƣợn n iên c u Đối tượng mà luận văn tơi nghiên cứu xu thị trường chứng khoán Cụ thể, t i sử dụng giá c phiếu MSFT công ty Microsoft Corporation thu thập từ trang finance.yahoo.com niêm yết sàn NASDAQ (National Association of Securities Dealers Automated Quotations) để tiến hành dự đoán P ƣơn p áp n iên c u Luận văn tập trung vào vi c tìm hiểu m hình khai phá li u phân tích kỹ thuật dùng lĩnh vực chứng khoán theo hai phương pháp định tính định lượng Luận văn thực hi n vi c kết hợp mô hình khai phá li u: mạng neural phân tích kỹ thuật bản, sử dụng phương pháp ensemble giúp gia tăng độ xác cho mạng neural để đưa đánh giá nh m hỗ trợ nhà đầu tư vi c định mua bán c phiếu u tr c uận văn Bố cục luận văn trình bày chương ƣơn 1: Tổng quan v th trƣờn c n oán v kỹ thuật truy n thống Chương trình bày số kiến thức tảng thị trường chứng khoán, phương pháp nghiên cứu đặc trưng thị trường chứng khốn thơng qua biểu đồ, báo M CD, dải băng Bollinger, RSI, roon Và tìm hiểu mơ hình hồi quy ARIMA chun dụng vi c dự đoán giá thị trường chứng khoán ƣơn 2: K p iệu v ỹ t uật p n t c dự báo T i tìm hiểu đặc trưng lĩnh vực khai phá tri thức, khai phá li u toán đặc trưng lĩnh vực M hình mạng neural m hình khai phá li u điển hình, có khả áp dụng cao cho tốn phân tích xu thị trường chứng khốn Ngồi để gia tăng độ xác cho m hình khai phá li u, phương pháp ensemble coi giải pháp tối ưu Chương chủ yếu xây dựng kiến thức tảng để t i tiến hành thực nghi m chương sau ƣơn 3: P ƣơn p áp iải quy t, thực nghiệm v dự báo th trƣờng ch ng khoán án iá c o b i toán Nội dung chủ yếu chương áp dụng m hình tìm hiểu vào vi c dự báo thị trường chứng khoán Đầu tiên, t i tiến hành thực nghi m tốn với mơ hình truyền thống: RIM mạng neural Tiếp t i cải tiến độ xác cho mạng neural, b ng cách sử dụng li u chứng khoán b sung thêm số báo kỹ thuật M CD, RSI, roon Nh m gia tăng độ xác cho m hình mạng neural tơi tiếp tục cải tiến lần với kỹ thuật ensemble Cuối cùng, tơi tiến hành đánh giá kết dự đốn mơ hình để tìm lời khun tin cậy cho nhà đầu tư, nhà kinh doanh chứng khoán Độ c n xác p n ớp (%) 40 84.24 83.68 83.12 82.56 82.00 Lần Lần Lần Lần Lần Lần Lần Lần Lần Lần Lần Lần Lần Lần Lần Lần Lần Lần Lần Lần 10 11 12 13 14 15 16 17 18 19 20 Độ xác phân lớp (%) Hình 3.10: Biểu đồ thống kê kết dự báo mơ hình mạng neural theo tiếp cận phân lớp 3.3.2.2.2 Hồi quy Dữ li u sử dụng định nghĩa mục 3.1.2.3.1.b Sau thực hi n phân tích hồi quy b ng m hình mạng neural, giá trị MSE b ng 31.5816 Trải qua 13 lần học, giá trị MSE giảm dần hình 3.11, lần học thứ m hình đạt giá trị lỗi nhỏ kh ng giảm lần học Lúc này, h số tương quan b ng 0.9892 (hình 3.12) Hình 3.11: T l lỗi MSE Hình 3.12: H số tương quan R 41 Thực hi n kiểm tra độ n định thuật toán sau 20 lần kiểm nghi m cho kết hình 3.13, độ lỗi MSE thuật tốn là: 26.20145 ± 7.17975 0.9910 39 0.9905 34 0.9895 29 0.9890 24 0.9885 0.9880 MSE ệ số tơn quan R 0.9900 19 0.9875 0.9870 14 Lần Lần Lần Lần Lần Lần Lần Lần Lần Lần Lần Lần Lần Lần Lần Lần Lần Lần Lần Lần 10 11 12 13 14 15 16 17 18 19 20 R MSE Hình 3.13: Biểu đồ thể hi n giá trị MSE h số tương quan qua 20 lần kiểm nghi m Kết dự đoán bảng 3.5, cột chênh l ch thể hi n độ sai khác giá dự đoán so với giá thực tế Giá ngày i Giá ngày i-1 Giá ngày i-2 Giá ngày i-3 Giá ngày i-4 Giá t ực t ngày i+4 Giá dự oán ngày i+4 Chênh ệc 4-Dec-14 48.84 48.08 48.46 48.62 47.81 46.90 48.52 1.62 5-Dec-14 48.42 48.84 48.08 48.46 48.62 47.17 48.68 1.51 8-Dec-14 47.70 48.42 48.84 48.08 48.46 46.95 46.83 -0.12 9-Dec-14 47.59 47.70 48.42 48.84 48.08 46.67 46.23 -0.44 10-Dec-14 46.90 47.59 47.70 48.42 48.84 45.16 40.28 -4.88 11-Dec-14 47.17 46.90 47.59 47.70 48.42 45.74 41.79 -3.95 12-Dec-14 46.95 47.17 46.90 47.59 47.70 47.52 43.16 -4.36 15-Dec-14 46.67 46.95 47.17 46.90 47.59 47.66 44.08 -3.58 16-Dec-14 45.16 46.67 46.95 47.17 46.90 47.98 47.02 -0.96 17-Dec-14 45.74 45.16 46.67 46.95 47.17 48.45 49.38 0.93 18-Dec-14 47.52 45.74 45.16 46.67 46.95 48.14 47.98 -0.16 19-Dec-14 47.66 47.52 45.74 45.16 46.67 47.88 45.74 -2.14 22-Dec-14 47.98 47.66 47.52 45.74 45.16 47.45 47.84 0.39 23-Dec-14 48.45 47.98 47.66 47.52 45.74 47.02 47.28 0.26 24-Dec-14 48.14 48.45 47.98 47.66 47.52 46.45 46.74 0.29 26-Dec-14 47.88 48.14 48.45 47.98 47.66 46.76 47.34 0.58 N yi Bảng 3.5: Kết dự đốn phân tích hồi quy b ng mạng Neural truyền thống 42 Các mơ hình Mơ hình ARIMA [24] Mạng Neural [24] Mơ hình ARIMA Mạng Neural T+1 Mạng Neural T+4 MAPE trung bình 8.05 3.78 7.28 3.72 8.47 Bảng 3.6: So sánh giá trị MAPE trung bình nhiều mơ hình Các kết thực nghi m mơ hình ARIMA (1,1,2), mạng Neural dự đoán chu k T+1 mạng Neural dự đoán theo chu k T+4, t ng hợp bảng 3.6 Qua t i có vài lời nhận xét sau: - Mơ hình mạng neural cho kết xác m hình RIM với dự đốn chu k T+1 Kết dự đốn T+4 m hình Neural k m xác so với kết dự đoán T+1 Do hi n chu k khoản hầu hết quốc gia Vi t Nam T+3, số quốc gia chọn T+2, Mỹ có thị trường chứng khoán phát triển họ để T+4 Bởi vậy, để phù hợp với tính thực tế, t i thực hi n dự đốn ngày T+4 cho mơ hình cải tiến mạng Neural MSE có ưu điểm hẳn so với MAPE nên sử dụng giá trị để đánh giá hi u lần thực nghi m 3.3.3 ải ti n 1: M n mạn neura v bổ sun số c ỉ báo ỹ t uật Trong phần thực hi n cải tiến lần với mô hình mạng neural có b sung thêm số báo kỹ thuật hướng tiếp cận phân lớp hồi quy để dự đoán ngày thứ T+4 3.3.3.1 Phân l p Dữ li u sử dụng định nghĩa mục 3.1.2.3.2.a Sau thực hi n phân lớp b ng m hình mạng neural, độ xác thuật toán đạt 83.25% Trải qua 75 lần học, t l lỗi giảm dần hình 3.14, lần học thứ 69 m hình đạt t l lỗi nhỏ kh ng giảm theo lần học Hình 3.14: T l lỗi qua Epoch m hình mạng Neural 43 Kết phân lớp b ng mạng neural thể hi n bảng 3.7 N yi ự oán T ực t N y ự oán T ực t 4-Dec-14 -1 -1 16-Dec-14 1 5-Dec-14 -1 -1 17-Dec-14 1 8-Dec-14 -1 -1 18-Dec-14 -1 9-Dec-14 -1 19-Dec-14 1 10-Dec-14 -1 -1 22-Dec-14 -1 -1 11-Dec-14 -1 -1 23-Dec-14 -1 -1 12-Dec-14 1 24-Dec-14 -1 -1 15-Dec-14 1 26-Dec-14 -1 Bảng 3.7: Kết phân lớp b ng mạng Neural Thực hi n kiểm tra độ n định thuật toán sau 20 lần kiểm nghi m cho kết hình 3.15 Độ xác thuật toán n m khoảng 82.9595% ± 0.2855% Độ c n xác p n ớp (%) 84.50 84.00 83.50 83.00 82.50 82.00 Lần Lần Lần Lần Lần Lần Lần Lần Lần Lần Lần Lần Lần Lần Lần Lần Lần Lần Lần Lần 10 11 12 13 14 15 16 17 18 19 20 Độ xác phân lớp (%) Hình 3.15: Biểu đồ thống kê kết dự báo theo hướng tiếp cận phân lớp sau cải tiến 3.3.3.2 Hồi quy Dữ li u sử dụng định nghĩa mục 3.1.2.3.2.b Sau thực hi n phân tích hồi quy b ng m hình mạng neural, giá trị MSE 16.2156 Thuật toán dừng sau 62 lần học, giá trị MSE giảm dần hình 3.16, lần học thứ 57 m hình đạt giá trị lỗi nhỏ kh ng giảm theo lần học Lúc h số tương quan 0.99203 (hình 3.17) 44 Hình 3.16: T l lỗi MSE Hình 3.17: H số tương quan R 0.9940 35 0.9930 0.9920 30 0.9910 25 0.9900 0.9890 20 MSE ệ số tƣơn quan R Thực hi n kiểm tra độ n định thuật toán sau 20 lần kiểm nghi m cho kết hình 3.18, độ lỗi MSE thuật toán n m khoảng: 23.9596 ± 8.4688 0.9880 0.9870 15 0.9860 0.9850 10 LầnLầnLầnLầnLầnLầnLầnLầnLầnLầnLầnLầnLầnLầnLầnLầnLầnLầnLầnLần 10 11 12 13 14 15 16 17 18 19 20 R MSE Hình 3.18: Biểu đồ thể hi n giá trị MSE h số tương quan qua 20 lần kiểm nghi m 45 Bảng 3.8 thể hi n kết dự đoán giá ngày t+4 th ng qua phân tích hồi quy Trong cột chênh l ch thể hi n độ sai khác giá dự đoán so với giá thực tế RSI Aroon up Aroon down Aroon tƣơn quan Giá t ực t ngày i+4 Giá dự oán ngày i+4 Chênh ệc 49.76 58.95 7.14 57.14 -50.00 46.90 46.32 -0.58 47.31 49.74 54.77 7.14 50.00 -42.86 47.17 46.66 -0.51 48.48 47.21 49.74 48.44 85.71 42.86 42.86 46.95 50.16 3.21 -47.86 48.41 47.11 49.72 47.53 78.57 35.71 42.86 46.67 53.05 6.38 0.11 -47.74 48.32 46.87 49.76 42.21 71.43 100.00 -28.57 45.16 50.77 5.61 48.42 0.04 -47.67 48.23 46.72 49.74 44.81 64.29 92.86 -28.57 45.74 52.91 7.17 47.59 47.70 -0.03 -47.59 48.10 46.63 49.57 43.11 57.14 85.71 -28.57 47.52 49.47 1.95 47.17 46.90 47.59 -0.11 -47.49 47.96 46.52 49.39 40.97 50.00 100.00 -50.00 47.66 48.17 0.51 46.67 46.95 47.17 46.90 -0.29 -47.22 47.74 46.02 49.47 31.81 42.86 100.00 -57.14 47.98 48.86 0.88 45.74 45.16 46.67 46.95 47.17 -0.38 -47.08 47.59 45.72 49.46 37.58 35.71 92.86 -57.14 48.45 48.45 0.00 18-Dec-14 47.52 45.74 45.16 46.67 46.95 -0.30 -47.17 47.56 45.71 49.40 51.23 28.57 85.71 -57.14 48.14 46.90 -1.24 19-Dec-14 47.66 47.52 45.74 45.16 46.67 -0.23 -47.25 47.50 45.73 49.27 52.11 21.43 78.57 -57.14 47.88 46.76 -1.12 22-Dec-14 47.98 47.66 47.52 45.74 45.16 -0.15 -47.36 47.50 45.73 49.27 54.16 14.29 71.43 -57.14 47.45 46.95 -0.50 23-Dec-14 48.45 47.98 47.66 47.52 45.74 -0.04 -47.50 47.55 45.73 49.36 57.07 7.14 64.29 -57.14 47.02 47.00 -0.02 24-Dec-14 48.14 48.45 47.98 47.66 47.52 0.02 -47.58 47.58 45.75 49.42 54.61 92.86 57.14 35.71 46.45 47.15 0.70 26-Dec-14 47.88 48.14 48.45 47.98 47.66 0.04 -47.61 47.59 45.75 49.43 52.56 85.71 50.00 35.71 46.76 48.25 1.49 N yi Giá ngày i Giá ngày i-1 Giá ngày i-2 Giá ngày i-3 Giá ngày i-4 4-Dec-14 48.84 48.08 48.46 48.62 5-Dec-14 48.42 48.84 48.08 8-Dec-14 47.70 48.42 9-Dec-14 47.59 10-Dec-14 MACD MACD histogram Bollinger iữa Bollinger dƣới Bollinger 47.81 0.39 -47.93 48.54 47.32 48.46 48.62 0.37 -47.96 48.53 48.84 48.08 48.46 0.30 -47.91 47.70 48.42 48.84 48.08 0.23 46.90 47.59 47.70 48.42 48.84 11-Dec-14 47.17 46.90 47.59 47.70 12-Dec-14 46.95 47.17 46.90 15-Dec-14 46.67 46.95 16-Dec-14 45.16 17-Dec-14 Bảng 3.8: Kết dự đốn phân tích hồi quy b ng mạng Neural cải tiến 46 Nhận x t: Sau thực hi n dự đoán theo chu k khoản T+4, theo hướng tiếp cận phân lớp hồi quy li u giá c phiếu MSFT t i nhận thấy: b sung thêm báo kỹ thuật, mạng Neural cho độ xác cao chưa sử dụng báo kỹ thuật (xem bảng t ng hợp 3.9 3.10) Vì kết tính tốn sau sử dụng li u b sung thêm báo kỹ thuật ác ộ o Độ xác trung Mạng Neural truy n thống Mạng neural với cải ti n 82.93 82.99 0.09 0.16 nh (%) Độ lệ h hu n (%) Bảng 3.9: Kết sử dụng mạng neural để phân lớp li u Mạng Neural truy n thống Mạng neural với cải ti n nh 26.2933 21.5628 Độ lệ h hu n 4.0677 5.0158 Hệ s tư ng quan R lớn Hệ s tư ng qu n nhỏ 0.9901 0.9921 0.9879 0.9896 ác ộ o trung Bảng 3.10: Kết sử dụng mạng neural để phân tích hồi quy li u Tôi tiến hành so sánh với kết dự đốn mơ hình mạng Neural truyền thống mạng Neural cải tiến thu trên, giá dự đoán b i đậm thể hi n gần với giá thực tế bảng 3.11) 48.84 Giá t ực t n y i+4 46.90 Giá dự oán Neura truy n t ốn 48.52 Giá dự oán Neura cải ti n 46.32 5-Dec-14 48.42 47.17 48.68 8-Dec-14 47.70 46.95 46.83 46.66 50.16 9-Dec-14 47.59 46.67 46.23 53.05 10-Dec-14 46.90 45.16 50.77 11-Dec-14 47.17 45.74 12-Dec-14 46.95 47.52 40.28 41.79 43.16 15-Dec-14 46.67 47.66 44.08 48.17 16-Dec-14 17-Dec-14 45.16 45.74 47.98 48.45 47.02 49.38 18-Dec-14 19-Dec-14 47.52 47.66 48.14 47.88 47.98 45.74 48.86 48.45 46.90 22-Dec-14 47.98 47.45 23-Dec-14 48.45 47.02 47.84 47.28 24-Dec-14 48.14 46.45 46.74 47.00 47.15 26-Dec-14 47.88 46.76 47.34 48.25 N yi Giá ngày i 4-Dec-14 52.91 49.47 46.76 46.95 Bảng 3.11: Kết dự đoán mạng Neural truyền thống mạng Neural cải tiến 47 Kết t l xác m hình mạng Neural truyền thống mạng neural cải tiến 50% 50% Tuy kết đự đoán mạng Neural cải tiến thể hi n xác mặt xu hướng giá trị so với giá trị thực tế 3.3.4 ải ti n 2: Mạn neura có t êm c ỉ báo v sử d n p ƣơn pháp ensemble Trong phần này, thực hi n cải tiến lần b ng cách sử dụng phương pháp ensemble để gia tăng độ xác cho mơ hình mạng neural cải tiến với li u chứng khốn có b sung số báo kỹ thuật Dựa kỹ thuật bagging, thực hi n hai hướng tiếp cận phân lớp hồi quy li u c phiếu MSFT định nghĩa mục 3.1.2.3.2.b, gọi tắt tập D 3.3.4.1 Ph Từ tập huấn luy n ban đầu D, lấy ngẫu nhiên 10 tập Di có số lượng phần tử khác nhau, phần tử tập mẫu Di trùng ới tập Di ta huấn luy n mạng neural Mi Đưa tập li u vào m hình Mi huấn luy n, phân lớp bagging đếm số phiếu, sau bỏ phiếu dựa đa số, hi u suất phân lớp đạt 87.87% N yi ự oán T ực t N y ự oán T ực t 4-Dec-14 -1 -1 16-Dec-14 1 5-Dec-14 -1 -1 17-Dec-14 1 8-Dec-14 -1 18-Dec-14 1 9-Dec-14 -1 -1 19-Dec-14 -1 10-Dec-14 -1 -1 22-Dec-14 -1 -1 11-Dec-14 -1 -1 23-Dec-14 -1 -1 12-Dec-14 1 24-Dec-14 -1 -1 15-Dec-14 1 26-Dec-14 -1 -1 Bảng 3.12: Kết phân lớp b ng phương pháp Ensemble cho mạng neural 3.3.4.2 Hồi u ới cách thực hi n thuật toán bagging trên, sử dụng tập li u đưa qua m hình mạng neural Mi, giá trị dự đốn tính b ng trung bình cộng giá trị dự đốn mơ hình Khi đó, độ lỗi MSE tập giá trị dự đốn cịn 5.270 h số tương quan 0.9766 xem hình 3.19) 48 Hình 3.19: H số tương quan R b ng phương pháp Ensemble cho mạng neural N yi Giá ngày i Giá t ực t ngày i+4 Giá dự oán bằn Neura truy n t ốn Giá dự oán bằn Neura cải ti n Giá dự oán bằn p ƣơn pháp ensemble 4-Dec-14 48.84 46.90 48.52 46.32 46.88 5-Dec-14 48.42 47.17 48.68 46.66 47.26 8-Dec-14 47.70 46.95 46.83 50.16 46.93 9-Dec-14 47.59 46.67 46.23 53.05 47.12 10-Dec-14 46.90 45.16 40.28 50.77 46.37 11-Dec-14 47.17 45.74 41.79 52.91 46.78 12-Dec-14 46.95 47.52 43.16 49.47 47.97 15-Dec-14 46.67 47.66 44.08 48.17 47.48 16-Dec-14 45.16 47.98 47.02 48.86 47.54 17-Dec-14 45.74 48.45 49.38 48.45 48.83 18-Dec-14 47.52 48.14 47.98 46.9 46.84 19-Dec-14 47.66 47.88 45.74 46.76 46.23 22-Dec-14 47.98 47.45 47.84 46.95 45.91 23-Dec-14 48.45 47.02 47.28 47.00 45.84 24-Dec-14 48.14 46.45 46.74 47.15 45.90 26-Dec-14 47.88 46.76 47.34 48.25 47.69 Bảng 3.13: T ng hợp kết dự đoán nhiều mơ hình thực nghi m Qua thống kê bảng 3.13, tơi thu t l xác m hình: mạng Neural truyền thống, mạng Neural cải tiến mạng neural sử dụng phương pháp ensemble 31.25%, 18.75% 50% Nhận thấy, sử dụng kỹ thuật 49 bagging độ xác mạng neural tăng lên đáng kể Đồ thị giá đóng cửa thực tế giá dự đốn b ng phương pháp ensemble (hình 3.20) 49.5 48.7 47.8 47.0 46.2 45.3 44.5 Giá thực tế ngày i+4 Giá dự đoán b ng Ensemble Hình 3.20: Đồ thị giá đóng cửa thực tế giá dự đoán 3.4 P ntc Dự đoán xu thị trường chứng khoán công vi c kh ng đơn giản, bất n thị trường kèm theo tác động nhiều yếu tố bên làm ảnh hưởng tới giá thị trường chứng khoán Bởi để xây dựng mơ hình dự báo xu thị trường chứng khoán đem lại hi u cao cho nhà đầu tư công vi c cần thiết Trong chương luận văn này, t i sử dụng lý thuyết tìm hiểu chương 1, chương áp dụng vào tốn, hồn thành thực nghi m với li u thực tế thu thập từ trang finance.yahoo.com cho mã c phiếu MSFT niêm yết NASDAQ Các kết thực nghi m có độ xác cao 80% Luận văn thực hi n kết hợp kiến thức khoa học máy tính với kiến thức tài hỗ trợ đắc lực cho nhà đầu tư, kinh doanh có định xác thời điểm nh m gia tăng lợi nhuận tối đa Luận văn tập trung vào vi c tìm hiểu mơ hình khai phá li u kỹ thuật chuyên dụng chuyên gia kinh tế dùng lĩnh vực chứng khốn theo hai khía cạnh định tính định lượng Đầu tiên, thử nghi m li u với mơ hình phân tích hồi quy ARIMA chun dụng ngành tài mơ hình khai phá li u mạng Neural Tôi tiến hành so sánh kết thực nghi m với nghiên cứu Kuo-Cheng Tseng cộng [24] với mơ hình sử dụng ARIMA(1,1,2) mạng neural cho li u c phiếu MSFT nhận thấy kết thực nghi m tốt Sở dĩ t i đạt kết tơi sử dụng với nhiều li u đầu vào so với báo [24 nên cho độ xác tốt Từ t i thấy r ng: muốn tăng độ xác dự báo cần cung cấp nhiều thơng tin hữu ích cho q trình huấn luy n mơ hình 50 Đồng thời kết dự đốn ngày T+1 mơ hình mạng Neural cho kết xác m hình rima với li u MSFT Tuy nhiên, kết dự đoán ngày thứ T+4 mơ hình mạng neural lại k m so với dự đốn T+1 Ngun nhân vi c dự đoán xa khiến cho khả dự đốn xác Kết chi tiết bảng 3.6 Nhưng để phù hợp chu k toán hi n thị trường chứng khốn, tơi tiến hành cải tiến nh m gia tăng độ xác cho mạng neural với chu k khoản T+4 Tôi thực cải tiến lần cho mô hình mạng neural b ng cách thực hi n b sung li u đầu vào với vài báo phân tích Kết nhận cho thấy, b sung cách tiếp cận kinh tế, mơ hình mạng neural cho độ xác cao hơn, kết phân lớp tăng từ 82.9005(%) ± 0.2025(%) lên 82.9595(%) ± 0.2855(%) B ng cách cung cấp thêm th ng tin đầu vào cho trình huấn luy n mạng neural, tơi có kết bảng 3.9 3.10 Từ t i khẳng định r ng: muốn tăng độ xác dự báo cần cung cấp nhiều thơng tin hữu ích cho q trình huấn luy n mơ hình Tơi tiếp tục sử dụng li u tiến hành cải tiến lần với phương pháp ensemble cho mạng neural cụ thể kỹ thuật bagging kết tăng lên đáng kể với độ xác đạt mức 87.87% Kết chi tiết thể hi n bảng 3.12 3.13 cho thấy vi c kết hợp kiến thức khoa học máy tính với kiến thức tài hỗ trợ cho nhà đầu tư, kinh doanh vi c đưa chiến lược đầu tư phù hợp Kỹ thuật boosting trọng đến li u bị phân lớp sai, thể hi n vi c tăng trọng số cho li u học sai để ưu tiên q trình học, dẫn dễ đến tình trạng overfitting m hình t ng hợp với li u ban đầu Tình trạng overfitting làm cho m hình kh ng có khả khái qt hóa, trả lời với m hình huấn luy n, cịn đưa li u vào m hình kh ng trả lời ậy nên, m hình boosting tạo k m xác Trong bagging gặp overfitting ì ưu điểm mà tơi lựa chọn sử dụng thuật tốn bagging để giải tốn Có thể chia tập li u thành nhiều tập khác để huấn luy n m hình Ở tơi chọn ph p chia thành 10 m hình lý sau đây: -) chia thành nhiều tập li u có nhiều mơ hình neural thành phần Do thời gian tính tốn tăng nên theo số lượng mơ hình neural thành phần , -) Số lượng tập li u số mơ hình neural thành phần làm cho độ xác giảm ngược lại số lượng tập li u tăng độ xác tăng -) chia thành nhiều tập li u số lượng li u huấn luy n m hình Khi có nhiều tập li u số lượng mơ hình neural thành phần nhiều dẫn đến li u đầu vào kh ng đảm bảo đầy đủ th ng tin để huấn luy n mơ hình dự báo xác 51 Dựa vào kết thu nhận tơi có vài lời khun cho nhà đầu tư, nhà kinh doanh chứng khoán bảng 3.14 N y u ƣớn dự oán ời uyên 4-Dec-14 -1 Nên giữ nguyên bán 5-Dec-14 -1 Nên bán 8-Dec-14 Nên giữ nguyên mua 9-Dec-14 -1 Nên giữ nguyên bán 10-Dec-14 -1 Nên giữ ngun bán 11-Dec-14 -1 Khơng nên giữ nguyên mà nên bán 12-Dec-14 Nên giữ nguyên mua 15-Dec-14 Nên mua 16-Dec-14 Nên mua 17-Dec-14 Nên mua 18-Dec-14 Nên bán 19-Dec-14 -1 Nên giữ nguyên bán 22-Dec-14 -1 Không nên giữ nguyên mà nên bán 23-Dec-14 -1 Nên bán 24-Dec-14 -1 Nên bán 26-Dec-14 -1 Nên bán Bảng 3.14: Lời khuyên cho nhà đầu tư chứng khoán 3.5 t uận Trong chương này, luận văn t i thực hi n kết hợp kiến thức khoa học máy tính với kiến thức tài để dự đốn xu thị trường chứng khoán Dựa vào kết đạt được, t i đưa lời khuyên hỗ trợ cho nhà đầu tư, kinh doanh định mua hay bán c phiếu phiên Các kết thực nghi m t i chưa thực giải hết vấn đề thị trường chứng khoán đủ để cung cấp th ng tin định hướng ban đầu cho nghiên cứu 52 T UẬN Kết đạt được: Từ vi c nghiên cứu yêu cầu toán thực nghi m li u lịch sử giao dịch c phiếu, luận văn thực hi n số nội dung sau: - Tìm hiểu thị trường chứng khoán kỹ thuật truyền thống vi c dự báo thị trường chứng khốn - Tìm hiểu mơ hình khai phá li u - mơ hình mạng neural, mơ hình hồi quy RIM kỹ thuật cải tiến gia tăng độ xác cho mạng neural mà điển hình phương pháp ensemble - Tiến hành thực nghi m so sánh đánh giá kết đạt - Hỗ trợ người dùng vi c đưa lời khuyên cho người dùng nên mua, bán hay giữ nguyên giá c phiếu phiên Hướng phát triển luận văn: Trong thời gian tới, tiếp tục xây dựng, hoàn thi n h thống dự báo chứng khoán nh m hỗ trợ người dùng vi c đưa lời khun xác Thêm vào đó, tơi tiếp tục nghiên cứu phương pháp học máy dùng khai phá li u kết hợp với khai phá li u mạng xã hội Facebook, diễn đàn chuyên chứng khoán nh m nâng cao kết dự báo xu thị trường chứng khoán 53 T ỆU T M ẢO Ti n việt: Nguyễn Trọng Hồi, Phùng Thanh Bình, Nguyễn Khánh Duy, (2009), Dự Báo Phân Tích Dữ Liệu Kinh Tế Tài Chính, NXB Thống Kê Nguyễn Minh Phong, 2007 , "Nhận di n rủi ro đầu tư chứng khoán," ạp h ài h nh 511 Hà Quang Thụy, 2013 , ài giảng nhập m n h i phá liệu, Đại học C ng Ngh ĐHQG Hà Nội Ti n an : E Barnard, L Wessels, (1992), "Avoiding False Local Minima by Proper Initialization of Connections", IEEE Trans on Neural Networks, vol 3, no 6, pp 809905 E Bauer, R Kohavi, 1999 , “ n empirical comparison of voting classification algorithms: Bagging, Boosting and variants”, Machine Learning 36 (1-2) (1999), pp 105-139 G Box, G Jenkins, (1970), Time series analysis: Forecasting and control, Wiley, San Francisco Samprit A Chattefuee, Ali S Hadi, (2006), Regression Analysis by Example, Fourth Edition, Wiley Interscience, Canada, pp 1, 21-44 H Demuth, M Beale, (1998), Neural network toolbox for use with MATLAB, The MathWorks Inc., Massachusetts, USA H Drucker, R Schapire, P Simard, 1993 , “Improving performance in neural networks using a boosting algorithm”, Advances in Neural Information Processing Systems 5, California, pp 42-49 10 B Efron, R Tibshirani, (1993), An Introduction to the Bootstrap, Chapman & Hall, New York 11 David Hand, Heikki Mannila, Padhraic Smyth, (2001), Principles of Data Mining, MIT Press, Massachusetts 12 L.K Hansen, P Salamon, “Neural network ensembles”, 1990 , IEEE Trans Pattern Analysis and Machine Intelligence 12 (10) 993-1001 13 Rob J Hyndman, George Athanasopoulos, (2014), Forecasting: principles and practice, OTexts, Australia, pp 63-77 14 Kiyoshi Kawaguchi, (2000), A multithreaded software model for backpropagation neural network applications, MSc Thesis, The University of Texas at El Paso 54 15 Zabir Haider Khan, Tasnim Sharmin Alin, Md Akter Hussain, (2011), "Price prediction of share market using Artificial Neural Network (ANN)", International Journal of Computer Applications (0975 – 8887), Volume 22, No.2 16 Rushi Longadge, (2013), "Class Imbalance Problem in Data Mining: Review", International Journal of Computer Science and Network, vol 2, no 17 Jian Pei, Jiawei Han, Micheline Kamber, (2006), Data Mining: Concepts and Techniques, 2rd edition, Morgan Kaufmann, pp 327-337 18 Jian Pei, Jiawei Han, Micheline Kamber, (2011), Data Mining: Concepts and Techniques, 3rd edition, Morgan Kaufmann, pp 377-38 19 Mariela Qirici, Sebastian Franco, Jonathan Baiden, Craig Nesbitt, (2013), Forex Trading and Investment, Project Report, Worcester Polytechnic Insitute, pp 38-55 20 Saed Sayad, (2015), artificial neural network, http://www.saedsayad.com/artificial_neural_network.htm 21 Neural Network Toolbox (version 8.2.1 – R2014b), http://www.mathworks.com/help/stats/ 22 Joaquín Torres Sospedra, 2011 , Ensembles of Artificial Neural Network and development of design methods, Ph.D Thesis, The Universitat Jaume in Spanish 23 Dave Touretzky and Kornel Laskowski, 2006 , “Neural Networks for Time Series Prediction”, 15-486/782: Artificial Neural Network, School of Computer Science, Carnagie Mellon 24 Kuo-Cheng Tseng, Ojoung Kwon, Luna C Tjung, (2012), "Time series and neural network forecast of daily stock prices", Investment Management and Financial Innovations, vol 9, no 25 Zhi-Hua Zhou, Jianzin u, ei Tang, 2002 , “Ensembling neural networks: Many could be better than all”, Artificial Intelligence 137(1-2), pp 239-263