Nghiên cứu khai phá dữ liệu và ứng dụng phân tích xu thế thị trường chứng khoán

12 454 1
Nghiên cứu khai phá dữ liệu và ứng dụng phân tích xu thế thị trường chứng khoán

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ TR N T NG N P NT U UT P T NGỌ ỆU V TRƢỜNG NG NG LUẬN VĂN T Ạ SĨ HỆ THỐNG THÔNG TIN HÀ NỘI – 2015 NG O N ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ TR N T NG N P NT U UT P T NGỌ ỆU V TRƢỜNG NG NG NG O N Ngành: H thống th ng tin Chuyên ngành: H thống thông tin Mã số: 60 48 01 04 LUẬN VĂN T Ạ SĨ HỆ THỐNG THÔNG TIN NGƢỜ ƢỚNG DẪN KHOA HỌC: PGS.TS NGUYỄN HÀ NAM HÀ NỘI – 2015 Ờ M ĐO N T i xin cam đoan luận văn “Nghiên cứu khai phá li u ứng dụng phân tích xu thị trường chứng khoán" c ng trình nghiên cứu riêng t i Các số li u, kết trình bày luận văn hoàn toàn trung thực chưa c ng bố c ng trình khác T i trích dẫn đầy đủ tài li u tham khảo, c ng trình nghiên cứu liên quan Ngoại trừ tài li u tham khảo này, luận văn hoàn toàn nghiên cứu riêng t i Luận văn hoàn thành thời gian t i học viên Khoa C ng ngh th ng tin, Trường Đại học C ng ngh , Đại học Quốc gia Hà Nội Hà Nội, ngày 18 tháng 10 năm 2015 ọc viên Tr n T c N ọc Ờ ẢM ƠN Lời đầu tiên, t i xin gửi lời cảm ơn lòng biết ơn sâu sắc tới PGS.TS Nguyễn Hà Nam tận tình hướng dẫn t i suốt trình thực hi n luận văn tốt nghi p T i xin trân trọng cảm ơn Thầy, C giáo tận tình dạy, cung cấp cho t i kiến thức quý báu lu n nhi t tình giúp đỡ, tạo điều ki n thuận lợi suốt trình t i học tập Trường Đại học C ng ngh T i xin gửi lời cảm ơn tới bạn nhóm thầy Nguyễn Hà Nam hướng dẫn lu n sát cánh hỗ trợ cho t i suốt trình học tập trình làm luận văn Cuối cùng, t i muốn gửi lời cảm ơn tới gia đình, đồng nghi p bạn bè, người lu n bên cạnh, động viên tạo điều ki n tốt cho t i suốt trình học tập thực hi n luận văn tốt nghi p T i xin chân thành cảm ơn! M LỜI CAM ĐOAN LỜI CẢM ƠN MỤC LỤC AN MỤC AN MỤC ẢN MỞ Đ N I Đ tv n M c tiêu n Đối tƣợng nghiên c u P ƣơn p áp n iên c u iên c u u tr c uận văn Ch g N Q AN R ỜN C N O N C C Ỹ THUẬT TRUY N THỐNG 1.1 T trƣờn c n oán .9 1.2 Một số kỹ thuật dùng th trƣờng ch ng khoán 10 1.2.1 Phân tích kỹ thuật (Technical Analysis) 10 1.2.1.1 Biểu đồ dạng đường (Line chart) 11 1.2.1.2 Biểu đồ dạng then chắn (Bar chart) 11 1.2.1.3 Biểu đồ nến (Candlestick chart) 11 1.2.2 Một số báo kỹ thuật Technical Indicator 12 1.2.2.1 Tính hội tụ phân k đường trung bình động MACD (Moving Average Convergence Divergence) 12 1.2.2.2 MACD – Histogram 12 1.2.2.3 Dải băng Bollinger 13 1.2.2.4 Chỉ số sức mạnh tương đối RSI (Relative Strength Index) 13 1.2.2.5 Aroon 14 1.3 Kỹ thuật dự báo nâng cao 14 1.3.1 Phân tích hồi quy (Regression Analysis) 14 1.3.1.1 H số tương quan coefficient correlation 14 1.3.1.2 H số xác định coefficient of determination 15 1.3.2 Mô hình RIM utoRegressive Integrated Moving verage 15 1.3.2.1 Quá trình AR(p) 16 1.3.2.2 Quá trình MA(q) 16 1.3.2.3 Mô hình ARMA 16 1.3.2.4 Quá trình tích hợp I(d) 17 1.3.2.5 M hình RIM p,d,q t ng quát 17 t uận 18 1.4 Ch g 2.1 AI P I C C Ỹ THUẬT PHÂN TÍCH DỰ BÁO 19 Khai phá tri th c khai phá liệu 19 2.1.1 2.1.2 Khai phá tri thức 19 Khai phá li u 20 2.1.2.1 2.1.2.2 2.2 Mạng Neural nhân tạo (Artificial Neural Network) 22 2.2.1 2.2.2 2.2.3 2.2.4 2.2.5 2.3 Phân lớp 20 Đánh giá m hình phân lớp 21 Kiến trúc mạng Neural 22 Mạng Perceptron 23 Mạng MLP 24 Huấn luy n mạng Neural 25 Thuật toán lan truyền ngược (Back Propagation) 26 P ƣơn p áp ensemb e .28 2.3.1 2.3.2 2.3.3 Giới thi u phương pháp ensemble 28 Kỹ thuật Bagging 29 Kỹ thuật Boosting 29 t uận 31 2.4 Ch g P ƠN P P IẢI Q O N Ự O R ỜN C N 3.1 Xây dựn b i toán dự báo t trƣờn c ỰC N I M Đ N I C O I O N 32 n oán 32 3.1.1 Mô tả toán 32 3.1.1.1 Tính khả thi toán 32 3.1.1.2 C ng cụ hỗ trợ giải toán 32 3.1.2 Quy trình giải toán 32 3.1.2.1 Thu thập li u 33 3.1.2.2 Tiền xử lý li u 34 3.1.2.3 T chức li u 34 3.1.2.4 Huấn luy n m hình 35 3.1.2.5 Đánh giá m hình nhận x t kết 35 3.2 M n 3.3 Thực nghiệm 36 xu t .35 3.3.1 Mô hình ARIMA 36 3.3.2 M hình mạng neural truyền thống 37 3.3.2.1 Thực hi n dự đoán theo chu k T+1 37 3.3.2.2 Thực hi n dự đoán theo chu k T+4 39 3.3.3 Cải tiến 1: M hình mạng neural b sung số báo kỹ thuật 42 3.3.3.1 Phân lớp 42 3.3.3.2 Hồi quy 43 3.3.4 Cải tiến 2: Mạng neural có thêm báo sử dụng phương pháp ensemble 47 3.3.4.1 Phân lớp 47 3.3.4.2 Hồi quy 47 3.4 P ntc 3.5 K t luận 51 49 K T LUẬN 52 I I AM ẢO 53 N M N V Hình 1.1: Biểu đồ dạng đường 11 Hình 1.2: Biểu đồ dạng then chắn .11 Hình 1.3 Biểu đồ dạng nến 11 Hình 2.1: Phương pháp Holdout toán phân lớp 22 Hình 2.2: Mạng truyền thẳng 22 Hình 2.3: Mạng phản hồi 23 Hình 2.4: M hình Perceptron .23 Hình 2.5: M hình mạng MLP 25 Hình 2.6: M hình trình huấn luy n mạng MLP b ng thuật toán lan truyền ngược 26 Hình 2.7: Giải thuật thuật toán lan truyền ngược 27 Hình 2.8: Phương pháp Ensemble .28 Hình 3.1: Quy trình giải toán .32 Hình 3.2: M hình mạng Neural giải toán dự báo chứng khoán 33 Hình 3.3: M hình đề xuất: Mạng Neural có b sung thêm báo kỹ thuật .35 Hình 3.4: M hình đề xuất: Mạng neural có thêm báo sử dụng phương pháp ensemble 36 Hình 3.5: Luồng công vi c thực nghi m 36 Hình 3.6: T l lỗi qua lần Epoch m hình mạng Neural .38 Hình 3.7: T l lỗi MSE 38 Hình 3.8: H số tương quan R 38 Hình 3.9: T l lỗi qua lần Epoch m hình mạng Neural 39 Hình 3.10: Biểu đồ thống kê kết dự báo mô hình mạng neural theo tiếp cận phân lớp .40 Hình 3.11: T l lỗi MSE 40 Hình 3.12: H số tương quan R 40 Hình 3.13: Biểu đồ thể hi n giá trị MSE h số tương quan qua 20 lần kiểm nghi m 41 Hình 3.14: T l lỗi qua Epoch m hình mạng Neural 42 Hình 3.15: Biểu đồ thống kê kết dự báo theo hướng tiếp cận phân lớp sau cải tiến .43 Hình 3.16: T l lỗi MSE 44 Hình 3.17: H số tương quan R 44 Hình 3.18: Biểu đồ thể hi n giá trị MSE h số tương quan qua 20 lần kiểm nghi m 44 Hình 3.19: H số tương quan R b ng phương pháp Ensemble cho mạng neural 48 Hình 3.20: Đồ thị giá đóng cửa thực tế giá dự đoán 49 N M ẢNG U Bảng 3.1: Dữ li u c phiếu MSFT 33 Bảng 3.2: So sánh kết thực nghi m b ng m hình rima 37 Bảng 3.3: Kết dự đoán b ng m hình rima 37 Bảng 3.4: Kết phân lớp b ng mạng Neural 39 Bảng 3.5: Kết dự đoán phân tích hồi quy b ng mạng Neural truyền thống 41 Bảng 3.6: So sánh giá trị MAPE trung bình nhiều mô hình .42 Bảng 3.7: Kết phân lớp b ng mạng Neural 43 Bảng 3.8: Kết dự đoán phân tích hồi quy b ng mạng Neural cải tiến .45 Bảng 3.9: Kết sử dụng mạng neural để phân lớp li u 46 Bảng 3.10: Kết sử dụng mạng neural để phân tích hồi quy li u .46 Bảng 3.11: Kết dự đoán mạng Neural truyền thống mạng Neural cải tiến 46 Bảng 3.12: Kết phân lớp b ng phương pháp Ensemble cho mạng neural 47 Bảng 3.13: T ng hợp kết dự đoán nhiều mô hình thực nghi m 48 Bảng 3.14: Lời khuyên cho nhà đầu tư chứng khoán 51 MỞ Đ U Đ tv n Sự phát triển công ngh thông tin ứng dụng công ngh thông tin nhiều lĩnh vực đời sống, kinh tế xã hội sản sinh lượng li u kh ng lồ Các phương pháp quản trị khai thác li u thủ công, truyền thống tỏ hi u trước nhu cầu khai thác phát hi n th ng tin có giá trị ẩn chứa lượng lớn li u Sự đời kỹ thuật khai phá tri thức (Knowledge Discovery in Databases) khai phá li u Data Mining đem lại hi u cao vấn đề khai thác phát hi n tri thức, áp dụng nhiều lĩnh vực khác Đặc bi t m i trường kinh doanh, người ta mong muốn có thật nhiều thông tin hữu ích để hỗ trợ kinh doanh hi u Trong đó, nhu cầu dự báo cho thị trường chứng khoán để hạn chế rủi ro thua lỗ t chức nhà đầu tư cá nhân đặt làm mối quan tâm hàng đầu Dự đoán xu thị trường chứng khoán c ng vi c kh ng đơn giản Sự không tuyến tính thị trường kèm theo tác động nhiều yếu tố bên làm ảnh hưởng tới giá thị trường chứng khoán Do đó, vi c xây dựng h thống phân tích dự báo với tiêu chí đầy đủ, khách quan khoa học định tính định lượng, góc độ tài phi tài cần thiết M c tiêu n iên c u Luận văn tập trung nghiên cứu hai phương pháp định tính định lượng với mong muốn có h thống dự đoán xu thị trường chứng khoán đủ mạnh hỗ trợ đắc lực cho nhà đầu tư chứng khoán Đối tƣợn n iên c u Đối tượng mà luận văn nghiên cứu xu thị trường chứng khoán Cụ thể, t i sử dụng giá c phiếu MSFT công ty Microsoft Corporation thu thập từ trang finance.yahoo.com niêm yết sàn NASDAQ (National Association of Securities Dealers Automated Quotations) để tiến hành dự đoán P ƣơn p áp n iên c u Luận văn tập trung vào vi c tìm hiểu m hình khai phá li u phân tích kỹ thuật dùng lĩnh vực chứng khoán theo hai phương pháp định tính định lượng Luận văn thực hi n vi c kết hợp mô hình khai phá li u: mạng neural phân tích kỹ thuật bản, sử dụng phương pháp ensemble giúp gia tăng độ xác cho mạng neural để đưa đánh giá nh m hỗ trợ nhà đầu tư vi c định mua bán c phiếu 8 u tr c uận văn Bố cục luận văn trình bày chương ƣơn 1: Tổng quan v th trƣờn c n oán v kỹ thuật truy n thống Chương trình bày số kiến thức tảng thị trường chứng khoán, phương pháp nghiên cứu đặc trưng thị trường chứng khoán thông qua biểu đồ, báo M CD, dải băng Bollinger, RSI, roon Và tìm hiểu mô hình hồi quy ARIMA chuyên dụng vi c dự đoán giá thị trường chứng khoán ƣơn 2: K p iệu v ỹ t uật p n t c dự báo T i tìm hiểu đặc trưng lĩnh vực khai phá tri thức, khai phá li u toán đặc trưng lĩnh vực M hình mạng neural m hình khai phá li u điển hình, có khả áp dụng cao cho toán phân tích xu thị trường chứng khoán Ngoài để gia tăng độ xác cho m hình khai phá li u, phương pháp ensemble coi giải pháp tối ưu Chương chủ yếu xây dựng kiến thức tảng để t i tiến hành thực nghi m chương sau ƣơn 3: P ƣơn p áp iải quy t, thực nghiệm v dự báo th trƣờng ch ng khoán án iá c o b i toán Nội dung chủ yếu chương áp dụng m hình tìm hiểu vào vi c dự báo thị trường chứng khoán Đầu tiên, t i tiến hành thực nghi m toán với mô hình truyền thống: RIM mạng neural Tiếp t i cải tiến độ xác cho mạng neural, b ng cách sử dụng li u chứng khoán b sung thêm số báo kỹ thuật M CD, RSI, roon Nh m gia tăng độ xác cho m hình mạng neural tiếp tục cải tiến lần với kỹ thuật ensemble Cuối cùng, tiến hành đánh giá kết dự đoán mô hình để tìm lời khuyên tin cậy cho nhà đầu tư, nhà kinh doanh chứng khoán 53 T ỆU T M ẢO Ti n việt: Nguyễn Trọng Hoài, Phùng Thanh Bình, Nguyễn Khánh Duy, (2009), Dự Báo Phân Tích Dữ Liệu Kinh Tế Tài Chính, NXB Thống Kê Nguyễn Minh Phong, 2007 , "Nhận di n rủi ro đầu tư chứng khoán," ạp h ài h nh 511 Hà Quang Thụy, 2013 , ài giảng nhập m n h i phá liệu, Đại học C ng Ngh ĐHQG Hà Nội Ti n an : E Barnard, L Wessels, (1992), "Avoiding False Local Minima by Proper Initialization of Connections", IEEE Trans on Neural Networks, vol 3, no 6, pp 809905 E Bauer, R Kohavi, 1999 , “ n empirical comparison of voting classification algorithms: Bagging, Boosting and variants”, Machine Learning 36 (1-2) (1999), pp 105-139 G Box, G Jenkins, (1970), Time series analysis: Forecasting and control, Wiley, San Francisco Samprit A Chattefuee, Ali S Hadi, (2006), Regression Analysis by Example, Fourth Edition, Wiley Interscience, Canada, pp 1, 21-44 H Demuth, M Beale, (1998), Neural network toolbox for use with MATLAB, The MathWorks Inc., Massachusetts, USA H Drucker, R Schapire, P Simard, 1993 , “Improving performance in neural networks using a boosting algorithm”, Advances in Neural Information Processing Systems 5, California, pp 42-49 10 B Efron, R Tibshirani, (1993), An Introduction to the Bootstrap, Chapman & Hall, New York 11 David Hand, Heikki Mannila, Padhraic Smyth, (2001), Principles of Data Mining, MIT Press, Massachusetts 12 L.K Hansen, P Salamon, “Neural network ensembles”, 1990 , IEEE Trans Pattern Analysis and Machine Intelligence 12 (10) 993-1001 13 Rob J Hyndman, George Athanasopoulos, (2014), Forecasting: principles and practice, OTexts, Australia, pp 63-77 14 Kiyoshi Kawaguchi, (2000), A multithreaded software model for backpropagation neural network applications, MSc Thesis, The University of Texas at El Paso 54 15 Zabir Haider Khan, Tasnim Sharmin Alin, Md Akter Hussain, (2011), "Price prediction of share market using Artificial Neural Network (ANN)", International Journal of Computer Applications (0975 – 8887), Volume 22, No.2 16 Rushi Longadge, (2013), "Class Imbalance Problem in Data Mining: Review", International Journal of Computer Science and Network, vol 2, no 17 Jian Pei, Jiawei Han, Micheline Kamber, (2006), Data Mining: Concepts and Techniques, 2rd edition, Morgan Kaufmann, pp 327-337 18 Jian Pei, Jiawei Han, Micheline Kamber, (2011), Data Mining: Concepts and Techniques, 3rd edition, Morgan Kaufmann, pp 377-38 19 Mariela Qirici, Sebastian Franco, Jonathan Baiden, Craig Nesbitt, (2013), Forex Trading and Investment, Project Report, Worcester Polytechnic Insitute, pp 38-55 20 Saed Sayad, (2015), artificial neural network, http://www.saedsayad.com/artificial_neural_network.htm 21 Neural Network Toolbox (version 8.2.1 – R2014b), http://www.mathworks.com/help/stats/ 22 Joaquín Torres Sospedra, 2011 , Ensembles of Artificial Neural Network and development of design methods, Ph.D Thesis, The Universitat Jaume in Spanish 23 Dave Touretzky and Kornel Laskowski, 2006 , “Neural Networks for Time Series Prediction”, 15-486/782: Artificial Neural Network, School of Computer Science, Carnagie Mellon 24 Kuo-Cheng Tseng, Ojoung Kwon, Luna C Tjung, (2012), "Time series and neural network forecast of daily stock prices", Investment Management and Financial Innovations, vol 9, no 25 Zhi-Hua Zhou, Jianzin u, ei Tang, 2002 , “Ensembling neural networks: Many could be better than all”, Artificial Intelligence 137(1-2), pp 239-263 [...]...53 T ỆU T M ẢO Ti n việt: 1 Nguyễn Trọng Hoài, Phùng Thanh Bình, Nguyễn Khánh Duy, (2009), Dự Báo và Phân Tích Dữ Liệu trong Kinh Tế và Tài Chính, NXB Thống Kê 2 Nguyễn Minh Phong, 2007 , "Nhận di n rủi ro trong đầu tư chứng khoán, " ạp h ài h nh 5 511 3 Hà Quang Thụy, 2013 , ài giảng nhập m n h i phá dữ liệu, Đại học C ng Ngh ĐHQG Hà Nội Ti n an : 4 E Barnard, L Wessels, (1992), "Avoiding False Local

Ngày đăng: 27/08/2016, 22:34

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan