Tìm hiểu một số mô hình khai phá dữ liệu thời gian thực áp dụng vào bài toán dự báo ứng dụng trong phân tích số liệu tài chính luận văn ths công nghệ thông tin 60 48 01 04 pdf
Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 73 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
73
Dung lượng
1,59 MB
Nội dung
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ PHẠM THỊ THẢO TÌM HIỂU MỘT SỐ MÔ HÌNH KHAI PHÁ DỮ LIỆU THỜI GIAN THỰC ÁP DỤNG VÀO BÀI TOÁN DỰ BÁO ỨNG DỤNG TRONG PHÂN TÍCH SỐ LIỆU TÀI CHÍNH LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN HÀ NỘI - 2015 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ PHẠM THỊ THẢO TÌM HIỂU MỘT SỐ MÔ HÌNH KHAI PHÁ DỮ LIỆU THỜI GIAN THỰC ÁP DỤNG VÀO BÀI TOÁN DỰ BÁO ỨNG DỤNG TRONG PHÂN TÍCH SỐ LIỆU TÀI CHÍNH Ngành: Công nghệ thông tin Chuyên ngành: Hệ thống thông tin Mã số: 60480104 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS NGUYỄN HÀ NAM HÀ NỘI – 2015 LỜI CAM ĐOAN Tôi xin cam đoan luận văn “Tìm hiểu số mô hình khai phá liệu thời gian thực áp dụng vào toán dự báo ứng dụng phân tích số liệu tài chính" công trình nghiên cứu riêng Các số liệu, kết trình bày luận văn hoàn toàn trung thực chưa công bố công trình khác Tôi trích dẫn đầy đủ tài liệu tham khảo, công trình nghiên cứu liên quan Ngoại trừ tài liệu tham khảo này, luận văn hoàn toàn nghiên cứu riêng Luận văn hoàn thành thời gian học viên Khoa Công nghệ Thông tin, Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội Hà Nội, ngày 25 tháng 05 năm 2015 Học viên Phạm Thị Thảo LỜI CẢM ƠN Lời đầu tiên, xin gửi lời cảm ơn lòng biết ơn sâu sắc tới PGS.TS Nguyễn Hà Nam tận tình hướng dẫn suốt trình thực luận văn tốt nghiệp Tôi xin trân trọng cảm ơn Thầy, Cô giáo tận tình dạy, cung cấp cho kiến thức quý báu nhiệt tình giúp đỡ, tạo điều kiện thuận lợi suốt trình học tập trường Đại học Công nghệ Tôi xin gửi lời cảm ơn tới bạn nhóm thầy Nguyễn Hà Nam hướng dẫn sát cánh hỗ trợ cho suốt trình học tập trình làm luận văn Cuối cùng, muốn gửi lời cảm ơn tới gia đình, đồng nghiệp bạn bè, người bên cạnh, động viên tạo điều kiện tốt cho suốt trình học tập thực luận văn tốt nghiệp Tôi xin chân thành cảm ơn! MỤC LỤC LỜI CAM ĐOAN LỜI CẢM ƠN MỤC LỤC BẢNG CÁC TỪ VIẾT TẮT DANH MỤC BẢNG BIỂU DANH MỤC CÁC HÌNH VẼ, BIỂU ĐỒ MỞ ĐẦU Chương MỘT SỐ KIẾN THỨC CƠ BẢN VỀ TÀI CHÍNH 10 1.1 Một số khái niệm tài 10 1.1.1 Phân tích tài 10 1.1.2 Phương pháp phân tích tài 10 1.1.3 Dự báo tình hình tài 12 1.2 Phân tích kỹ thuật dự báo thị trường chứng khoán 12 1.2.1 Thị trường chứng khoán 12 1.2.2 Phân tích kỹ thuật 13 1.3 Kết luận 16 Chương MỘT SỐ MÔ HÌNH TRONG BÀI TOÁN DỰ BÁO 17 2.1 Tổng quan khai phá liệu thời gian thực 17 2.2 Phân lớp liệu 19 2.3 Một số mô hình dùng khai phá liệu thời gian thực 20 2.3.1 Mô hình mạng nơ-ron nhân tạo (ANN – Artificial Neural Network) 20 2.3.2 Mô hình máy vector hỗ trợ (SVM) 34 2.4 Mô hình ARIMA 38 2.4.1 Hàm tự tương quan ACF 38 2.4.2 Hàm tự tương quan phần PACF 39 2.4.3 Quá trình tự hồi quy AR(p) 42 2.4.4 Quá trình trung bình trượt MA(q) 42 2.5 Kết luận 43 Chương PHƯƠNG PHÁP GIẢI QUYẾT BÀI TOÁN 44 3.1 Giới thiệu toán 44 3.2 Xây dựng mô hình 44 3.3 Thu thập tiền xử lý liệu 46 3.3.1 Thu thập liệu 46 3.3.2 Tiền xử lý liệu 47 3.4 Tổ chức liệu 49 3.5 Huấn luyện mạng 49 3.6 Đánh giá mô hình dự báo kết 51 3.7 Kết luận 52 Chương THỰC NGHIỆM VÀ ĐÁNH GIÁ 53 4.1 Môi trường thực nghiệm 53 4.2 Dữ liệu dùng thực nghiệm 53 4.3 Kết thực nghiệm 57 4.3.1 Kết chạy với mô hình ANN 57 4.3.2 Kết chạy với mô hình máy vector hỗ trợ (SVM) 60 4.3.3 Kết chạy với mô hình ARIMA 65 4.4 So sánh đánh giá kết 66 4.5 Kết luận 69 KẾT LUẬN 70 TÀI LIỆU THAM KHẢO 71 BẢNG CÁC TỪ VIẾT TẮT Viết tắt MA EMA Tên đầyđủ Moving Average Exponential Moving Average RSI Relative Strength Index NN Neural Network ANN Artificial Neural Network SVM Support Vector Machine KDD Knowledge Discorvery and Data Mining PTKT Phân tích kỹ thuật DM Data mining MLP Multi-Layer Perceptron ARIMA Autoregressive integrated moving average DN Doanh nghiệp CK Chứng khoán PTKT Phân tích kỹ thuật DANH MỤC BẢNG BIỂU Bảng 2.1 Các hàm chuyển 25 Bảng 3.1 Tổ chức liệu IBM 46 Bảng 3.2 Tổ chức liệu mô hình 48 Bảng 4.1 Các trường hợp tham số đầu vào mạng nơ-ron 59 Bảng 4.2 Kết độ xác mô hình ANN 67 Bảng 4.3 Kết độ xác mô hình SVM 68 Bảng 4.4 So sánh kết trung bình mô hình ANN SVM 68 Bảng 4.5 Kết đưa lời khuyên cho người dùng 68 DANH MỤC CÁC HÌNH VẼ, BIỂU ĐỒ Hình 1.1 Biểu đồ dạng đường 14 Hình 1.2 Biểu đồ dạng then chắn 15 Hình 1.3 Kí tự biểu đồ dạng then chắn 15 Hình 1.4 Biểu đồ dạng nến 16 Hình 2.1 Mô hình khai phá liệu 17 Hình 2.2 Mô hình nơ-ron sinh học 20 Hình 2.3 Cấu trúc nơ-ron 22 Hình 2.4 Cách tính hàm tổng 23 Hình 2.5 Cấu trúc mạng nơ-ron 24 Hình 2.6 Hàm sigmoid 32 Hình 2.7 Siêu phẳng phân chia liệu theo phương pháp SVM 35 Hình 2.8 Minh họa toán phân lớp nhị phân phương pháp SVM 36 Hình 2.9 Ví dụ chiều hướng giảm khác [2] 41 Hình 3.1 Mô hình dự báo đề xuất 45 Hình 3.2 Tạo tập huấn luyện mạng nơ-ron 50 Hình 3.3 Quá trình dự đoán mô hình mạng nơ-ron 52 Hình 4.1 Giá đóng cửa số lượng giao dịch 54 Hình 4.2 Biểu đồ thể tính mùa vụ close volume 54 Hình 4.3 Đồ thị giá đóng cửa MA10, MA20 55 Hình 4.4 Đồ thị biểu diễn giá đóng cửa, MA10 EMA 55 Hình 4.5 Kết dự đoán mô hình mạng nơ-ron 58 Hình 4.6 Kết dự đoán mô hình mạng nơ-ron với tham số tối ưu 59 Hình 4.7 Mô hình mạng nơ-ron với tham số tối ưu theo phương pháp vét cạn 60 Hình 4.8 Kết dự đoán mô hình SVM 61 Hình 4.9 Mô hình dự đoán SVM tối ưu theo phương pháp vét cạn 62 Hình 4.10 Sơ đồ trình kết hợp giải thuật GA –SVM 63 Hình 4.11 Kết mô hình dự đoán SVM tối ưu theo phương pháp GA 64 Hình 4.12 Kết dự đoán mô hình ARIMA kết hợp phương pháp vét cạn 66 MỞ ĐẦU Dữ liệu tài nguồn liệu vô phong phú giai đoạn Đặc biệt, phát triển mạnh mẽ công nghệ thông tin mạng internet giúp người dễ dàng tiếp cận với kho liệu khổng lồ Tuy nhiên, thực tế, người cần phải biết chắt lọc, chọn lựa thông tin có ích nhằm phân tích, khai thác, phát tri thức bên liệu cách hiệu Các phương pháp quản trị khai thác liệu thủ công, truyền thống tỏ hiệu trước nhu cầu khai thác phát thông tin giai đoạn Từ đó, kỹ thuật phát tri thức khai phá liệu (KDD – Knowledge Discorvery and Data Mining) đời đem lại hiệu cao vấn đề khai thác phát tri thức, áp dụng nhiều lĩnh vực khác nhau, đặc biệt quản lý vĩ mô kinh doanh mà cụ thể thị trường chứng khoán Việc dự đoán thị trường chứng khoán toán nhiều người quan tâm Sự không tuyến tính thị trường kèm theo tác động nhiều yếu tố bên làm ảnh hưởng tới trình thay đổi thị trường chứng khoán Vì vậy, làm để dự đoán xác lên xuống thị trường toán mà nhà đầu tư quan tâm, tìm hiểu, nghiên cứu phân tích Đã có nhiều nghiên cứu giới (trong có Việt Nam) toán dự báo thị trường chứng khoán sử dụng mô hình khai phá liệu khác Năm 2001, Efstathios Kalyvas phân tích thị trường chứng khoán sử dụng mô hình mạng nơ-ron đạt kết định Và đây, năm 2007 luận văn thạc sĩ học viên Phạm Thị Hoàng Nhung (ĐHQGHN) nghiên cứu mạng nơ-ron ứng dụng vào dự báo lưu lượng nước đến hồ Hòa Bình với kết dự báo xác lớn 80% Trong khuôn khổ luận văn, tác giả tập trung tìm hiểu nghiên cứu số mô hình khai phá liệu thời gian thực áp dụng cho toán phân tích thị trường chứng khoán, cụ thể mô hình mạng nơ-ron nhân tạo, mô hình máy vector hỗ trợ mô hình arima Mục tiêu luận văn áp dụng giải thuật gen di truyền để tối ưu mô hình mạng nơ-ron mô hình máy vector hỗ trợ, từ so sánh, đánh giá để tìm mô hình phù hợp với liệu ban đầu Sau đó, luận văn đưa lời khuyên cho người chơi nên mua, bán hay giữ nguyên cổ phiếu phiên Luận văn trình bày chương sau: Chương 1: Một số khái niệm tài Trong chương này, tác giả giới thiệu số khái niệm tài thị trường chứng khoán Chương luận văn tập trung nghiên cứu số chứng khoán phân tích kỹ thuật ứng dụng dự báo chứng khoán Chương 2: Tổng quan khai phá liệu thời gian thực 57 Đầu tiên, việc phân chia liệu tập train tập test theo tỷ lệ 7:3, tức tập liệu đem training chiếm 70% tập liệu ban đầu Tập liệu đem thử nghiệm mô hình chiếm 30% tập liệu ban đầu Cụ thể, tập training ngày 02/01/1962 đến ngày 31-12-1999 Tập test ngày 01-01-2000 đến ngày 31/12/2014 ibm.train library(nnet) > nn > ar ar$aic [1] -40040.93 > > ar ar$aic [1] -40041.69 b Kết chạy mô hình ARIMA với tham số tối ưu phương pháp vét cạn best.order[...]... quan về khai phá dữ liệu thời gian thực và một số mô hình dùng trong khai phá dữ liệu như mô hình mạng nơ-ron nhân tạo (ANN), mô hình máy vector hỗ trợ (SVM) và mô hình Arima Chương 3: Mô hình dự báo thị trường chứng khoán Chương 3 tập trung vào tìm hiểu về mô hình dự báo trong thị trường chứng khoán Nội dung chủ yếu là lý thuyết tìm hiểu về quy trình trong bài toán khai phá dữ liệu áp dụng cho dự báo. .. những khoảng thời gian rời rạc, cách đều nhau Các mô hình chuỗi thời gian được đặc biệt áp dụng trong dự báo ngắn hạn Trong các bài toán dự báo nói chung và các bài toán dự báo tài chính và chứng khoán nói riêng, dữ liệu thường được biểu diễn dưới dạng chuỗi thời gian Trong các dạng dữ liệu được phân tích thì dữ liệu chuỗi thời gian luôn thuộc tốp đầu về tính phổ biến Khai phá dữ liệu thời gian thực ở đây... của việc phân tích tài chính doanh nghiệp nói riêng và phân tích tình hình tài chính của một quốc gia nói chung 1.1.2 Phương pháp phân tích tài chính Để tiến hành phân tích tài chính, thông thường người ta sử dụng kết hợp nhiều phương pháp phân tích để đánh giá tình hình doanh nghiệp một cách xác thực và tối ưu Phương pháp chủ yếu hiện nay là phương pháp so sánh và phân tích tỉ lệ [1] Phương pháp so sánh:... 1.1.3 Dự báo tình hình tài chính Dự báo tình hình tài chính là một yêu cầu cần thiết để kế hoạch hoá tài chính ngắn hạn có hiệu quả Thay cho việc phán quyết, các dự báo được dựa vào các nguồn dữ liệu và các phương pháp dự báo khác nhau Nhưng nhìn chung, chủ yếu vẫn sử dụng các mô hình kinh tế lượng, các tính toán qua lại của các biến số kinh tế Trong các trường hợp khác, nhà dự báo tài chính có thể sử dụng. .. theo thời gian Phương pháp phân tích tỷ lệ Phương pháp này được áp dụng phổ biến trong phân tích tài chính vì nó dựa trên ý nghĩa chuẩn mực các tỷ lệ của đại lượng tài chính trong các quan hệ tài chính Phương pháp tỷ lệ giúp các nhà phân tích khai thác có hiệu quả những số liệu và phân tích một cách có hệ thống hàng loạt tỷ lệ theo chuỗi thời gian liên tục hoặc theo từng giai đoạn Qua đó nguồn thông tin. .. Khai phá dữ liệu giúp cho người dùng tiết kiệm thời gian trong quá trình đưa ra quyết định của mình 18 Vậy, Khai phá dữ liệu là một tập hợp các kỹ thuật được sử dụng để tự động khai thác và tìm ra các mối quan hệ lẫn nhau của dữ liệu trong một tập hợp dữ liệu khổng lồ và phức tạp, đồng thời cũng tìm ra các mẫu tiềm ẩn trong tập dữ liệu đó Khai phá dữ liệu là một bước trong bảy bước của quá trình khai. .. kiến thức cơ bản về thị trường chứng khoán và các phương pháp phân tích kỹ thuật trong thị trường chứng khoán 17 Chương 2 MỘT SỐ MÔ HÌNH TRONG BÀI TOÁN DỰ BÁO 2.1 Tổng quan về khai phá dữ liệu thời gian thực Cùng với sự bùng nổ của công nghệ thông tin làm cho kho dữ liệu của chúng ta ngày càng tăng lên một cách nhanh chóng Hàng ngày, chúng ta tiếp nhận nhiều thông tin từ nhiều nguồn khác nhau Vậy... được hiểu là việc khai phá dữ liệu dựa trên dữ liệu chuỗi thời gian 2.2 Phân lớp dữ liệu Phân lớp (Classification) là việc phân loại các mẫu thành một tập rời rạc của các nhóm có thể Phân lớp là một quá trình gồm hai bước Bước thứ nhất (huấn luyện - learning) Quá trình học nhằm xây dựng một mô hình mô tả một tập các lớp dữ liệu hay các khái niệm định trước Mô hình này được xây dựng bằng cách phân tích. .. trên dữ liệu hiện thời Để thực hiện nhiệm vụ trên, trong khai phá dữ liệu ta có các phương pháp thông dụng là: Phân cụm dữ liệu, Phân lớp dữ liệu, Hồi quy và Khai phá luật kết hợp Phân cụm (Clustering): Nhằm nhóm các đối tượng tương tự nhau trong tập dữ liệu vào các cụm sao cho các đối tượng thuộc cùng một lớp là tương đồng còn các đối tượng thuộc các cụm khác nhau sẽ không tương đồng Phân lớp dữ liệu. .. phương pháp phân lớp cơ bản - Phương pháp cây quyết định - Phương pháp Naïve Bayes - Phương pháp k láng giềng - Phương pháp mạng nơ-ron - Phương pháp máy vector hỗ trợ 2.3 Một số mô hình dùng trong khai phá dữ liệu thời gian thực 2.3.1 Mô hình mạng nơ-ron nhân tạo (ANN – Artificial Neural Network) a Giới thiệu sơ lược về mô hình mạng nơ-ron Mạng nơ-ron sinh học Hệ thống thần kinh con người (hình 2.2) ... HèNH KHAI PH D LIU THI GIAN THC P DNG VO BI TON D BO NG DNG TRONG PHN TCH S LIU TI CHNH Ngnh: Cụng ngh thụng tin Chuyờn ngnh: H thng thụng tin Mó s: 604 8010 4 LUN VN THC S CễNG NGH THễNG TIN NGI... 1962 -01- 02 578.5 578.5 572 572 387200 1962 -01- 03 572 577 572 577 288000 1962 -01- 04 577 577 571 571.25 2 5600 0 1962 -01- 05 570.5 570.5 559 560 363200 1962 -01- 08 559.5 559.5 545 549.5 544000 1962 -01- 09... dng chui thi gian Trong cỏc dng d liu c phõn tớch thỡ d liu chui thi gian luụn thuc u v tớnh ph bin Khai phỏ d liu thi gian thc õy c hiu l vic khai phỏ d liu da trờn d liu chui thi gian 2.2 Phõn