LUẬN VĂN: ỨNG DỤNG MÔ HÌNH HỌC MÁY TIÊN TIẾN NHẰM TĂNG CƯỜNG KHẢ NĂNG DỰ BÁO XU THẾ CỦA THỊ TRƯỜNG CHỨNG KHOÁN ppt

74 435 2
LUẬN VĂN: ỨNG DỤNG MÔ HÌNH HỌC MÁY TIÊN TIẾN NHẰM TĂNG CƯỜNG KHẢ NĂNG DỰ BÁO XU THẾ CỦA THỊ TRƯỜNG CHỨNG KHOÁN ppt

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

1 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Đinh Thị Thùy Trang ỨNG DỤNG HÌNH HỌC MÁY TIÊN TIẾN NHẰM TĂNG CƯỜNG KHẢ NĂNG DỰ BÁO XU THẾ CỦA THỊ TRƯỜNG CHỨNG KHOÁN KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công nghệ thông tin HÀ NỘI - 2010 2 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Đinh Thị Thùy Trang ỨNG DỤNG HÌNH HỌC MÁY TIÊN TIẾN NHẰM TĂNG CƯỜNG KHẢ NĂNG DỰ BÁO XU THẾ CỦA THỊ TRƯỜNG CHỨNG KHOÁN KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công nghệ thông tin Cán bộ hướng dẫn: TS. Nguyễn Hà Nam HÀ NỘI-2010 i LỜI CẢM ƠN “Để hoàn thành khóa luận này, tôi xin gửi lời cảm ơn tới các thầy, cô giáo trong trường Đại học Công nghệ - Đại học Quốc gia Hà Nội. Các thầy cô đã dạy bảo, chỉ dẫn và luôn tạo điều kiện tốt nhất cho tôi học tập trong suốt quá trình học đại học đặc biệt là trong thời gian làm khóa luận tốt nghiệp Tôi xin bày tỏ lòng biết ơn sâu sắc tới thầy giáo TS. Nguyễn Hà Nam, thầy đã tận tình hướng dẫn tôi trong năm học vừa qua. Tôi cũng thầm biết ơn những người bạn của mình, các bạn đã luôn ở bên tôi, giúp đỡ và cho tôi những ý kiến đóng góp quý báu trong học tập cũng như trong cuộc sống. Cuối cùng, tôi xin gửi tới bố mẹ và toàn thể gia đình lòng biết ơn và tình cảm yêu thương nhất. Con xin dành tặng bố mẹ kết quả mà con đã đạt được trong suố t bốn năm học đại học. Con cảm ơn bố mẹ nhiều và cả các em nữa.” Hà nội, ngày 20/05/2010 ii Tóm tắt khóa luận Ngày nay, cách thức kiếm tiền và sử dụng đồng tiền của các nhà đầu tư cũng có nhiều thay đổi. Hầu hết mọi người đều đầu tư vào chứng khoán, họ cho rằng đó là một cách đầu tư thông minh và những đồng tiền ấy là đồng tiền thông minh. Nhưng thị trường chứng khoán luôn có những yếu tố bất ngờ không theo ý muốn chủ quan của ai, có lúc tăng nhanh sau đó giảm m ột cách đột ngột, có lúc thì liên tục tăng mà chưa có dấu hiệu giảm xuống.…Do vậy dự đoán được xu thế của thị trường chứng khoán là một vấn đề quan trọng đầu tư tài chính. Thị trường sẽ diễn biến ra sao, đầu tư vào chứng khoán ở thời điểm này có được hay không, phụ thuộc rất nhiều vào kết quả dự đoán của chúng ta chính xác ra sao Trong khóa luận này, tôi xin giớ i thiệu một kỹ thuật được sử dụng nhiều trong khai phá dữ liệu, có hiệu quả cao trong dự đoán, xây dựng hình dự báo đơn giản, nhanh chóng và dễ hiểu. Đó là hình cây quyết định, khóa luận đã tìm hiểu cấu trúc, hoạt động của cây quyết định, các độ đo dùng để chia cắt các thuộc tính và các thuật toán đặc biệt là thuật toán C4.5 mà khóa luận sử dụng để xây dựng cây. Từ đó, thiế t kế hình cây quyết định cho dữ liệu thời gian thực (time series) áp dụng trong dự báo xu thế của thị trường chứng khoán được trình bày chi tiết. Khóa luận đã thực nghiệm trên dữ liệu VnIndex và đã thu được những kết quả bước đầu Từ khóa: data mining, decision tree, time series, stock trend prediction, weka…. iii MỤC LỤC LỜI CẢM ƠN i TÓM TẮT KHÓA LUẬN ii MỤC LỤC iii DANH MỤC HÌNH VẼ vi DANH MỤC BẢNG BIỂU vii Chương 1.Giới thiệu các kiến thức cơ!Äở 1 1.1. Khai phá dự liệu 1 1.1.1. Khai phá dữ liệu là gì 1 1.1.2. Quá trình khai phá dữ liệu 1 1.1.3. Các phương pháp khai phá dữ liệu 2 1.1.4. Sự cần thiết phải có khai phá dữ liệu 2 1.1.5. Một số khó khăn gặp phải khi xây dựng quá trình khai phá dữ liệu 3 1.1.6. Các lĩnh vực ứng dụng 4 1.2.  Phân lớp và dự báo 4 1.2.1. Định nghĩa 4 1.2.2. Các bước để phân lớp và dự báo 5 1.2.3. Độ chính xác trong phân lớp và dự báo 8 1.2.4. Một số bài toán phân lớp và dự báo điển hình 8 1.3.  Bài toán dự báo xu thế thị trường chứng khoán 9 1.4. Nội dung và cấu trúc của khóa luận 10 Chương 2.Tổng quan về cây quyết định 12 iv 2.1.  Định nghĩa 12 2.2. Cấu trúc 12 2.3. Các kiểu cây quyết định 13 2.4. Các độ đo sử dụng để xác định điểm chia tốt nhất 13 2.4.1. Độ lợi thông tin (Information Gain) 14 2.4.2. Độ đo tỷ lệ Gain (Gain ratio) 15 2.4.3. Chỉ số Gini (Gini index) 15 2.5.  Cắt tỉa cây (thu gọn cây) 17 2.6. Rút ra quy tắc phân lớp từ cây quyết định 18 2.7. Các thuật toán trong cây quyết định 19 2.8. Quá trình tạo cây quyết định 21 2.8.1. Khả năng học và tổng quát hóa 21 2.8.2. Các phương pháp huấn luyện cây 21 2.9.  Giải thuật C4.5 22 Tổng kết 25 Chương 3.Mô hình cây quyết định trong dự báo xu thế của thị trường chứng khoán.27 3.1. Giới thiệu chung về dữ liệu thời gian thực 27 3.1.1. Các thành phần của dữ liệu thời gian thực 27 3.1.2. Các phương pháp làm trơn 29 3.2.  Dữ liệu chứng khoán 30 3.3. hình dự báo tài chính 32 3.4. Thiết kế cây quyết định cho dữ liệu thời gian thực 33 3.4.1. Tập hợp dữ liệu 33 3.4.2. Tiền xửdữ liệu 34 3.4.3. Phân hoạch dữ liệu 34 v 3.4.4. hình hóa cây quyết định 36 3.4.5. Tiêu chuẩn đánh giá 37 3.4.6. Triển khai 40 Tổng kết 40  Chương 4.Thực nghiệm 41 4.1. Môi trường thực nghiệm 41 4.2. Xây dựng cơ sở dữ liệu 42 4.2.1. Dữ liệu chứng khoán 42 4.2.2. Xây dựng dữ liệu cho hình 42 4.3.  Thực nghiệm hình cây quyết định cho dữ liệu thời gian thực 47 4.3.2. Đánh giá hình 50 4.3.3. Lựa chọn hình tốt nhất 51 4.4.  Một số hình khác 55 4.4.1. hình mạng nơ ron 56 4.4.2. hình SVM (support vector machine) 59 Kết luận 62  Kết quả đạt được của luận văn 62 Hướng nghiên cứu tiếp theo 62 PHỤ LỤC-MỘT SỐ THUẬT NGỮ ANH –VIỆT 63 TÀI LIỆU THAM KHẢO 64 vi DANH MỤC HÌNH VẼ Hình 1-0: Bước 1 Học để xây dựng hình phân lớp 5 Hình 1-1: Bước 2 Kiểm tra và đánh giá 6 Hình 1-2: Ví dụ về học hình 7 Hình 1-3 : Ví dụ về phân lớp dữ liệu 7 Hình 2-0: Biểu diễn cấu trúc cây quyết định 12 Hình 2-1: Một cây quyết định miêu tả khái niệm “mua máy tính” 18 Hình 3-0: Thành phần xu hướng dài hạn 28 Hình 3-1: Thành phần mùa 28 Hình 3-2: Thành phần chu kỳ 29 Hình 3-3: hình cây quyết định dự báo chứng khoán 32 Hình 3-5: Tỷ lệ kích thước của tập huấn luyện và tập kiểm chứng 35 Hình 4-0: Giao diện chính của weka 42 Hình 4-1: Dữ liệu chứng khoán thu được từ sàn chứng khoán 43 Hình 4-2: (a) Một trong số những dữ liệu huấn luyện từ 1/2008-12/2008 45 (b) Một trong số những bộ kiểm chứng từ 1/2009-3/2009 45 Hình 4-3: Một trong những file dữ liệu đầu ra của chương trình 45 Hình 4-4: Lệnh đọc file CSV và chuyển thành file ARFF 46 Hình 4-5: Dữ liệu dưới định dạng arff trong weka 47 Hình 4-6: Lệnh huấn luyện dữ liệu 49 Hình 4-8: Lệnh đánh giá dựa trên tập kiểm chứng 50 Hình 4-12: (a) Cấu trúc một nơ ron 57 (b) Cấu trúc mạng nơ ron 57 vii DANH MỤC BẢNG BIỂU Hình 2-2: Kết quả của cuộc khảo sát 21 Hình 3-4: Tổ chức dữ liệu của hình 34 Hinh 3-6: Bảng ma trận 2 x 2 39 Hình 4-7: Kết quả qua các lần huấn luyện 49 Hình 4-9: Kết quả đánh giá trên tập kiểm chứng 51 Hình 4-10: Kết quả khi thay đổi các tham số -C, -M 54 Hình 4-11: Kết quả khi huấn luyện lại hình với tham số tốt nhất 55 Hình 4-13: So sánh kết quả giữa Mạng nơ ron và cây quyết định 59 Hình 4-14: So sánh kết quả giữa hình Support vector machine và cây quyết định 60 1 Chương 1. Giới thiệu các kiến thức cơsở 1.1. Khai phá dự liệu 1.1.1 . Khai phá dữ liệu là gì Khai phá dữ liệu là việc khám phá tri thức trong các cơ sở dữ liệu, là một quá trình trích xuất những thông tin ẩn, trước đây chưa biết và có khả năng hữu ích, dưới dạng các quy luật, ràng buộc, quy tắc trong cơ sở dữ liệu [1]. 1.1.2. Quá trình khai phá dữ liệu Một quá trình KPDL bao gồm năm giai đoạn chính 1) Tìm hiểu nghiệp vụ và dữ liệu : nghiên cứu kiến thức về lĩnh vực sẽ áp dụng, bao gồm cả cấu trúc về hệ thống và tri thức, các nguồn tài liệu hiện hữu, ý nghĩa, vai trò và tầm quan trọng của các thực thể dữ liệu 2) Chuẩn bị dữ liệu: sử dụng các kỹ thuật ti ền xử lý để biến đổi và cải thiện chất lượng dữ liệu để thích hợp với những yêu cầu của các giải thuật học. Bước này thường chiếm phần lớn thời gian của toàn bộ quá trình khai phá dữ liệu 3) hình hóa dữ liệu: lựa chọn kỹ thuật phù hợp để giải quyết các vấn đề đặt ra. Các bài toán được phân loại vào một trong những nhóm bài toán chính trong khai phá d ữ liệu dựa trên đặc tả của chúng. 4) Hậu xử lý và đánh giá hình: các kết quả được biến đổi từ dạng học thuật sang dạng phù hợp với nghiệp vụ và dễ hiểu hơn cho người dùng. Kinh nghiệm cho thấy, các mẫu và các hình tìm thấy không phải lúc nào cũng đáng quan tâm và có thể trực tiếp sử dụng được ngay. Vì vậy, quá trình khai phá dữ liệu cần thiết lặp đ i lặp lại với việc đánh giá tri thức đã thu được. 5) Triển khai tri thức: các hình được đưa vào hệ thống thông tin thực tế dưới dạng các modun hỗ trợ việc đưa ra quyết định. Trong một số trường hợp, người ta có thể sử dụng tri thức phát hiện được mà không cần phải đưa vào một hệ thống máy tính. Mặc khác, người sử dụng lại mong mu ốn tri thức đã tìm được có thể được đưa vào máy tính và được khai thác bằng một số chương trình. Đưa các kết quả đã thu được vào sử dụng trong thực tế là mục tiêu cuối cùng của một quá trình khai phá dữ liệu [...]... tạp vì vậy rất khó có thể dự đoán được dữ liệu của nó Ví dụ như thị trường chứng khoán, việc dự đoán được sự lên xu ng của thị trường chứng khoán quả là không đơn giản Tính phi tuyến tính của thị trường chứng khoán kèm theo sự mù quáng của các nhà đầu tư làm cho việc dự đoán thị trường chứng khoán rất phức tạp và khó khăn Vì vậy, việc làm thế nào để dự đoán tốt thị trường chứng khoán trở nên rất thú vị... series), dữ liệu chứng khoán trong bài toán dự báo chứng khoán Qua đó xây dựng hình xử lý bài toán và thiết kế chi tiết hình cây quyết định, cách thực hiện từng bước trong thiết kế hình cây quyết định Chương 4: Thực nghiệm Giới thiệu sơ lược về phần mềm mã nguồn mở weka – công cụ mà khóa luận sử dụng để xây dựng hình dự báo xu thế chứng khoán, xây dựng hình, đánh giá hình dựa trên các... về hình cây quyết định cho dữ liệu chứng khoándữ liệu thời gian thực (time series) và áp dụng vào bài toán dự báo sự lên xu ng của thị trường chứng khoán Khóa luận được tổ chức theo cấu trúc như sau: Chương 1: Giới thiệu các kiến thức cơ sở 10 Giới thiệu sơ lược về khai phá dữ liệu, bài toán phân lớp và dự báo và bài toán dự báo cho lĩnh vực chứng khoán được phân tích dưới khía cạnh toán học. .. ra rằng, để dự đoán dữ liệu chuỗi thời gian phi tuyến tính thì sử dụng cây quyết định là một phương pháp hiệu quả Chính vì lẽ đó, cây quyết định là hình tốt để dự đoán xu thế của thị trường chứng khoán Ngày nay có rất nhiều nghiên cứu trên lĩnh vực này, nhưng trong những nghiên cứu đó, thị trường chứng khoánthể không được phân tích từ khía cạnh toán học, vì thế mà cơ sở toán học của phương pháp... tích Để dự đoán được xu thế của thị trường chứng khoán, chúng ta phải thừa nhận rằng có một số luật cơ bản có thể được lặp đi lặp lại trong thị trường chứng khoán Các luật này ẩn trong lịch sử dữ liệu Từ khía cạnh toán học, các luật này là các hàm quan hệ Đối tượng của dự đoán chính là tìm ra các luật này và tả chúng Những dự đoán của hệ thống phi tuyến động có thể được chuyển đổi thành vấn đề dự đoán... khi một hình dự báo được xây dựng để dự báo lượng thiết bị máy tính được mua bởi các khách hàng tiền năng dựa vào thu nhập và nghề nghiệp của họ Nhiều phương pháp phân lớp và dự báo đã được giới thiệu bởi các nhà nghiên cứu trong lĩnh vực học máy, hệ chuyên gia, thống kê… 1.2.2 Các bước để phân lớp và dự báo Phân lớp dữ liệu gồm hai bước xử lý chính: Bước 1: Học (training) xây dựng một hình xác... hai hình thức phân tích dữ liệu được sử dụng để rút ra những 4 hình miêu tả lớp dữ liệu quan trọng hoặc dự báo xu thế dữ liệu trong tương lai Trong khi phân lớp dự đoán các nhãn lớp đã được xác định rõ ràng thì hình dự báo thực hiện chức năng trên những giá trị liên tục Lấy ví dụ, một hình phân lớp được xây dựng để phân loại ứng dụng cho vay ngân hàng là an toàn hay mạo hiểm, trong khi một mô. .. toán dùng để xây dựng cây quyết định và giới thiệu kỹ thuật toán C4.5 Với những kiến thức cơ bản này, người đọc sẽ hiểu được phần nào cấu trúc, hoạt động cũng như những ưu nhược điểm của cây quyết định từ đó có thể xây dựng được hình phù hợp cho từng bài toán Chương 3: hình cây quyết định cho dữ liệu chứng khoándữ liệu time series trong bài toán dự báo xu thế thị trường chứng khoán Chương này... huấn luyện hình đưa ra sau khi phân tích xong tập dữ liệu huấn luyện thường có dạng là những quy tắc phân lớp, cây quyết định hay các công thức toán học Thuật toán phân lớp hình Dữ liệu học phân lớp Hình 1-0: Bước 1 Học để xây dựng hình phân lớp 5 Bước 2: Kiểm tra và đánh giá, bước này sử dụng hình phân lớp đã được xây dựng ở bước 1 vào việc phân lớp Đánh giá độ chính xác của hình hay... Các khía cạnh chính của hàm nói trên để xác nhận hàm quan hệ F Vì hệ thống áp dụng chức năng giao dịch phi tuyến tính, thế nên những vấn đề phức tạp về phi tuyến tính có thể được giải quyết rất tốt trong cây quyết định Dựa vào lý thuyết cơ bản về cây quyết định, từ đó ta xây dựng hình cây quyết định cho bài toán dự báo xu thế chứng khoán [7] 1.4 Nội dung và cấu trúc của khóa luận Với nội dung trình . ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Đinh Thị Thùy Trang ỨNG DỤNG MÔ HÌNH HỌC MÁY TIÊN TIẾN NHẰM TĂNG CƯỜNG KHẢ NĂNG DỰ BÁO XU THẾ CỦA THỊ TRƯỜNG CHỨNG KHOÁN KHOÁ LUẬN. NGHỆ Đinh Thị Thùy Trang ỨNG DỤNG MÔ HÌNH HỌC MÁY TIÊN TIẾN NHẰM TĂNG CƯỜNG KHẢ NĂNG DỰ BÁO XU THẾ CỦA THỊ TRƯỜNG CHỨNG KHOÁN KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công. dụ như thị trường chứng khoán, việc dự đoán được sự lên xu ng của thị trường chứng khoán quả là không đơn giản. Tính phi tuyến tính của thị trường chứng khoán kèm theo sự mù quáng của các nhà

Ngày đăng: 27/06/2014, 22:20

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan