Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 74 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
74
Dung lượng
1,64 MB
Nội dung
1
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Đinh Thị Thùy Trang
ỨNG DỤNGMÔHÌNHHỌCMÁYTIÊNTIẾN
NHẰM TĂNGCƯỜNGKHẢNĂNGDỰBÁOXUTHẾ
CỦA THỊTRƯỜNGCHỨNGKHOÁN
KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành:
Công nghệ thông tin
HÀ NỘI - 2010
2
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Đinh Thị Thùy Trang
ỨNG DỤNGMÔHÌNHHỌCMÁYTIÊNTIẾN
NHẰM TĂNGCƯỜNGKHẢNĂNGDỰBÁOXUTHẾ
CỦA THỊTRƯỜNGCHỨNGKHOÁN
KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành:
Công nghệ thông tin
Cán bộ hướng dẫn: TS. Nguyễn Hà Nam
HÀ NỘI-2010
i
LỜI CẢM ƠN
“Để hoàn thành khóa luận này, tôi xin gửi lời cảm ơn tới các thầy, cô giáo trong
trường Đại học Công nghệ - Đại học Quốc gia Hà Nội. Các thầy cô đã dạy bảo, chỉ dẫn
và luôn tạo điều kiện tốt nhất cho tôi học tập trong suốt quá trình học đại học đặc biệt là
trong thời gian làm khóa luận tốt nghiệp
Tôi xin bày tỏ lòng biết ơn sâu sắc tới thầy giáo TS. Nguyễn Hà Nam, thầy
đã tận
tình hướng dẫn tôi trong năm học vừa qua.
Tôi cũng thầm biết ơn những người bạn của mình, các bạn đã luôn ở bên tôi, giúp
đỡ và cho tôi những ý kiến đóng góp quý báu trong học tập cũng như trong cuộc sống.
Cuối cùng, tôi xin gửi tới bố mẹ và toàn thể gia đình lòng biết ơn và tình cảm yêu
thương nhất. Con xin dành tặng bố mẹ kết quả mà con đã đạt được trong suố
t bốn năm
học đại học. Con cảm ơn bố mẹ nhiều và cả các em nữa.”
Hà nội, ngày 20/05/2010
ii
Tóm tắt khóa luận
Ngày nay, cách thức kiếm tiền và sử dụng đồng tiềncủa các nhà đầu tư cũng có
nhiều thay đổi. Hầu hết mọi người đều đầu tư vào chứng khoán, họ cho rằng đó là một
cách đầu tư thông minh và những đồng tiền ấy là đồng tiền thông minh. Nhưng thịtrường
chứng khoán luôn có những yếu tố bất ngờ không theo ý muốn chủ quan của ai, có lúc
tăng nhanh sau đó giảm m
ột cách đột ngột, có lúc thì liên tục tăng mà chưa có dấu hiệu
giảm xuống.…Do vậy dự đoán được xuthếcủathịtrườngchứngkhoán là một vấn đề
quan trọng đầu tư tài chính. Thịtrường sẽ diễn biến ra sao, đầu tư vào chứngkhoán ở thời
điểm này có được hay không, phụ thuộc rất nhiều vào kết quả dự đoán củachúng ta chính
xác ra sao
Trong khóa luận này, tôi xin giớ
i thiệu một kỹ thuật được sử dụng nhiều trong khai
phá dữ liệu, có hiệu quả cao trong dự đoán, xây dựngmôhìnhdựbáo đơn giản, nhanh
chóng và dễ hiểu. Đó là môhình cây quyết định, khóa luận đã tìm hiểu cấu trúc, hoạt
động của cây quyết định, các độ đo dùng để chia cắt các thuộc tính và các thuật toán đặc
biệt là thuật toán C4.5 mà khóa luận sử dụng để xây dựng cây. Từ đó, thiế
t kế môhình
cây quyết định cho dữ liệu thời gian thực (time series) áp dụng trong dựbáoxuthếcủathị
trường chứngkhoán được trình bày chi tiết. Khóa luận đã thực nghiệm trên dữ liệu
VnIndex và đã thu được những kết quả bước đầu
Từ khóa: data mining, decision tree, time series, stock trend prediction, weka….
iii
MỤC LỤC
LỜI CẢM ƠN i
TÓM TẮT KHÓA LUẬN ii
MỤC LỤC iii
DANH MỤC HÌNH VẼ vi
DANH MỤC BẢNG BIỂU vii
Chương 1.Giới thiệu các kiến thức cơ!Äở 1
1.1. Khai phá dự liệu 1
1.1.1. Khai phá dữ liệu là gì 1
1.1.2. Quá trình khai phá dữ liệu 1
1.1.3. Các phương pháp khai phá dữ liệu 2
1.1.4. Sự cần thiết phải có khai phá dữ liệu 2
1.1.5. Một số khó khăn gặp phải khi xây dựng quá trình khai phá dữ liệu 3
1.1.6. Các lĩnh vực ứngdụng 4
1.2.
Phân lớp và dựbáo 4
1.2.1. Định nghĩa 4
1.2.2. Các bước để phân lớp và dựbáo 5
1.2.3. Độ chính xác trong phân lớp và dựbáo 8
1.2.4. Một số bài toán phân lớp và dựbáo điển hình 8
1.3.
Bài toán dựbáoxuthếthịtrườngchứngkhoán 9
1.4. Nội dung và cấu trúc của khóa luận 10
Chương 2.Tổng quan về cây quyết định 12
iv
2.1.
Định nghĩa 12
2.2. Cấu trúc 12
2.3. Các kiểu cây quyết định 13
2.4. Các độ đo sử dụng để xác định điểm chia tốt nhất 13
2.4.1. Độ lợi thông tin (Information Gain) 14
2.4.2. Độ đo tỷ lệ Gain (Gain ratio) 15
2.4.3. Chỉ số Gini (Gini index) 15
2.5.
Cắt tỉa cây (thu gọn cây) 17
2.6. Rút ra quy tắc phân lớp từ cây quyết định 18
2.7. Các thuật toán trong cây quyết định 19
2.8. Quá trình tạo cây quyết định 21
2.8.1. Khảnănghọc và tổng quát hóa 21
2.8.2. Các phương pháp huấn luyện cây 21
2.9.
Giải thuật C4.5 22
Tổng kết 25
Chương 3.Mô hình cây quyết định trong dựbáoxuthếcủathịtrườngchứng khoán.27
3.1. Giới thiệu chung về dữ liệu thời gian thực 27
3.1.1. Các thành phần củadữ liệu thời gian thực 27
3.1.2. Các phương pháp làm trơn 29
3.2.
Dữ liệu chứngkhoán 30
3.3. Môhìnhdựbáo tài chính 32
3.4. Thiết kế cây quyết định cho dữ liệu thời gian thực 33
3.4.1. Tập hợp dữ liệu 33
3.4.2. Tiềnxử lý dữ liệu 34
3.4.3. Phân hoạch dữ liệu 34
v
3.4.4. Môhình hóa cây quyết định 36
3.4.5. Tiêu chuẩn đánh giá 37
3.4.6. Triển khai 40
Tổng kết 40
Chương 4.Thực nghiệm 41
4.1. Môi trường thực nghiệm 41
4.2. Xây dựng cơ sở dữ liệu 42
4.2.1. Dữ liệu chứngkhoán 42
4.2.2. Xây dựngdữ liệu cho môhình 42
4.3.
Thực nghiệm môhình cây quyết định cho dữ liệu thời gian thực 47
4.3.2. Đánh giá môhình 50
4.3.3. Lựa chọn môhình tốt nhất 51
4.4.
Một số môhình khác 55
4.4.1. Môhình mạng nơ ron 56
4.4.2. Môhình SVM (support vector machine) 59
Kết luận 62
Kết quả đạt được của luận văn 62
Hướng nghiên cứu tiếp theo 62
PHỤ LỤC-MỘT SỐ THUẬT NGỮ ANH –VIỆT 63
TÀI LIỆU THAM KHẢO 64
vi
DANH MỤC HÌNH VẼ
Hình 1-0: Bước 1 Học để xây dựngmôhình phân lớp 5
Hình 1-1: Bước 2 Kiểm tra và đánh giá 6
Hình 1-2: Ví dụ về họcmôhình 7
Hình 1-3 : Ví dụ về phân lớp dữ liệu 7
Hình 2-0: Biểu diễn cấu trúc cây quyết định 12
Hình 2-1: Một cây quyết định miêu tả khái niệm “mua máy tính” 18
Hình 3-0: Thành phần xu hướng dài hạn 28
Hình 3-1: Thành phần mùa 28
Hình 3-2: Thành phần chu kỳ 29
Hình 3-3: Môhình cây quyết định dựbáochứngkhoán 32
Hình 3-5: Tỷ lệ kích thước của tập huấn luyện và tập kiểm chứng 35
Hình 4-0: Giao diện chính của weka 42
Hình 4-1: Dữ liệu chứngkhoán thu được từ sàn chứngkhoán 43
Hình 4-2: (a) Một trong số những dữ liệu huấn luyện từ 1/2008-12/2008 45
(b) Một trong số những bộ kiểm chứng từ 1/2009-3/2009 45
Hình 4-3: Một trong những file dữ liệu đầu ra của chương trình 45
Hình 4-4: Lệnh đọc file CSV và chuyển thành file ARFF 46
Hình 4-5: Dữ liệu dưới định dạng arff trong weka 47
Hình 4-6: Lệnh huấn luyện dữ liệu 49
Hình 4-8: Lệnh đánh giá dựa trên tập kiểm chứng 50
Hình 4-12: (a) Cấu trúc một nơ ron 57
(b) Cấu trúc mạng nơ ron 57
vii
DANH MỤC BẢNG BIỂU
Hình 2-2: Kết quả của cuộc khảo sát 21
Hình 3-4: Tổ chức dữ liệu củamôhình 34
Hinh 3-6: Bảng ma trận 2 x 2 39
Hình 4-7: Kết quả qua các lần huấn luyện 49
Hình 4-9: Kết quả đánh giá trên tập kiểm chứng 51
Hình 4-10: Kết quả khi thay đổi các tham số -C, -M 54
Hình 4-11: Kết quả khi huấn luyện lại môhình với tham số tốt nhất 55
Hình 4-13: So sánh kết quả giữa Mạng nơ ron và cây quyết định 59
Hình 4-14: So sánh kết quả giữa môhình Support vector machine và cây quyết định 60
1
Chương 1. Giới thiệu các kiến thức cơsở
1.1. Khai phá dự liệu
1.1.1 . Khai phá dữ liệu là gì
Khai phá dữ liệu là việc khám phá tri thức trong các cơ sở dữ liệu, là một quá trình
trích xuất những thông tin ẩn, trước đây chưa biết và có khảnăng hữu ích, dưới dạng các
quy luật, ràng buộc, quy tắc trong cơ sở dữ liệu [1].
1.1.2. Quá trình khai phá dữ liệu
Một quá trình KPDL bao gồm năm giai đoạn chính
1) Tìm hiểu nghiệp vụ và dữ liệu : nghiên cứu kiến thức về lĩnh vực sẽ áp dụng, bao
gồm cả cấu trúc về hệ thống và tri thức, các nguồn tài liệu hiện hữu, ý nghĩa, vai trò
và tầm quan trọng của các thực thểdữ liệu
2) Chuẩn bị dữ liệu: sử dụng các kỹ thuật ti
ền xử lý để biến đổi và cải thiện chất lượng
dữ liệu để thích hợp với những yêu cầu của các giải thuật học. Bước này thường
chiếm phần lớn thời gian của toàn bộ quá trình khai phá dữ liệu
3) Môhình hóa dữ liệu: lựa chọn kỹ thuật phù hợp để giải quyết các vấn đề đặt ra. Các
bài toán được phân loại vào một trong những nhóm bài toán chính trong khai phá d
ữ
liệu dựa trên đặc tả của chúng.
4) Hậu xử lý và đánh giá mô hình: các kết quả được biến đổi từ dạng học thuật sang
dạng phù hợp với nghiệp vụ và dễ hiểu hơn cho người dùng. Kinh nghiệm cho thấy,
các mẫu và các môhình tìm thấy không phải lúc nào cũng đáng quan tâm và có thể
trực tiếp sử dụng được ngay. Vì vậy, quá trình khai phá dữ liệu cần thiết lặp đ
i lặp
lại với việc đánh giá tri thức đã thu được.
5) Triển khai tri thức: các môhình được đưa vào hệ thống thông tin thực tế dưới dạng
các modun hỗ trợ việc đưa ra quyết định. Trong một số trường hợp, người ta có thể
sử dụng tri thức phát hiện được mà không cần phải đưa vào một hệ thống máy tính.
Mặc khác, người sử dụng lại mong mu
ốn tri thức đã tìm được có thể được đưa vào
máy tính và được khai thác bằng một số chương trình. Đưa các kết quả đã thu được
vào sử dụng trong thực tế là mục tiêu cuối cùng của một quá trình khai phá dữ liệu
[...]... tạp vì vậy rất khó có thểdự đoán được dữ liệu của nó Ví dụ như thịtrườngchứng khoán, việc dự đoán được sự lên xu ng của thịtrườngchứngkhoán quả là không đơn giản Tính phi tuyến tính của thịtrườngchứngkhoán kèm theo sự mù quáng của các nhà đầu tư làm cho việc dự đoán thịtrườngchứngkhoán rất phức tạp và khó khăn Vì vậy, việc làm thế nào để dự đoán tốt thịtrườngchứngkhoán trở nên rất thú vị... series), dữ liệu chứngkhoán trong bài toán dựbáochứngkhoán Qua đó xây dựngmôhìnhxử lý bài toán và thiết kế chi tiết môhình cây quyết định, cách thực hiện từng bước trong thiết kế môhình cây quyết định Chương 4: Thực nghiệm Giới thiệu sơ lược về phần mềm mã nguồn mở weka – công cụ mà khóa luận sử dụng để xây dựngmôhìnhdựbáoxuthếchứng khoán, xây dựngmô hình, đánh giá môhình dựa trên các... về môhình cây quyết định cho dữ liệu chứngkhoán – dữ liệu thời gian thực (time series) và áp dụng vào bài toán dựbáo sự lên xu ng của thịtrườngchứngkhoán Khóa luận được tổ chức theo cấu trúc như sau: Chương 1: Giới thiệu các kiến thức cơ sở 10 Giới thiệu sơ lược về khai phá dữ liệu, bài toán phân lớp và dựbáo và bài toán dựbáo cho lĩnh vực chứngkhoán được phân tích dưới khía cạnh toán học. .. ra rằng, để dự đoán dữ liệu chuỗi thời gian phi tuyến tính thì sử dụng cây quyết định là một phương pháp hiệu quả Chính vì lẽ đó, cây quyết định là môhình tốt để dự đoán xuthế của thịtrườngchứngkhoán Ngày nay có rất nhiều nghiên cứu trên lĩnh vực này, nhưng trong những nghiên cứu đó, thịtrườngchứngkhoán có thể không được phân tích từ khía cạnh toán học, vì thế mà cơ sở toán họccủa phương pháp... tích Để dự đoán được xuthế của thịtrườngchứng khoán, chúng ta phải thừa nhận rằng có một số luật cơ bản có thể được lặp đi lặp lại trong thịtrườngchứngkhoán Các luật này ẩn trong lịch sử dữ liệu Từ khía cạnh toán học, các luật này là các hàm quan hệ Đối tượng củadự đoán chính là tìm ra các luật này và mô tả chúng Những dự đoán của hệ thống phi tuyến động có thể được chuyển đổi thành vấn đề dự đoán... khi một môhìnhdựbáo được xây dựng để dựbáo lượng thiết bị máy tính được mua bởi các khách hàng tiềnnăng dựa vào thu nhập và nghề nghiệp của họ Nhiều phương pháp phân lớp và dựbáo đã được giới thiệu bởi các nhà nghiên cứu trong lĩnh vực học máy, hệ chuyên gia, thống kê… 1.2.2 Các bước để phân lớp và dựbáo Phân lớp dữ liệu gồm hai bước xử lý chính: Bước 1: Học (training) xây dựng một môhình xác... hai hình thức phân tích dữ liệu được sử dụng để rút ra những 4 môhình miêu tả lớp dữ liệu quan trọng hoặc dựbáoxuthếdữ liệu trong tương lai Trong khi phân lớp dự đoán các nhãn lớp đã được xác định rõ ràng thìmôhìnhdựbáo thực hiện chức năng trên những giá trị liên tục Lấy ví dụ, một môhình phân lớp được xây dựng để phân loại ứngdụng cho vay ngân hàng là an toàn hay mạo hiểm, trong khi một mô. .. toán dùng để xây dựng cây quyết định và giới thiệu kỹ thuật toán C4.5 Với những kiến thức cơ bản này, người đọc sẽ hiểu được phần nào cấu trúc, hoạt động cũng như những ưu nhược điểm của cây quyết định từ đó có thể xây dựng được môhình phù hợp cho từng bài toán Chương 3: Môhình cây quyết định cho dữ liệu chứngkhoán – dữ liệu time series trong bài toán dựbáoxuthếthịtrườngchứngkhoán Chương này... huấn luyện Môhình đưa ra sau khi phân tích xong tập dữ liệu huấn luyện thường có dạng là những quy tắc phân lớp, cây quyết định hay các công thức toán học Thuật toán phân lớp MôhìnhDữ liệu học phân lớp Hình 1-0: Bước 1 Học để xây dựngmôhình phân lớp 5 Bước 2: Kiểm tra và đánh giá, bước này sử dụngmôhình phân lớp đã được xây dựng ở bước 1 vào việc phân lớp Đánh giá độ chính xác củamôhình hay... (1.6) Các khía cạnh chính của hàm nói trên để xác nhận hàm quan hệ F Vì hệ thống áp dụng chức năng giao dịch phi tuyến tính, thế nên những vấn đề phức tạp về phi tuyến tính có thể được giải quyết rất tốt trong cây quyết định Dựa vào lý thuyết cơ bản về cây quyết định, từ đó ta xây dựngmôhình cây quyết định cho bài toán dựbáoxuthếchứngkhoán [7] 1.4 Nội dung và cấu trúc của khóa luận Với nội dung . HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Đinh Thị Thùy Trang
ỨNG DỤNG MÔ HÌNH HỌC MÁY TIÊN TIẾN
NHẰM TĂNG CƯỜNG KHẢ NĂNG DỰ BÁO XU THẾ
CỦA.
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Đinh Thị Thùy Trang
ỨNG DỤNG MÔ HÌNH HỌC MÁY TIÊN TIẾN
NHẰM TĂNG CƯỜNG KHẢ NĂNG DỰ BÁO XU THẾ