SVM là một phương pháp máy học tương đối mới nhiều ứng dụng thành công trong lĩnh vực khai phá dữ liệu đặc biệt là trong bài toán dự báo thời gian thực. SVM được nhận định là phương pháp phân lớp nhanh, giải quyết vấn đề overfiting rất tốt và có thể xử lý hiệu quả với bài toán dữ liệu có số chiều lớn
Tư tưởng chính của SVM là chuyển tập mẫu từ không gian biểu diễn Rn của chúng sang một không gian Rd có số chiều lớn hơn. Trong không gian Rd, tìm một số siêu phẳng tối ưu để phân hoạch tập mẫu này dựa trên phân lớp của chúng, cũng có nghĩa là tìm ra miền phân bố của từng lớp trong không gian Rn để từđó xác định được phân lớp của một mẫu cần dựđoán
Khi xây dựng mô hình với SVM, chúng ta cần phải chọn các tham số tốt nhất cho thuật toán. SMO (Sequential minimal optimization) - thuật toán tối ưu tuần tự là thuật toán tối ưu dành riêng cho phương pháp SVM do J.Platt đưa ra vào năm 1988. Thuật toán có 3 tham số làm thay đổi độ chính xác của mô hình [8]
Hệ số phức tạp (Complexity factor): Quyết định sự cân bằng giữa lỗi tối thiểu của mô hình trên dữ liệu huấn luyện và trên mô hình phức tạp. Giá trị mặc định trong weka là C = 1.0. Đểđẩm bảo tính ổn định của quá trình huấn luyện, giá tri của tham số C càng lớn càng tốt, ví dụ C = 100 [8].
60
Epsilon: là một thiết lập SVM ứng dụng để xây dựng mô hình hồi quy. Giá trị của epsilon ảnh hưởng đến số lượng vector hỗ trợ vì vậy gián tiếp ảnh hưởng đến sự cân bằng giữa mô hình phức tạp và tổng quát.
Dung sai: độ lệch lớn nhất của một tiêu chuẩn hội tụ. Nếu giá trị này lớn thì quá trình xây dựng mô hình sẽ nhanh hơn nhưng độ chính xác sẽ thấp hơn. Giá trị mặc định là 0.001
Ta sẽ xây dựng mô hình SVM với các thiết lập tham số C = 100, P (epsilon) = 1.0E- 12, L (dung sai) = 0.001 Tập dữ liệu Thời gian huấn luyện Accuracy trên tập huấn luyện(%) Accuracy trên tập kiểm chứng (%) RMSE SVM DS SVM DS SVM DS SVM DS fpt_train_1 0.35 0.03 89.6429 97.8571 100 100 0 0 fpt_train_2 0.21 0.05 91.3669 98.9209 93.3333 93.3333 0.2582 0.2582 fpt_train_3 0.14 0.03 91.9014 98.5915 93.4783 93.4783 0.2554 0.2597 fpt_train_4 0.05 0.04 97.193 99.2982 100 100 0 0.1267 fpt_train_5 0.15 0.03 95.8478 97.9239 100 100 0 0 fpt_train_6 0.11 0.03 95.9044 97.9522 75 81.8182 0.5 0.3859 fpt_train_7 0.06 0.04 95.9044 96.587 65.2174 63.0435 0.5898 0.5853 fpt_train_8 0.07 0.03 95.8904 96.2329 84.0909 81.8182 0.3989 0.4134 fpt_train_9 0.25 0.04 92.8082 97.2603 89.4737 89.4737 0.3244 0.3135 fpt_train_10 0.21 0.04 92.9054 96.6216 97.3684 97.3684 0.1622 0.1599 trung bình 0.16 0.029 93.9365 97.7246 89.796 90.0334 0.24889 0.25026
Hình 4-14: So sánh kết quả giữa mô hình SVM và cây quyết định
Xét về thời gian xây dựng mô hình, độ chính xác (Accuracy) trên tập huấn luyện, và trên tập kiểm chứng thì mô hình cây quyết định đều cao hơn so với SVM. Riêng có hệ số
61
RMSE thì khi nhìn vào kết quả trung bình ta có thể thấy mô hình SVM có kết quả thấp hơn so với mô hình cây quyết định là 0.00137 nhưng xét trên từng tập dữ liệu thì có tới 5 bộ dữ liệu khi sử dụng mô hình cây quyết định thì kết quả RMSE cao hơn so với SVM và có tới 2 bộ dữ liệu có kết quả bằng nhau khi sử dụng mô hình cây quyết định và mô hình SVM
Như vậy, về cơ bản thì mô hình cây quyết định là một mô hình tương đối tốt đối với dữ liệu thời gian thực. Độ chính xác khi xây dựng mô hình trên tập huấn luyện rất cao, cao hơn hẳn mô hình mạng nơ ron và SVM và thời gian xây dựng mô hình rất rất nhanh giúp nhà đầu tư có nhiều thời gian suy nghĩ trước khi quyết định hơn. Phần lớn các bộ dữ liệu có kết quả dựđoán gần với giá trị thực hơn so với mô hình mạng nơ ron và SVM
62
Kết luận
Kết quả đạt được của luận văn
Khai phá dữ liệu hiện nay là một hướng nghiên cứu còn khá mới mẻ, thu hút sự quan tâm không chỉ của giới CNTT mà còn của nhiều ngành khoa học khác. Ngày nay có nhiều phương pháp và các thuật toán kinh điển, tạo nên một bức tranh hết sức sôi động về lĩnh vực nghiên cứu còn khá mới mẻ này.
Thông qua việc tìm hiểu, tiếp thu những kiến thức cơ bản và kết quả của một số công trình nghiên cứu mới được công bố gần đây, tôi đã trình bày một cách tương đối đầy đủ và có hệ thống về các vấn đề liên quan đến khai phá dữ liệu nói chung và khai phá dữ liệu bằng cây quyết định nói riêng. Áp dụng khai phá dữ liệu bằng cây quyết định vào bài toán dự báo xu thế thị trường chứng khoán, trong khóa luận tôi đã lấy giá đóng cửa qua các phiên giao dịch của công ty fpt để làm thực nghiệm. Đặc biệt đã đi sâu phân tích, đánh giá và so sánh với một số phương pháp khác
Tuy nhiên do việc hạn chế về thời gian, kinh nghiệm nên kết quả thực nghiệm vẫn chưa thực sự thuyết phục, mặc dù phương pháp và kỹ thuật mà luận văn trình bày là hoàn toàn khả thi, đó chính là điểm hạn chế của luận văn này
Hướng nghiên cứu tiếp theo
Khai phá dữ liệu nói chung và khai phá dữ liệu bằng cây quyết định nói riêng hiện nay vẫn là vấn đề nghiên cứu và triển khai mang tính thời sự. Những vấn đề dưới đây sẽ là nội dung nghiên cứu tiếp theo của luận văn này
• Sử dụng một số thuật toán tối ưu tổ hợp như thuật toán di truyền (General Algorithm –GA) hay thuật toán đàn kiến (Ant Colony Algorithm –ACO) để tối ưu hóa việc chọn các tham số như số số nhánh tối thiểu trên một nút lá, ngưỡng dùng để cắt tỉa
• Đưa thêm các mối tương quan của một số thuộc tính như: khối lượng giao dịch trong ngày (Volume), giá dầu, giá vàng trên thị trường để mô hình gần với thực tế và kết quả của mô hình có sức thuyết phục hơn
• Xây dựng mô hình hoàn chỉnh có giao diện tương tác với người sử dụng, triển khai ứng dụng vào thực tế
63
PHỤ LỤC-MỘT SỐ THUẬT NGỮ ANH –VIỆT
Thuật ngữ Giải nghĩa
Supervised learning Học có giám sát
Root mean squared error Chuẩn trung bình bình phương sai số
Overfiting Hiện tượng mô hình nhận dạng các mẫu đã học tốt nhưng khả năng tổng quát hóa để nhận dạng các
mẫu chưa học lại kém Testing set Tập mẫu kiểm tra mô hình
Time series Chuỗi tuần tự theo thời gian/Dữ liệu thời gian thực Training set Tập mẫu huấn luyện mô hình
Unsupervised learning Học không có giám sát Validation set Tập mẫu kiểm chứng mô hình
Confusion matrix Ma trận nhầm lẫn
Accuracy Độ chính xác
Missclassification Tỷ lệ các trường hợp phân lớp sai
Time series Thời gian thực
Informatin Gain Độ lợi thông tin
64
TÀI LIỆU THAM KHẢO
Tài liệu tham khảo tiếng việt
[1] Nguyễn Đức Cường. Tổng quan về khai phá dữ liệu. Kỷ yếu hội nghị Khoa học và Công nghệ lần thứ 9, Đại học Bách khoa, Tp. Hồ Chí Minh
[2] Bùi Quang Huy.Một số vấn đề liên quan đến khai phá dữ liệu bằng cây quyết định.Luận văn thạc sĩ, ngành Công nghệ thông tin - Đại học công nghệ - Đại học quốc gia Hà Nội 2006.
[3] Lê Văn Tường Lân.Phụ thuộc dữ liệu và tác động của nó đối với bài toán phân lớp của khai phá dữ liệu. Tạp chí khoa học, Đại học Huế, Số 53, 2009
[4] Nguyễn Thái Nghe. Một phân tích giữa các kỹ thuật trong dựđoán kết quả học tập. Khoa công nghệ thông tin và truyền thông, Đại học Cần Thơ
[5] Phạm Hữu Tài.Xây dựng Cơ sở dữ liệu các cấu hình An toàn thông tin trên Internet cho hệ thống Phòng chống dịch hại. Cần thơ, 10/2009
[6] Cao Hào Thi. Phân tích chuỗi tuần tự theo thời gian và dự báo. Đại học kỹ thuật TP. Hồ Chí Minh
[7] Đặng Thị Ánh Tuyết. Tìm hiểu và ứng dụng một số thuật toán khai phá dữ liệu time series áp dụng trong bài toán dự báo tài chính. Khóa luận tốt nghiệp, Đại học Công nghệ - Đại học Quốc gia Hà Nội, 2008
Tài liệu tham khảo tiếng anh
[8] Biljana Miveva-Boshkoska and Mile Stankovski. Prediction of Missing Data for Ozone Concentrations Using Support Vector Machines and Radial Basis Neural Networks. Department of Automatics, Faculty for Electrotechnics and Information Technologies
[9] Lior Rokach and Oded Maimon. Data mining with decision trees, theory and applications. World Scientific Publishing Co.Pte Ltd, 2008
[10] Luis Torgo. Data mining with R: learning by case studies. LIACC-FEF, University of Porto, May 22, 2003
65
[11] Matthew N. Anyanwu and Sajjan G. Shiva. Comparative Analysis of Serial
Decision Tree Classification Algorithms. International Journal of Computer Science and Security,2009
[12] Minos Garofalakis, Dongjoon Hyun, Rajeev Rastogi, Kyuseok Shim. Building Decision Tree With Constraints. Data Mining and Knowleadge Discovery, 2003 [13] Ramon Lawrence . Using Neural Networks to Forecast Stock Market Prices.
Department of Computer Science University of Manitoba, 1997
[14] Remco R.Bouckaert, Eibe Frank, Mark Hall, Richard Kirkby, Peter Reutemann, Alex Seewald, David Scuse. Weka Manual for version 3-6-1, June 4, 2009 [15] Ruey S.Tsay. Analysis of Financial Time Series. University of Chicago,2005,
tr.192-194
[16] Stefan Zemke. Data mining for Prediction Financial Series Case. Department of Computer and System Sciences, December 2003
[17] Thomas Hellstrom and Kenneth Holmstrom. Predicting the Stock Market.
Department of Mathematics and Physics Malardalen University, August 12, 1998, [18] http://www.cis.hut.fi/research/reports/biennial04-05/cis-biennial-report-2004-2005- 12.pdf [19] http://baigiang.violet.vn/present/showprint/entry_id/374873 [20] http://www.gralib.hcmuns.edu.vn/gsdl/collect/thacsi2/index/assoc/.../5.pdf [21] http://www.slideshare.net/ntphuc/bo-co-v-decision-tree [22] http://www.slideshare.net/khuongquynh/bai-4-phan-lop-presentation [23] http://vi.wikipedia.org/wiki/Cây_quyết_định