Mơ hình cây quyết định

Một phần của tài liệu NGUYÊN CỨU VÀ XÂY DỰNG HỆ THỐNG QUẢN LÝ VÀ DỰ ĐOÁN XU THẾ GIÁ CHỨNG KHOÁN DỰA TRÊN NỀN TẢNG MÃ NGUỒN MỞ (Trang 51 - 57)

a. Định nghĩa

Cây quyết định (decision tree) là một trong những hình thức mơ tả dữ liệu trực quan nhất, dễ hiểu nhất đối với người dùng. Trong lĩnh vực học máy, cây quyết định là một kiểu mơ hình dự báo (prediction model), nghĩa là ánh xạ từ các quan sát về một sự vật/hiện tượng tới các kết luận về giá trị mục tiêu của sự vật/hiện tượng.

b. Cấu trúc

Một cây quyết định là một sơ đồ cĩ cấu trúc dạng cây bao gồm các nút và các nhánh.

Nút dưới cùng được gọi là nút lá, trong mơ hình phân lớp dữ liệu chính là các giá trị của các nhãn lớp (gọi tắt là nhãn). Các nút khác nút lá được gọi là các nút con, đây cịn là các thuộc tính của tập dữ liệu, hiển nhiên các thuộc tính này phải khác thuộc tính phân lớp.

Mỗi một nhánh của cây xuất phát từ một nút p nào đĩ ứng với một phép so sánh dựa trên miền giá trị của nút đĩ. Nút đầu tiên được gọi là nút gốc của cây

Hình 5.5 – Mơ hình cây quyết định

Cây quyết định cĩ thể được mơ tả như là sự kết hợp của các kỹ thuật tốn học và tính tốn nhằm hỗ trợ việc mơ tả, phân loại và tổng quát hĩa một tập dữ liệu cho trước

Dữ liệu được cho dưới dạng các bản ghi cĩ dạng: (x, y) = (x1, x2, x3….xk, y)

Biến phụ thuộc y là biến mà chúng ta cần tìm hiểu, phân loại hay tổng quát hĩa x1, x2, x3…. là các biến sẽ giúp ta thực hiện cơng việc đĩ

c. Thực nghiệm với mơ hình cây quyết định

Trong weka mơ hình cây quyết định được thực hiện bởi dịng lệnh: weka.classifiers.trees.J48

Dựa trên một vài thực nghiệm về cây quyết định trên các tập huấn luyện và kiểm chứng khác nhau rồi tổng hợp những kết quả thu được tơi nhận thấy rằng với tham sốC = 0.25 và M = 3 thì sẽ thu được mơ hình cây quyết định với độchính xác khá tốt. Thực hiện tính tốn với cây quyết trên mười bộdữliệu ta cĩ bảng thống kê kết quả như sau:

Các lần huấn luyện Giá trị hàm đánh giá (RMSE) Lần 1 0.4946 Lần 2 0.5107 Lần 3 0.4938 Lần 4 0.5016 Lần 5 0.3239 Lần 6 0.4766 Lần 7 0.4716 Lần 8 0.4821 Lần 9 0.5774 Lần 10 0.4993 Giá trịtrung bình 0.48316

Bảng5.2 – Huấn luyện cây quyết định

5.3.2. Mơ hình phân lớp xác suất ngây thơ nạve bayes

Bộphân lớp bayes là bộphân lớp đơn giản mà dựa trên lý thuyết bayes. a. Thuật tốn nạve bayes và cơng thức phân lớp

Định lý bayes: P(A/B) = ( / )∗ ( ) ( ) Giảsử: D là tập dữliệu huấn luyện C i,Dlà tập các mẫu thuộc D của lớp Ci Cilà một lớp trong tập dữliệu X = <x1, x2, …., xn> là điều kiện độc lập Ta cĩ cơng thức: P(Ci/X) = ( | )∗ ( ) ( )

P(X|Ci) = ∏ ( | ) = ( | ). ( | ) … . . ( | ) P(Ci) = | , |

| | , P(xk|Ci) =

, { }

| , |

Trong đĩ Ci,D{xk}: sốmẫu Cithỏa mãn điều kiện xk

Trong trường hợp P(xk|Ci) = 0 ta cĩ thểáp dụng cơng thức làmtrơn laplace: P(Ci) = ,

| | , P(xk|Ci) =

, { }

,

M : là sốmẫu (lớp), r là sốgiá trị rời rạc của thuộc tính

Luật phân lớp: X sẽ được cho vào lớp mà cĩ giá trịcơng thức sau là lớn nhất: ( ) ∗ ( | )

b. Thực nghiệm với mơ hình nạve bayes

Thực nghiệm với mơ hình nạve bayes trong weka bằng dịng lệnh: weka.classifiers.bayes.NaiveBayes

Các lần huấn luyện Giá trị hàm đánh giá (RMSE) Lần 1 0.7467 Lần 2 0.6868 Lần 3 0.6633 Lần 4 0.744 Lần 5 0.3333 Lần 6 0.4823 Lần 7 0.7568 Lần 8 0.6733 Lần 9 0.7796 Lần 10 0.6344 Giá trịtrung bình 0.58309

Bảng5.3 – Huấn luyện nạve bayes

Căn cứ vào những kết quả thu được ở trên ta lập bảng sơ sánh giữa các mơ hình như sau: Đại lượng đánh giá Mơ hình mạng nơ ron Mơ hình cây quyết định Mơ hình nạve bayes RMSE 0.43758 0.48316 0.58039 Bảng 5.4 – So sánh các mơ hình

Từ bảng so sánh trên cho thấy cả hai mơ hình ở trên đều cho kết quả với độ chính xác khơng cao bằng mơ hình mạng noron mà tơi đã xây dựng ởtrên.

Chương 6. KẾT LUẬN

Trong khĩa luận này, bước đầu tơi đã tìm hiểu được lĩnh vực khai phá dữliệu cùng các vấn đề liên quan đến khai phá dữliệu nĩi chung, và cơ sở lý thuyết của mạng noron cũng như là thuật tốn lan truyền ngược (back-propagation) thực hiện việc học cho mạng noron để áp dụng vào bài tốn dự báo giá chứng khốn nĩi riêng. Từ những cơ sở lý thuyết đĩ tơi đã tiến hành:

- Xây dựng cho mình một mơ hình mạng noron dựa theo tám bước: chọn lựa các biến, thu thập dữliệu, tiền xửlý dữliệu, phân hoạch dữliệu, xác định cấu trúc mạng, xác định tiêu chuẩn đánh giá, huấn luyện mạng, thực thi trong thực tế

- Xây dựng thuật tốn lựa chọn được bộ tham số tốt nhất cho mạng noron nhằm tạo ra một mơ hình với độchính xác cao.

- Áp dụng mơ hình thu được đểxây dựng phần mềm dự báo giá chứng khốn dựa trên sựkết hợp từhai phần mềm mã nguồn mởlà Jstock và Weka.

- Cuối cùng tơi so sánh mơ hình mạng noron mà tơi đã xây dựng với hai mơ hình khác là mơ hình cây quyết định và mơ hình nạve bayes. Kết quả thu được từ sự so sánh này cho thấy mơ hình mạng noron là tốt hơn, nên bước đầu phản ánh quá trình xây dựng mơ hình của tơi là cĩ hiệu quả.

Tuy nhiên do thời gian thực hiện khĩa luận khơng đủ dài nên bên cạnh những điều đã làm được ởtrên thì vẫn cịn tồn tại một số điểm chưa đạt và cần bổsung:

- Thuật tốn tối ưu tham số mà tơi sử dụng trong luận văn chưa thực sự tốt, mặc dù nĩ chạy khá chính xác nhưng lại chạy rất chậm nên chỉ áp dụng được trong khơng gian các tham sốkhá nhỏ. Đểkhắc phục điều này cĩ thểsửdụng thuật tốn sửdụng gradient (gradient descent), thuật tốn di truyền (General Algorithm ) …

- Việc thu thập dữ liệu từ Jstock là online nhưng việc xây dựng và tiến hành học mơ hình là offline. Để làm tăng độchính xác của việc dự đốn lên nữa cĩ thểchuyển việc học sang học trực tuyến (online learning).

- Giao diện xây dựng của mềm phần cịn tương đối đơn giản, mới chỉ chọn một vài mẫu chứng khốn làm thửnghiệm. Sau này cần xây dựng giao diện cĩ sự

TÀI LIỆU THAM KHẢO

Tài liệu tham khảo tiếng việt

[1] Hà Quang Thụy. Giáo trình khai phá dữ liệu web. Nhà xuất bản giáo dục, 2009, tr. 1 - 38

[2] Ứng dụng mạng noron cho vấn đề nhận dạng tiếng nĩi. http://tailieuhay.com/chi- tiet-tai-lieu/ung-dung-mang-neuron-cho-van-de-nhan-dang-tieng-noi-149-

trang/2227.html, tr. 1 - 49

Tài liệu tham khảo tiếng anh

[3] Ben Krose, Patrick van der smagt. An introduction to neural networks. University

of Amsterdam, 1996, tr 1 – 47.

[4] Luis Torgo (2003). Data Mining with R: learning by case studies. LIACC-FES, University of Porto – Portugar.1 – 3, 79 – 110

[5] Iebeling Kaastra, Milton Boyd (1995). Designing a neural network for forecasting financial and economic time series. University of Manitoba – Canada.

[6] Freeman J.A. and Skapura D.M. (1991). Neural Networks - Algorithms, Applications and Programming Techniques.Addison Wesley, tr.89-124.

[7] J.O. Katz. Developing neural network forecaster for trading. Technical Analysis of

Stocks and Commodities. April 1992. Tr 58-70

[8] Ian H. Witten and Eibe Frank. Data mining – practical machine learning tools and techniques. Morgan Kaufmann, 2005

[9] http://www.docstoc.com/docs/21199408/Designing-a-neural-network-for- forecasting-financial-time-series/ [10] http://www.cs.waikato.ac.nz/ml/weka/ [11] http://jstock.sourceforge.net/ [12] http://www.java.com/en/download/ [13] http://netbeans.org/

Một phần của tài liệu NGUYÊN CỨU VÀ XÂY DỰNG HỆ THỐNG QUẢN LÝ VÀ DỰ ĐOÁN XU THẾ GIÁ CHỨNG KHOÁN DỰA TRÊN NỀN TẢNG MÃ NGUỒN MỞ (Trang 51 - 57)

Tải bản đầy đủ (PDF)

(57 trang)