Mô hình cây quyết định (Decision Tree Algorithm):- 123docz.net

Cây quyết định là một trong những hình thức mô tả trực quan và dễ hiểu nhất với ngƣời dùng. Nó thực hiện đƣợc cả hai nhiệm vụ của khai phá dữ liệu là Mô tả (Descriptive) và dự báo (Predictive). Nghĩa là một ánh xạ từ các quan sát về một sự vật / hiện tƣợng tới các kết luận về giá trị mục tiêu của sự vật / hiện tƣợng. Mỗi một nút trong (internal node) tƣơng ứng với một biến, đƣờng nối giữa nó với nút con của nó thể hiện một giá trị cụ thể cho biến đó. Mỗi nút lá đại diện cho giá trị dự đoán của biến mục tiêu, cho trƣớc các giá trị của các biến đƣợc biểu diễn bởi đƣờng đi từ nút gốc tới nút lá đó [4].

Hình 2.4: Ví dụ cây quyết định

Học bằng cây quyết định cũng là một phƣơng pháp thông dụng trong khai phá dữ liệu. Khi đó, cây quyết định mô tả một cấu trúc cây, trong đó, các lá đại diện cho các phân loại còn cành đại diện cho các kết hợp của các thuộc tính dẫn tới phân loại đó. Một cây quyết định có thể đƣợc học bằng cách chia tập hợp nguồn thành các tập con dựa theo một kiểm tra giá trị thuộc tính. Quá trình này đƣợc lặp lại một cách đệ qui cho mỗi tập con dẫn xuất. Quá trình đệ qui hoàn thành khi không thể tiếp tục thực hiện việc chia tách đƣợc nữa, hay khi một phân loại đơn có thể áp dụng cho từng phần

tử của tập con dẫn xuất. Một bộ phân loại rừng ngẫu nhiên (random forest) sử dụng một số cây quyết định để có thể cải thiện tỉ lệ phân loại.

Dữ liệu đƣợc cho dƣới dạng các bản ghi có dạng:(x, y) = (x1, x2, x3..., xk, y). Biến phụ thuộc (dependant variable) y là biến mà chúng ta cần tìm hiểu, phân loại hay tổng quát hóa, biến x1, x2, x3 … là các biến giúp ta thực hiện công việc đó.

Cây quyết định có ƣu điểm là: Dễ hiểu, dễ cài đặt, có thể chấp nhận trƣờng hợp tập dữ liệu huấn luyện có nhiễu, và cho hiệu quả phân loại tƣơng đối cao.

Tuy nhiên cây quyết định cũng có nhƣợc điểm là:

Việc sử dụng giải thuật cây quyết định liên quan đến một số hạn chế quan trọng, dựa vào trạng thái nguyên thuỷ của thuật toán mà chia các vùng mẫu đƣợc đƣa vào các tập hợp con. Trƣớc tiên, giải thuật này chia những tập mẫu tuỳ thuộc vào đặc trƣng (một bộ phận từ ) mọi lúc, bằng cách sử dụng các đặc trƣng rõ ràng mọi lúc. Dựa vào các nhân tố này, giải thuật này sẽ bị sai nếu một lỗi bị nhìn thấy tại bất cứ mức độ nào, bởi vì cây con bên dƣới cấp bậc sẽ bị sai. Do đó, giải thuật cây quyết định không mạnh và nó không đủ tin cậy để quyết định những nhánh phân loại.

Cây quyết định không chấp nhận một mẫu với số lƣợng lớn đặc trƣng đƣợc nhƣ SVM, vì quá nhiều đặc trƣng tạo nên tràn phù hợp và làm cho khả năng học kém hơn.

Một trở ngại khác là thời gian huấn luyện phân loại cao bởi vì giải thuật này cần so sánh tất cả những nhánh con có thể, nên mất nhiều thời gian để chia và duyệt các đặc trƣng.

Mô hình cây quyết định (Decision Tree Algorithm):

Khai phá dữ liệu (Data Mining)

Giới thiệu bài toán dự báo chứng khoán