Mô hình hóa cây quyết định 36

Một phần của tài liệu LUẬN VĂN: ỨNG DỤNG MÔ HÌNH HỌC MÁY TIÊN TIẾN NHẰM TĂNG CƯỜNG KHẢ NĂNG DỰ BÁO XU THẾ CỦA THỊ TRƯỜNG CHỨNG KHOÁN ppt (Trang 45 - 46)

La chn độđo để tìm thuc tính chia ct tt nht

Chỉ rõ độ đo dùng đểđo sự không thuần nhất cho cây quyết định: entropy, gain hay gini. Thông thường các thuật toán trong cây quyết định đã trình bày trong mục 2.7 đều lựa chọn một độđo nào đó để tìm một giá trị chia cắt tốt nhất. Ví dụ như ID3 chọn độđo là entropy, C4.5 chọn độđo Gain Ratio, CART chọn độ đo là gini…. Hầu như tất cả các thuật toán đều tính độ chia cắt trên tất cả các thuộc tính đầu vào, sau đó tùy từng độđo để tìm một thuộc tính có giá trị thích hợp: gain lấy thuộc tính có giá trị lớn nhất, gini lấy thuộc tính có giá trị nhỏ nhất. .….

S nhánh trên mt nút lá

Nếu số nhánh này càng lớn thì cây sinh ra sẽ rộng, chiều cao của cây sẽ giảm xuống và ngược lại. Thông thường, mọi người đặt giá trị này là 2 để đỡ phải tìm số nhánh phù hợp cho cây. Nhưng như thế, nó có thể làm cho sự tương tác trong dữ liệu kém đi, đối với những dữ liệu lớn có thể sẽ tạo ra một cây với kích thước lớn, làm giảm khả năng học của cây.

Bohanec và Bratko (1994) [12] xây dựng một cây quyết định để quyết định xem vị trí nào của con cờ trắng trên bàn cờ là hợp pháp. Họđã chứng minh được rằng, khi xây dựng cây quyết định với 4 nhánh thì độ chính xác là 98.45%, với 5 nhánh là 99.57%, với 11 nhánh thì độ chính xác là lớn nhất 100%. Như vậy, lớn gấp đôi về số nhánh nhưng độ chính xác chỉ nhỏ hơn dưới 0.5%.

Ngưỡng s dng cho vic ct ta

Nếu giá trị này càng nhỏ thì cây sinh ra sẽđược cắt càng nhiều và sẽ không tiếp tục phân chia nếu số lượng bản ghi nhỏ hơn giá trị này. Mặc định giá trị này là 0.25

Ct nhánh

Tránh overfitting và làm giảm những nhánh thừa không ảnh hưởng đến kết quả phân lớp trên dữ liệu huấn luyện, chúng ta sử dụng cắt nhánh trong quá trình lớn lên của cây. Có hai giá trịđể chọn là “true” hoặc “false”. Mặc định là cây được cắt nhánh

37

Một phần của tài liệu LUẬN VĂN: ỨNG DỤNG MÔ HÌNH HỌC MÁY TIÊN TIẾN NHẰM TĂNG CƯỜNG KHẢ NĂNG DỰ BÁO XU THẾ CỦA THỊ TRƯỜNG CHỨNG KHOÁN ppt (Trang 45 - 46)