V , tập_thuộc_tính), gắn kết quả vào nhánh
i. Cắt tỉa cây quyết định
3.2. Cây quyết định ứng dụng trong phân lớp dữ liệu 1.Định nghĩa:
3.2.1.Định nghĩa:
Trong những năm qua, nhiều mô hình phân lớp dữ liệu đã được các nhà khoa học trong nhiều lĩnh vực khác nhau đề xuất như mạng notron, mô hình thông kê tuyến tính bậc 2, cây quyết định, mô hình di truyền. Trong số những mô hình đó, cây quyết định với những ưu điểm của mình được đánh giá là một công cụ mạnh, phổ biến và đặc biệt thích hợp cho Data Mining nói chung và phân lớp dữ liệu nói riêng[6][15] .Có thể kể ra những ưu điểm của cây quyết định như: xây dựng tương đối nhanh; đơn giản, dễ hiểu. Hơn nữa các cây có thể dễ dàng được chuyển đổi sang các câu lệnh SQL để có thể được sử dụng để truy nhập cơ sở dữ liệu một cách hiệu quả. Cuối cùng, việc phân lớp dựa trên cây quyết định đạt được sự tương tự và đôi khi là chính xác hơn so với các phương pháp phân lớp khác.
Cây quyết định có hình dáng cấu trúc cây nút bên trong biểu thị một kiểm tra trên một thuộc tính , nhánh biểu diễn đầu ra của kiểm tra , nút lá biểu diễn nhãn lớp hoặc sự phân bố của lớp. Cây quyết định là biểu đồ phát triển có cấu trúc dạng cây, như mô tả trong hình vẽ sau:
Trong cây quyết định:
Gốc: là node trên cùng của cây;
Node trong: biểu diễn một kiểm tra trên một thuộc tính đơn (hình chữ nhật); Nhánh: biểu diễn các kết quả của kiểm tra trên node trong (mũi tên);
Node lá: biểu diễn lớp hay sự phân phối lớp.
Để phân lớp mẫu dữ liệu chưa biết, giá trị các thuộc tính của mẫu được đưa vào kiểm tra trên cây quyết định. Mỗi mẫu tương ứng có một đường đi từ gốc đến lá và lá biểu diễn dự đoán giá trị phân lớp mẫu đó.