Thuật tốn phân lớp bằng học cây quyết định

Một phần của tài liệu NGHIÊN CỨU VÀ ÁP DỤNG MỘT SỐ KỸ THUẬT KHAI PHÁ DỮ LIỆU VỚI CƠ SỞ DỮ LIỆU NGÀNH THUẾ VIỆT NAM (Trang 67 - 68)

mơ hình phân lớp từ dữ liệu (cũng được gọi là các cây quyết định).

Cây quyết định quan trọng khơng phải vì nĩ tổng kết từ tập huấn luyện mà ta mong đợi nĩ sẽ phân lp chính xác các trường hợp mới. Như vậy khi xây dựng các mơ hình phân lớp ta cần cĩ cả dữ liệu huấn luyện để xây dựng mơ hình, cả dữ liệu kiểm thửđểđánh giá cây quyết định tốt mức nào.

Cho một tập các bản ghi. Mỗi bản ghi cĩ cùng một cấu trúc, gồm một số cặp thuộc tính/giá trị. Một trong các thuộc tính này biểu diễn phân loại của bản ghi. Bài tốn là xác định cây quyết định dựa trên các câu trả lời với các câu hỏi về các thuộc tính khơng phân loại (non-category) dự báo chính xác giá trị của thuộc tính phân loại. Thơng thường thuộc tính phân loại chỉ lấy các giá trị {true, false}, hoặc {success, failure} hoặc tương tự. Trong bất kỳ trường hợp nào, một trong các giá trị của nĩ cũng cĩ nghĩa là sai.

Các thuộc tính khơng phân loại cĩ thể là rời rạc hoặc liên tục. ID3 khơng trực tiếp xử lý với những trường hợp thuộc tính liên tục.

Ý tưởng cơ sở của ID3 là:

Trong cây quyết định mỗi node trong tương ứng với một thuộc tính khơng phân loại và mỗi cành tới một giá trị cĩ thể của thuộc tính đĩ. Lá của cây chỉ giá trị mong đợi của thuộc tính phân lớp cho các bản ghi được mơ tả bởi đường đi từ gốc tới lá. [ðây là định nghĩa Cây quyết định là gì]

Trong cây quyết định tại mỗi node cần tương ứng với thuộc tính khơng phân loại chứa nhiều thơng tin nhất trong số các thuộc tính chưa được xem xét trong đường đi từ gốc . [Việc này thiết lập cây quyết định “tốt”]

Entropy được dùng đểđo thơng tin thế nào là node. [ðiều này định nghĩa “tốt” là gì]

C4.5 là một mở rộng của ID3 với tính tốn các giá trị thiếu, các miền giá trị liên tục, cắt tỉa cây quyết định, suy diễn luật…

Một phần của tài liệu NGHIÊN CỨU VÀ ÁP DỤNG MỘT SỐ KỸ THUẬT KHAI PHÁ DỮ LIỆU VỚI CƠ SỞ DỮ LIỆU NGÀNH THUẾ VIỆT NAM (Trang 67 - 68)

Tải bản đầy đủ (PDF)

(112 trang)