Giải thuật qui nạp cây quyết định (ID3)

Một phần của tài liệu (LUẬN văn THẠC sĩ) tìm hiểu, nghiên cứu hệ thống phát hiện xâm nhập dựa trên khai phá dữ liệu (Trang 49 - 50)

5. Phƣơng pháp nghiên cứu:

3.1.3.2. Giải thuật qui nạp cây quyết định (ID3)

Giải thuật quy nạp cây quyết định (gọi tắt là ID3) là một giải thuật học đơn giản nhƣng tỏ ra thành cơng trong nhiều lĩnh vực. ID3 là một giải thuật hay vì cách biểu diễn tri thức học đƣợc của nĩ, tiếp cận của nĩ trong việc quản lý tính phức tạp, khám phá của nĩ dùng cho việc chọn lựa các khái niệm ứng viên, và tiềm năng của nĩ đối với việc xử lý dữ liệu nhiễu. ID3 biểu diễn các khái niệm (concept) ở dạng các cây quyết định (decision tree). Biểu diễn này cho phép chúng ta xác định phân loại của một đối tƣợng bằng cách kiểm tra các giá trị của nĩ trên một số thuộc tính nào đĩ. Nhƣ vậy, nhiệm vụ của giải thuật ID3 là học cây quyết định từ một tập các ví dụ rèn luyện (Training example) hay cịn gọi là dữ liệu rèn luyện (Training data). Hay nĩi khác hơn, giải thuật cĩ:

- Đầu vào: Một tập hợp các ví dụ. Mỗi ví dụ bao gồm các thuộc tính mơ tả một tình huống, hay một đối tƣợng nào đĩ, và một giá trị phân loại của nĩ.

- Đầu ra: Cây quyết định cĩ khả năng phân loại đúng đắn các ví dụ trong tập dữ liệu rèn luyện, và hy vọng là phân loại đúng cho cả các ví dụ chƣa gặp trong tƣơng lai.

Giải thuật cơ bản (giải thuật tham lam) được chia thành các bước như sau:

- Cây đƣợc xây dựng đệ qui từ trên xuống dƣới (top-down) và theo cách thức chia để trị (divide-conquer).

- Ở thời điểm bắt đầu, tất cả những ví dụ huấn luyện ở gốc.

- Thuộc tính đƣợc phân loại (nếu là giá trị liên tục chúng đƣợc rời rạc hĩa).

- Những ví dụ huấn luyện đƣợc phân chia đệ qui dựa trên thuộc tính mà nĩ chọn lựa. - Kiểm tra những thuộc tính đƣợc chọn dựa trên nền tảng của heristic (khám phá) hoặc của một định lƣợng thống kê.

Điều kiện để dừng việc phân chia:

- Tất cả những mẫu huấn luyện đối với một node cho trƣớc thuộc về cùng một lớp. - Khơng cịn thuộc tính cịn lại nào để phân chia tiếp.

- Khơng cịn mẫu nào cịn lại.

Một phần của tài liệu (LUẬN văn THẠC sĩ) tìm hiểu, nghiên cứu hệ thống phát hiện xâm nhập dựa trên khai phá dữ liệu (Trang 49 - 50)

Tải bản đầy đủ (PDF)

(70 trang)