Cây quyết định

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu phát hiện tấn công WEB cơ bản dựa trên học máy sử dụng WEB LOG (Trang 46 - 48)

5. Phương pháp nghiên cứu

2.2.2.2. Cây quyết định

Cây quyết định (Decision Tree) là một đồ thị của các quyết định và các hậu quả có thể của nó (bao gồm rủi ro và hao phí tài nguyên). Cây quyết định được sử dụng để xây dựng một kế hoạch nhằm đạt được mục tiêu mong muốn. Các cây quyết định được dùng để hỗ trợ quá trình ra quyết định. Cây quyết định là một dạng đặc biệt của cấu trúc cây [3].

Trong lĩnh vực học máy, cây quyết định là một kiểu mô hình dự báo (predictive model), nghĩa là một ánh xạ từ các quan sát về một sự vật/hiện tượng tới các kết luận về giá trị mục tiêu của sự vật/hiện tượng. Mỗi một nút trong (internal node) tương ứng với một biến; đường nối giữa nó với nút con của nó thể hiện một giá trị cụ thể cho biến đó. Mỗi nút lá đại diện cho giá trị dự đoán của biến mục tiêu, cho trước các giá trị của các biến được biểu diễn bởi đường đi từ nút gốc tới nút lá đó. Kỹ thuật học máy dùng trong cây quyết định được gọi là học bằng cây quyết định, hay chỉ gọi với cái tên ngắn gọn là cây quyết định. Mô hình được biểu diễn trong hình 2.3 là một ví dụ đặc trưng của thuật toán cây quyết định.

Học bằng cây quyết định cũng là một phương pháp thông dụng trong khai phá dữ liệu. Khi đó, cây quyết định mô tả một cấu trúc cây, trong đó, các lá đại diện cho các phân loại còn cành đại diện cho các kết hợp của các thuộc tính dẫn tới phân loại đó. Một cây quyết định có thể được học bằng cách chia tập hợp nguồn thành

các tập con dựa theo một kiểm tra giá trị thuộc tính. Quá trình này được lặp lại một cách đệ qui cho mỗi tập con dẫn xuất. Quá trình đệ qui hoàn thành khi không thể tiếp tục thực hiện việc chia tách được nữa, hay khi một phân loại đơn có thể áp dụng cho từng phần tử của tập con dẫn xuất.

Hình 2.4: Mô hình thuật toán cây quyết định [13]

Cây quyết định có 2 loại:

Cây hồi quy (Regression tree): ước lượng các hàm có giá trị là số thực thay vì được sử dụng cho các nhiệm vụ phân loại (định giá, ước lượng giá trị của một căn nhà cần giao bán, khoảng thời gian nằm viện của 1 bệnh nhân).

Cây phân loại (Classification tree): được dùng trong các bài toán phân loại kếtquả (phân biệt giới tính, kết quả trận đấu, …).

Ưu điểm của thuật toán cây quyết định là đơn giản và phổ biến. Mô hình sinh ra các quy tắc dễ hiểu cho người đọc, tạo ra bộ luật với mỗi nhánh là một luật của cây. Dữ liệu đầu vào không cần chuẩn hóa, có thể làm việc với các dữ liệu số và dữ liệu phân loại và có thể làm việc với dữ liệu lớn. Ngoài ra còn có thể xác thực mô hình bằng cách sử dụng các kiểm tra thống kê.

Bên cạnh ưu điểm, thuật toán còn một số nhược điểm đi kèm như là mô hình phụ thuộc rất lớn vào dữ liệu ta có, với một sự thay đổi nhỏ trong bộ dữ liệu thì cấu

trúc mô hình cây quyết định có thể thay đổi hoàn toàn. Ngoài ra cây quyết định hay gặp vấn đề overfitting.

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu phát hiện tấn công WEB cơ bản dựa trên học máy sử dụng WEB LOG (Trang 46 - 48)

Tải bản đầy đủ (PDF)

(60 trang)