0
Tải bản đầy đủ (.doc) (85 trang)

Phân lớp dữ liệu bằng cây quyết định

Một phần của tài liệu LUẬN ÁN : 'XÂY DỰNG HỆ THỐNG TRỢ GIÚP ĐÁNH GIÁ RỦI RO VÀ BỒI THƯỜNG BẢO HIỂM XE CƠ GIỚI' (Trang 40 -42 )

8. Bố cục luận văn

1.3.4. Phân lớp dữ liệu bằng cây quyết định

Phân lớp dựa trên cây quyết định rất thích hợp cho việc khai phá dữ liệu vì cây quyết định có cấu trúc đơn giản, dễ hiểu và có thể được xây dựng khá nhanh, từ cây quyết định có thể dễ dàng rút ra các luật [6].

Quy nạp cây quyết định là một quá trình học tập của cây quyết định từ các nhãn lớp của bộ dữ liệu huấn luyện (training tuple). Một cây quyết định là một biểu đồ dòng dữ liệu như cấu trúc cây, mỗi nút trong (không phải lá) tượng trưng cho một thuộc tính kiểm tra, mỗi nhánh đại diện cho kết quả của việc kiểm tra, và mỗi nút lá (hay nút giới hạn) giữ một lớp nhãn. Nút đầu tiên trên cây là nút gốc.

Quá trình phân lớp dữ liệu thông qua 2 bước cơ bản như sau:

Bước 1: Xây dựng mô hình từ tập huấn luyện

+ Mỗi bộ/mẫu dữ liệu được phân vào một lớp được xác định trước.

+ Tập các bộ/mẫu dữ liệu huấn luyện - tập huấn luyện - được dùng để xây dựng mô hình.

+ Mô hình được biểu diễn bởi các luật phân lớp, các cây quyết định hoặc các công thức toán học.

Hình 1.1. Xây dựng mô hình

Bước 2: Sử dụng mô hình, kiểm tra tính đúng đắn của mô hình và dùng nó để phân lớp dữ liệu mới.

+ Phân lớp cho những đối tượng mới hoặc chưa được phân lớp.

+ Đánh giá độ chính xác của mô hình:

 Lớp biết trước của một mẫu/bộ dữ liệu đem kiểm tra được so sánh với kết quả thu được từ mô hình.

 Tỉ lệ chính xác bằng phần trăm các mẫu/bộ dữ liệu được phân lớp đúng bởi mô hình trong số các lần kiểm tra.

Hình 1.2. Sử dụng mô hình

Việc tạo cây quyết định bao gồm 2 giai đoạn: Tạo cây và tỉa cây.

Để tạo cây ở thời điểm bắt đầu tất cả những ví dụ huấn luyện là ở gốc sau đó phân chia ví dụ huấn luyện theo cách đệ qui dựa trên thuộc tính được chọn.

Việc tỉa cây là xác định và xóa những nhánh mà có phần tử hỗn tạp hoặc những phần tử không thể phân vào một lớp nào đó.

Một phần của tài liệu LUẬN ÁN : 'XÂY DỰNG HỆ THỐNG TRỢ GIÚP ĐÁNH GIÁ RỦI RO VÀ BỒI THƯỜNG BẢO HIỂM XE CƠ GIỚI' (Trang 40 -42 )

×