Chuyển đổi từ cây quyết định sang luật.

Một phần của tài liệu nghiên cứu tổng quan về công nghệ phân lớp dữ liệu nói chung và phân lớp dữ liệu dựa trên cây quyết định nói riêng và thuật toán C4.5 (Trang 28)

II. Thuật toán C4.5.

4.Chuyển đổi từ cây quyết định sang luật.

Việc chuyển đổi từ ccay quyết định sang luật sản xuất dạng if-then tạo ra những quy tắc phân lớp dẽ hiểu, dễ áp dụng. Các mô hình phân lớp biểu diễn các khái niêm dưới dạng các luật sản xuất đã được chứng minh là hữu ích trong nhiều lĩnh vực khác nhau, với các đòi hỏi cả về độ chính xác và tính hiểu được của mô hình phân lớp. Dạng output tập luật sản xuất là sự lựa chọn khôn ngoan. Tuy nhiên, tài nguyên tính toán dùng cho việc tạo ta

tập luật từ dữ liệu đào tạo có kích thước lớn và nhiều giá trị sai là vô cùng lớn.

Giai đoạn chuyển đổi từ cây quyết định sang luật gồm 4 bước: • Cắt tỉa:

Luật khởi tạo ban đầu là đường đi từ gốc đến lá của cây quyết định. Một quyết định có L lá thì tương ứng tập luật sản xuất sẽ có L luật khởi tạo. Từng điều kiện trong luật được xem xét và loại bỏ nếu không ảnh hưởng tới độ chính xác của luật đó. Sau đó, các luật đã được cắt tỉa được thêm vào tập luật trùng với những luật đã có. • Lựa chọn:

Các luật đã cắt tỉa được nhóm lại theo giá trị phân lớp, tạo nên các tập con chứa các luật theo lớp. Sẽ có k tập luật con nếu tập training co k giá trị phân lớp. Từng tập con trên được xem xét để chọn ra một tập con các luật mà tối ưu hóa độ chính xác dự đoán của lớp gắn với tập luật đó.

Sắp xếp:

Sắp xếp K tập luật đã tạo ra từ trên bước theo tần số lỗi. Lớp mặc định được tạo ra bằng cách xác định các case trong tập training không chứa tỏng các luật hiện tại và chọn lớp phổ biến nhất trong các case đó làm lớp mặc định.

Ước lượng, đánh giá:

Tập luật được đem ước lượng lại trên toàn bộ tập training nhằm mục đính xác định xem có luật nào làm giảm độ chính xác của sự phân lớp. Nếu có, luật đó bị loại bỏ và quá trình ước lượng được lặp cho đến khi không thể cải tiến thêm.

Một phần của tài liệu nghiên cứu tổng quan về công nghệ phân lớp dữ liệu nói chung và phân lớp dữ liệu dựa trên cây quyết định nói riêng và thuật toán C4.5 (Trang 28)