Phân lớp dựa trên các quy tắc IF-THEN

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu một số phương pháp tìm các luật kết hợp phân lớp trên tập mẫu học và ứng dụng (Trang 25 - 28)

Chúng ta nghiên cứu các cách phân loại dựa trên quy tắc ở nơi các mô hình học được trình diễn bằng một tập quy tắc IF-THEN. Trước hết chúng ta xem các quy tắc nào được dùng để phân loại. Sau đó chúng ta xét các cách có thể phát sinh hoặc từ cây quyết định hoặc trực tiếp từ dữ liệu huấn luyện nhờ việc sử dụng một thuật toán “phủ thường xuyên”.

Các quy tắc là một phương pháp tốt để trình diễn thông tin hoặc một lượng tri thức. Một bộ phân loại dựa trên quy tắc sử dụng một tập các quy tắc IF-THEN để phân loại. Một quy tắc IF-THEN là một biểu diễn dạng:

Ví dụ:

R1: IF tuổi = trẻ AND sinhvien = yes THEN muamaytinh = yes Sau IF là tiền điều kiện bao gồ nhiều hơn một kiểm thử giá trị thuộc tính, sau THEN là kết quả. Kết quả chứa một lớp dự đoán (ví dụ lớp khách sẽ mua máy tính).

Ta có thể viết khác:

R1: (tuổi = trẻ)^(sinhvien = yes) -> (muamaytinh = yes)

Nếu điều kiện (tất cả các thuộc tính test) trong vế trái quy tắc đúng đối với bộ dữ liệu, ta nói chúng thỏa mãn (hay nói đơn giản là quy tắc đó thỏa mãn điều kiện trái) và nói rằng quy tắc đó phủ bộ đó.

Cho bộ X, từ tập dữ liệu đã phân lớp có nhãn, gọi nphủ là số các bộ được phủ bởi quy tắc R, gọi nđúng là số các bộ thỏa mãn đúng quy tắc R, còn /D/ là số các bộ trong D. Chúng ta có thể xác định độ phủ và độ đúng của quy tắc R như sau:

Độ phủ (R) = nphủ /D /

Độ đúng (R) = ndúng

nphủ

Nghĩa là độ phủ của quy tắc là tỷ lệ của các bộ mà được phủ bởi quy tắc trên tổng số các bộ dữ liệu. Còn độ đúng của quy tắc là tỷ lệ các bộ đúng trên tổng các bộ được phủ bởi quy tắc.

Bảng 1.2: Các bộ huấn luyện đã được phân lớp trong CSDL

RID age income student credit- rating

Class: buys computer

1 youth high No fair no

2 youth high No excellent no

3 middle

aged high No fair yes

4 senior medium No fair yes

5 senior low Yes fair yes

6 senior low Yes excllent no

7 middle

aged low yes excllent yes

8 youth medium no fair no

9 youth low yes fair yes

10 senior medium yes fair yes

11 youth medium yes excellent yes

12 middle

aged medium no excellent yes

13 middle

aged high yes fair yes

14 senior medium no excellent no

Xét quy tắc R1 trên, có 2 bộ (bộ thứ 9 và thứ 11) được phủ trong 14 bộ. Trong 2 bộ phủ đó, tất cả đều đúng. Vậy độ phủ (R1) = 2/14 = 14,28%, còn độ đúng = 2/2 = 100%.

Ngoài quy tắc IF-THEN, người ta còn sử dụng nhiều quy tắc khác nữa như quy tắc trích rút từ một cây quyết định, quy tắc quy nạp nhờ sử dụng thuật

toán phủ theo dãy,…

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu một số phương pháp tìm các luật kết hợp phân lớp trên tập mẫu học và ứng dụng (Trang 25 - 28)

Tải bản đầy đủ (PDF)

(74 trang)