Chúng ta nghiên cứu các cách phân loại dựa trên quy tắc ở nơi các mô hình học được trình diễn bằng một tập quy tắc IF-THEN. Trước hết chúng ta xem các quy tắc nào được dùng để phân loại. Sau đó chúng ta xét các cách có thể phát sinh hoặc từ cây quyết định hoặc trực tiếp từ dữ liệu huấn luyện nhờ việc sử dụng một thuật toán “phủ thường xuyên”.
Các quy tắc là một phương pháp tốt để trình diễn thông tin hoặc một lượng tri thức. Một bộ phân loại dựa trên quy tắc sử dụng một tập các quy tắc IF-THEN để phân loại. Một quy tắc IF-THEN là một biểu diễn dạng:
Ví dụ:
R1: IF tuổi = trẻ AND sinhvien = yes THEN muamaytinh = yes Sau IF là tiền điều kiện bao gồ nhiều hơn một kiểm thử giá trị thuộc tính, sau THEN là kết quả. Kết quả chứa một lớp dự đoán (ví dụ lớp khách sẽ mua máy tính).
Ta có thể viết khác:
R1: (tuổi = trẻ)^(sinhvien = yes) -> (muamaytinh = yes)
Nếu điều kiện (tất cả các thuộc tính test) trong vế trái quy tắc đúng đối với bộ dữ liệu, ta nói chúng thỏa mãn (hay nói đơn giản là quy tắc đó thỏa mãn điều kiện trái) và nói rằng quy tắc đó phủ bộ đó.
Cho bộ X, từ tập dữ liệu đã phân lớp có nhãn, gọi nphủ là số các bộ được phủ bởi quy tắc R, gọi nđúng là số các bộ thỏa mãn đúng quy tắc R, còn /D/ là số các bộ trong D. Chúng ta có thể xác định độ phủ và độ đúng của quy tắc R như sau:
Độ phủ (R) = nphủ /D /
Độ đúng (R) = ndúng
nphủ
Nghĩa là độ phủ của quy tắc là tỷ lệ của các bộ mà được phủ bởi quy tắc trên tổng số các bộ dữ liệu. Còn độ đúng của quy tắc là tỷ lệ các bộ đúng trên tổng các bộ được phủ bởi quy tắc.
Bảng 1.2: Các bộ huấn luyện đã được phân lớp trong CSDL
RID age income student credit- rating
Class: buys computer
1 youth high No fair no
2 youth high No excellent no
3 middle
aged high No fair yes
4 senior medium No fair yes
5 senior low Yes fair yes
6 senior low Yes excllent no
7 middle
aged low yes excllent yes
8 youth medium no fair no
9 youth low yes fair yes
10 senior medium yes fair yes
11 youth medium yes excellent yes
12 middle
aged medium no excellent yes
13 middle
aged high yes fair yes
14 senior medium no excellent no
Xét quy tắc R1 trên, có 2 bộ (bộ thứ 9 và thứ 11) được phủ trong 14 bộ. Trong 2 bộ phủ đó, tất cả đều đúng. Vậy độ phủ (R1) = 2/14 = 14,28%, còn độ đúng = 2/2 = 100%.
Ngoài quy tắc IF-THEN, người ta còn sử dụng nhiều quy tắc khác nữa như quy tắc trích rút từ một cây quyết định, quy tắc quy nạp nhờ sử dụng thuật
toán phủ theo dãy,…