Các mẫu thường xuyên và các quy tắc tương quan hoặc kết hợp tương ứng của chúng đặc trưng cho các mối quan hệ thú vị giữa các thuộc tính điều kiện và các nhãn của lớp, do vậy chúng được dùng để phân lớp rất hiệu quả. Các luật kết hợp chỉ ra các kết hợp mạnh giữa các cặp giá trị thuộc tính (hoặc các chỉ mục) mà xảy ra thường xuyên trong tập dữ liệu cho trước. Các luật kết hợp được dùng rộng rãi để phân tích các mẫu mua sắm của khách hàng trong một cửa hiệu. Chẳng hạn việc phân tích có lợi trong nhiều quyết định – thực hiện xử lý, như là vị trí sản phẩm, thiết kế catalog và quảng cáo khuếch trương. Việc phát hiện ra luật kết hợp dựa trên việc khai phá tập mục thường xuyên. ở đây, chúng ta tìm hiểu sâu về việc phân lớp kết hợp, nơi mà các luật kết hợp được phát sinh và được phân tích phục vụ mục đích phân loại. Ý tưởng chung là chúng ta có thể tìm kiếm các kết hợp mạnh giữa các mẫu thường xuyên (các kết hợp của các cặp giá trị thuộc tính) và các nhãn lớp. Vì các luật kết hợp khai thác các kết hợp có độ tin cậy cao trong số nhiều thuộc tính tại một thời điểm. Trong nhiều trường hợp, việc phân loại theo kết hợp đã được tìm là chính xác hơn một số phương pháp phân loại truyền thống, như thuật toán C4.5… Chúng ta sẽ xem xét 3 phương pháp chính là CBA, cmAR, và CPAR.
Trước hết chúng ta nhắc lại việc khai phá theo luật kết hợp nói chung. Các luật kết hợp được khai phá theo tiến trình 2 bước bao gồm khai phá tập mục thường xuyên sau đó là việc sinh luật:
- Bước thứ nhất, tìm các mẫu của các cặp giá trị thuộc tính mà xảy ra lặp đi lặp lại trong tập dữ liệu, nơi mà mỗi cặp giá trị thuộc tính được xem như một chỉ mục. Các cặp giá trị thuộc tính kết quả có dạng các tập chỉ mục thường xuyên.
hợp. Tất cả các luật kết hợp phải thỏa mãn một số tiêu chuẩn “chính xác” (độ tin cậy) và tỷ lệ có mặt trên dữ liệu (độ ủng hộ).
Gọi D là tập dữ liệu, mỗi bộ trong D có n là thuộc tính A1,A2,…,An và một thuộc tính nhãn lớp Aclass. Tất cả các thuộc tính liên tục được rời rạc hóa và được coi là thuộc tính chủng loại. Một chỉ mục p là một cặp giá trị thuộc tính có dạng (Ai, ), ở đây: A1 là một thuộc tính nhận giá trị . Một bộ dữ liệu X = (x1,x2,…,xn) thỏa mãn một chỉ mục p =( Ai, ) nếu và chỉ nếu xi, = , với xi là giá trị thứ I của X. Luật kết hợp có thể có một số chỉ mục điều kiện và một số chỉ mục kết quả. Chúng ta quan tâm đến các luật khai phá với luật kết hợp có dạng p1^p2^…^pk => Aclass = C, với k=1,…,n. Luật R đưa ra là tỷ lệ các bộ phận trong D có khả năng thỏa mãn các chỉ mục điều kiện và có nhãn lớp C được gọi là độ tin cậy của D.
Ví dụ:
Luật kết hợp R: tuổi = trẻ AND tín dụng = OK => mua máy tính = yes [ độ ủng hộ 20%, độ tin cậy 93%] nghĩa là 93% khách hàng trong D là trẻ và có thẻ tín dụng (OK) có khả năng thuộc lớp có mua máy tính (nhãn lớp C). Tỷ lệ các bộ trong D thỏa mãn điều kiện:
tuổi = trẻ AND tín dụng = OK mà có nhãn lớp là C
được gọi là ủng hộ của R, nghĩa là 20% khách hàng trong D là trẻ, có thẻ tín dụng và có mua máy tính.
Một trong những thuật toán sớm nhất và đơn giản nhất để phân loại theo luật kế hợp là CBA (Classification-Based Associon). CBA sử dụng một cách tiếp cận lặp tới việc khai phá tập mục thường xuyên, tương tự như mô tả đối với thuật toán Apriori. Tập các luật cuối cùng thỏa mãn ngưỡng cực tiểu độ tin cậy và cực tiểu độ ủng hộ được tìm và được kết luận để kết luận trong bộ phân loại. CBA sử dụng một phương pháp tự khám để cấu trúc bộ phân loại xếp quyền ưu tiên theo thứ tự giảm dần dựa trên độ ủng hộ và tin cậy của chúng.
Nói chung CBA được tìm theo kinh nghiệm và chính xác hơn thuật toán C4.5. CMAR (Classification based on Multiple Asociation Rule) khác CBA về mặt chiến thuật khai phá tập thường xuyên và cách xây dựng bộ phân lớp. CMAR chấp nhận một phương án của thuật toán FP-growth để tìm tập các luật cuối cùng thỏa mãn các ngưỡng tối thiểu về độ tin cậy và độ ủng hộ. FP-growth sử dụng một cấu trúc cây được gọi là FP- cây để đăng ký tất cả các thông tin của tập chỉ mục thường xuyên chứa đựng trong tập dữ liệu đã cho D. Các tập mục thường xuyên được khai phá từ FP- cây. CMAR sử dụng một FP- cây nổi bật nhằm duy trì phân bố các nhóm lớp trong số các bộ thỏa mãn mỗi tập thường xuyên. Theo cách này, cho phép sinh ra các luật tổ hợp cùng với việc khai phá tập mục thường xuyên trong một bước đơn.
CBA và CMAR chấp nhận các phương pháp khai phá tập mục thường xuyên để sinh ra các luật kết hợp ứng viên bao gồm tất cả các kết hợp các cặp (các tập mục) giá tri thuộc tính thỏa mãn cực tiểu độ ủng hộ. Các luật này sau đó được kiểm tra và một tập con của nó được chọn để trình diễn bộ phân loại. Tuy nhiên các phương pháp như thế sẽ sinh ra một lượng lớn các luật.
Tiếp cận theo các cách để sinh luật (CPAR – Classification base on Predictive Asociation Rules ) dựa trên một thuật toán phân lớp nổi tiếng như FOLL (First Order Inductive Learner). FOLL xây dựng các quy tắc để phân biệt các bộ chính diện (mua máy tính = yes) từ các bộ phản diện (mua máy tính = no). Đối với đa lớp, FOLL được áp dụng cho từng lớp.