Trong vài năm gần đây, một cách tiếp cận mới khai phá luật kết hợp và phân lớp được gọi là phân lớp kết hợp đã được đề xuất [6] [7]. Các phương pháp khai phá luật kết hợp đã được sử dụng thành công để xây dựng các bộ phân lớp chính xác. Một số bộ phân lớp chính xác và hiệu quả dựa trên phân lớp kết hợp đã được trình bày trong vài năm gần đây, chẳng hạn như CMAR [6], CPAR [8], CBA [7] và MCAR [9].
Nhiều nghiên cứu thực nghiệm [7] [8] cho thấy rằng phân lớp là một cách tiếp cận đầy hứa hẹn, nó xây dựng các bộ phân lớp chính xác hơn các kỹ thuật phân lớp truyền thống như cây quyết định [10], quy nạp [11]. Hơn nữa, nhiều luật thu được bằng các phương pháp tạo luật kết hợp không thể được phát hiện bằng các giải thuật phân lớp truyền thống.
Phân lớp kết hợp (AC) là một kỹ thuật hiện đại mới, là một quá trình gồm năm bước như thể hiện trong dưới. [12]
Bước 1: Thu thập tất cả các tập phổ biến không có thuộc tính nhãn lớp để có được độ hỗ trợ tối thiểu nhất định bằng cách sử dụng tập dữ liệu huấn luyện.
Bước 2: Hình thành luật phân lớp kết hợp (CAR) với tất cả các nhãn lớp bằng cách sử dụng các tập mục phổ biến thường xuyên được tạo ra từ bước 1 để có được độ hỗ trợ và độ tin cậy tối thiểu nhất định.
Bước 3: thu gọn và xếp hạng các luật kết hợp (CAR) để xây dựng phân lớp (AC) hiệu quả.
Bước 4: Xây dựng Bộ phân lớp kết hợp hiệu quả bằng cách sử dụng tập hợp con CAR nhận được từ bước 3.
Bước 5: Dự đoán nhãn lớp cho các đối tượng tập dữ liệu thử nghiệm cho nhãn lớp nào chưa biết.
Hình 1.4 Các bước trong quy trình phân lớp kết hợp [12]
Trong bước 1, tất cả các tập phổ biến được thu thập dựa trên các giải thuật nổi tiếng bằng cách sử dụng tập dữ liệu huấn luyện cho mức hỗ trợ tối thiểu nhất định. Tìm tập phổ biến là một quá trình tốn thời gian. Từ các tập phổ biến, các luật kết hợp (CAR) được tạo ở bước 2 cho tất cả các nhãn lớp theo độ tin cậy và độ hỗ trợ tối thiểu đã cho. Các luật kết hợp CAR là tập con của tập luật kết hợp. Tuy nhiên, các kết quả luật kết hợp CAR là rất nhiều và hầu hết các luật là thừa, bất lợi cho độ chính xác của dự đoán và không hữu ích. Vì vậy, việc cắt giảm luật là cần thiết để có được bộ luật CAR nhỏ chất lượng cao. Trong số các luật được lược bớt, các luật rất hiệu quả sẽ được chọn để xây dựng bộ phân lớp hiệu quả. Đối với điều này, một số phương pháp xếp hạng luật được sử dụng dựa trên luật nào được chọn. Điều này được thực hiện trong bước 3 và 4. Sử dụng bộ phân lớp này, các nhãn lớp cho các đối tượng từ tập dữ liệu thử nghiệm được dự đoán trong bước 5. Tất cả chúng đều được xác minh với các nhãn lớp hiện có trong tập dữ liệu thử nghiệm và chất lượng của bộ phân lớp được xác định nhờ vào sự đối sánh với nhãn lớp hiện có của tập thử nghiệm.
Năm chức năng này được kết hợp thành ba giai đoạn của quy trình là tạo luật (CAR), xây dựng bộ phân lớp và dự đoán độ chính xác. Ba giai đoạn này được thể hiện trong ba vùng có dấu chấm của hình trên. Trong một số bộ phân lớp kết hợp như CPAR [8]và CACA [13], hai giai đoạn đầu tiên của quy trình, tạo luật CAR và xây dựng bộ phân lớp, được tích hợp một cách hiệu quả, giúp xây dựng bộ phân lớp tốt hơn trong thời gian ngắn hơn.