Phân lớp kết hợp (AC) là một nhánh của một lĩnh vực nghiên cứu khoa học rộng lớn được gọi là khai phá dữ liệu. Phân lớp kết hợp sử dụng khai phá luật kết hợp để trích xuất các luật hiệu quả, có thể khái quát chính xác tập dữ liệu huấn luyện, trong quá trình khai phá luật. So với các phương pháp phân lớp khác các phương pháp phân lớp kết hợp đã đạt được độ chính xác cao.
Trong phân lớp kết hợp, các luật kết hợp được phát hiện và phân tích để xây dựng bộ phân lớp. Ý tưởng đưa ra là bằng cách phân tích các luật kết hợp này, chúng ta có thể tìm sự liên kết mạnh mẽ giữa các nhãn lớp và các tập mục phổ biến (liên kết của các cặp thuộc tính – giá trị). Do luật kết hợp tìm kiếm các liên kết có độ tin cậy cao giữa nhiều thuộc tính, nên phương pháp này thường khắc phục các ràng buộc được đưa ra bởi phương pháp quy nạp của cây quyết định, chỉ sử dụng một thuộc tính tại một thời điểm. Các nghiên cứu phát hiện ra rằng phân lớp kết hợp đã chính xác hơn một số phương pháp phân lớp truyền thống khác. Trong phần này xin giới thiệu về các phương pháp sau: CBA của Bing Liu đề xuất năm 1998, CMAR của W Li đề xuất năm 2005 [9] và CPAR của X Yin đề xuất năm 2003 [2].
* CBA (Classification Based on Association)
CBA có hai phần. Một là, một trình tạo luật (được gọi là CBA-RG), dựa trên giải thuật Apriori (đã được trình bày ở trên) để tạo ra các luật kết hợp từ tập dữ liệu huấn luyện và phần khác là trình xây dựng phân lớp (gọi là CBA-CB). [14]
Chức năng chính của CBA-RG là xác định tất cả các tập mục luật có hỗ trợ trên ngưỡng hỗ trợ. Các tập mục luật thỏa mãn ngưỡng hỗ trợ được gọi là tập mục luật phổ biến, trong khi phần còn lại được gọi là mục luật hiếm. Đối với tất cả các luật có
cùng một tập mục, luật có độ tin cậy cao nhất được chọn là luật có khả năng cao trở thành một luật trong tập luật. Trong trường hợp có nhiều hơn một luật có cùng độ tin cậy cao nhất bằng nhau, giải thuật sẽ lựa chọn ngẫu nhiên một luật. Nếu giá trị độ tin cậy lớn hơn ngưỡng tin cậy, có thể nói rằng luật này là chính xác. Tập hợp các luật phân lớp kết hợp chứa tất cả các luật như vậy sẽ hứa hẹn có độ phổ biến và giá trị độ tin cậy lớn hơn ngưỡng tin cậy.
Giải thuật CBA-RG lấy được tất cả các luật phổ biến bằng cách thực hiện nhiều lần truyền dữ liệu huấn luyện. Đầu tiên, nó đánh giá độ hỗ trợ của tất cả các luật riêng lẻ để quyết định xem luật đó có phổ biến hay không. Trong các lần tiếp theo, nó bắt đầu với tập hợp các luật phổ biến ban đầu được tìm thấy trong lần chuyển trước. Nó sử dụng bộ luật ban đầu này để rút ra các luật phổ biến mới, chúng được gọi là luật ứng viên. Các giá trị hỗ trợ thực tế cho các luật ứng viên này được đo lường qua tập dữ liệu huấn luyện. Cuối mỗi lượt, trong số các luật ứng viên, các luật phổ biến được xác định sẽ tạo ra luật phân lớp kết hợp (CAR).
Ý tưởng cơ bản đằng sau kỹ thuật xây dựng phân lớp CBA là chọn một tập hợp luật ưu tiên cao trong số tất cả các luật có thể xảy ra để bao quát tập dữ liệu huấn luyện.
* CMAR (Classification Based on Multiple Association Rules)
Về cơ bản giải thuật này có những đặc điểm sau:
Thay vì sử dụng một luật duy nhất với độ tin cậy cao nhất để phân lớp, CMAR sử dụng một bộ luật để phân lớp. Trong đó CMAR chọn một tập hợp nhỏ các luật có độ chính xác cao (có giá trị độ tin cậy cao), có liên quan với nhau. Sự tương quan giữa các luật này được phân tích. CMAR nói chung có độ chính xác dự đoán cao hơn CBA. [6]
Để cải thiện hiệu suất về độ chính xác và hiệu quả, CMAR sử dụng CRtree do Wenmin Li và cộng sự đề xuất năm 2001, nơi lưu trữ số lượng lớn các tập luật một cách nhỏ gọn và cung cấp truy xuất hiệu quả các luật này để phân lớp.
phương pháp truyền thống khác được sử dụng trong phân lớp dựa trên liên kết như Apriori.
* CPAR (Classification Based on Predictive Association Rules) [8]
Để cải thiện tính chính xác và hiệu quả CPAR sử dụng các tính năng sau: CPAR sử dụng lập trình động để tránh tính toán lặp lại cho việc tạo luật.
Đối với việc tạo luật, thay vì chỉ chọn Literal tốt nhất, tất cả các Literal gần nhất sẽ được chọn. Do đó, các luật quan trọng sẽ không được bỏ qua.
CPAR hiệu quả hơn so với phân lớp kết hợp truyền thống vì nó có được một bộ luật nhỏ hơn, với độ chính xác cao hơn và ít dư thừa hơn.