Phân loại dựa vào luật kết hợp

"Khai thác luật kết hợp có thể được sử dụng để phân loại không?"

Khai thác luật kết hợp là một lĩnh vực quan trọng và có tính thiết thực cao của nghiên cứu khai thác dữ liệu. Các kỹ thuật khai thác dữ liệu áp dụng khai thác luật kết hợp cho các bài toán phân loại đã phát triển. Trong phần này, ta nghiên cứu phân loại dựa trên sự kết hợp.

Một phương pháp phân loại dựa trên sự kết hợp gọi là phân loại kết hợp, gồm có 2 bước. Bước đầu tiên, các luật kết hợp được sinh ra sử dụng một phiên bản đã sửa đổi của giải thuật khai thác luật kết hợp chuẩn đã biết như Apriori. Bước 2 xây dựng một phân loại dựa trên các luật kết hợp đã phát hiện.

Cho D là dữ liệu huấn luyện và Y là tập tất cả các lớp trong D. Giải thuật ánh xạ các thuộc tính xác thực vào các giá trị nguyên dương liên tiếp. Các thuộc tính

liên tục được rời rạc hoá và được ánh xạ. Mỗi mẫu dữ liệu d trong D sau đó được biểu diễn bởi một tập các cặp (thuộc tính, giá trị nguyên) gọi là các item và một nhãn lớp y. Cho I là tập tất cả các item trong D. Một luật kết hợp lớp (viết tắt: CAR - Class Association Rule) có dạng condset ⇒ y, với condset là một tập các item (condset ⊆ I) và y ∈Y. Các luật đó được biểu diễn bởi các ruleitem có dạng <condset,y>.

CAR có độ tin cậy c nếu c% các mẫu trong D chứa condset thuộc lớp y. CAR có hỗ trợ s nếu s% các mẫu trong D chứa condset và thuộc lớp y. Tổng hỗ trợ của một condset (condsupCount) là số lượng mẫu trong D chứa condset.

Tổng luật của một ruleitem (luật của mẫu) có độ hỗ trợ (rulesupCount) là số lượng mẫu trong D có condset và được gán nhãn với lớp y. Các ruleitem thoả độ hỗ trợ cực tiểu là các ruleitem phổ biến. Nếu một tập các ruleitem có cùng condset thì luật với độ tin cậy cao nhất được lựa chọn như một luật có thể (viết tắt: PR - Possible Rule) để miêu tả tập. Một luật thoả độ tin cậy cực tiểu được gọi là luật chính xác.

"Phân loại kết hợp làm việc như thế nào?"

Trước tiên, phương pháp phân loại kết hợp tìm tập tất cả các PR mà có cả tính phổ biến và tính chính xác. Đó chính là các luật kết hợp lớp (viết tắt CARs - Class Association Rules). Một ruleitem mà condset của nó chứa k item là một k- ruleitem. Giải thuật dùng một tiếp cận lặp, ở đây các ruleitem được xử lý tốt hơn các itemset. Giải thuật quét cơ sở dữ liệu, tìm kiếm k-ruleitems phổ biến, với k= 1,2,... cho tới khi tất cả các k-ruleitems phổ biến được tìm ra. Một lần quét được thực hiện đối với mỗi giá trị của k. k-ruleitems được dùng để khảo sát (k+1)- ruleitems. Khi quét cơ sở dữ liệu lần đầu tiên, tổng số hỗ trợ của 1-ruleitems được xác định và 1-ruleitems phổ biến được giữ lại. 1-ruleitems phổ biến còn gọi là tập F1

được dùng để sinh ra ứng cử 2-ruleitems C2. Tri thức của các đặc tính ruleitem thường xuyên được dùng để cắt tỉa các ruleitem ứng cử không phải là thường

xuyên. Tri thức này cho thấy rằng tất cả các tập con không rỗng của một ruleitems thường xuyên cũng phải là thường xuyên. Cơ sở dữ liệu được quét lần thứ 2 để tính tổng số hỗ trợ của mỗi ứng cử, để 2-ruleitems thường xuyên (F2) có thể được xác định. Xử lý này lặp lại với Fk được dùng để sinh ra Ck+1, cho tới khi không tìm thấy một ruleitems thường xuyên nào nữa. Các ruleitems thường xuyên mà thoả độ tin cậy cực tiểu hình thành nên tập các CAR. Việc cắt tỉa có thể được áp dụng cho tập luật này.

Bước thứ 2 của phương pháp phân loại kết hợp xử lý các CAR được phát sinh để xây dựng phân loại. Vì tổng số lượng các tập con các luật được kiểm tra để xác định tập các luật chính xác nhất có thể là khổng lồ nên một phương pháp heuristic sẽ được dùng. Một thứ tự quyền ưu tiên giữa các luật được định nghĩa, tại đó một luật ri có độ ưu tiên cao hơn các luật rj (tức là ri≻ rj) nếu:

(1) Độ tin cậy của ri lớn hơn của rj, hay

(2) Các độ tin cậy là giống nhau nhưng ri có hỗ trợ lớn hơn, hay

(3) Các độ tin cậy và hỗ trợ của ri và rj là như nhau nhưng ri được sinh ra sớm hơn rj.

Nhìn chung, giải thuật lựa chọn một tập các CAR quyền ưu tiên cao để phủ các mẫu trong D. Phân loại duy trì các luật được chọn lựa từ thứ tự ưu tiên cao tới thấp. Khi phân loại một mẫu mới, luật đầu tiên thoả mẫu sẽ được dùng để phân loại nó. Phân loại cũng chứa đựng một luật ngầm định, có thứ tự ưu tiên thấp nhất, nó định rõ một lớp ngầm định cho bất kỳ một mẫu mới nào mà không thoả bởi bất cứ một luật nào khác trong phân loại.

Do vậy, khai thác luật kết hợp là một chiến lược quan trọng để sinh ra các phân loại chính xác và có thể mở rộng.

Hướng tiếp cận phân loại dựa vào luật kết hợp đầu tiên sẽ tìm tất cả các tập phần tử phổ biến thỏa MinSupp trong tập dữ liệu huấn luyện. Nếu phần tử phổ biến chỉ bao gồm một giá trị đơn ví dụ như <(A1, a1)>, <(A2, a2)>, <(A3, a3)> được gọi là phần tử phổ biến đơn. Những phần tử phổ biến đơn này sẽ được sử dụng để tạo các tập phổ biến đôi chứa 2 phần tử. Những tập phổ biến đôi lại được sử dụng để tạo tập phổ biến ba phần tử… Tất cả các tập phổ biến được tìm thấy sau đó sẽ được sử dụng để rút luật kết hợp phân loại có đặc điểm vế phải chỉ bao gồm thuộc tính phân loại. Các luật kết hợp phân loại này phải thỏa ngưỡng MinConf và phân loại được ít nhất một thể hiện trong dữ liệu huấn luyện.

Các vấn đề quan tâm của phân loại