Phân loại dựa trên sự kết hợp

"Khai phá luật kết hợp có thểđược sử dụng để phân loại không?"

Khai phá luật kết hợp là một lĩnh vực quan trọng và có tính thiết thực cao của nghiên cứu khai phá dữ liệu. Các kỹ thuật khai phá dữ liệu áp dụng khai phá luật kết hợp cho các bài toán phân loại đã phát triển. Trong phần này, ta nghiên cứu phân loại dựa trên sự kết hợp.

Một phương pháp phân loại dựa trên sự kết hợp gọi là phân loại kết hợp, gồm có 2 bước. Bước đầu tiên, các luật kết hợp được sinh ra sử dụng một version đã sửa đổi của giải thuật khai phá luật kết hợp chuẩn đã biết như Apriori. Bước 2 xây dựng một classifier dựa trên các luật kết hợp đã phát hiện.

Cho D là dữ liệu huấn luyện và Y là tập tất cả các lớp trong D. Giải thuật ánh xạ các thuộc tính xác thực vào các giá trị nguyên dương liên tiếp. Các thuộc tính liên tục được rời rạc hoá và được ánh xạ. Mỗi mẫu dữ liệu d trong D sau đó được biểu diễn bởi một tập các cặp (thuộc tính, giá trị nguyên) gọi là các item và một nhãn lớp y. Cho I là tập tất cả các item trong D. Một luật kết hợp lớp (viết tắt: CAR - class association rule) có dạng condset ⇒ y, với conset là một tập các item (conset ⊆ I) và y ∈ Y. Các luật đó được biểu diễn bởi các ruleitem có dạng <condset,y>.

CAR có độ tin cậy c nếu c% các mẫu trong D chứa condset thuộc lớp y. CAR có hỗ trợ s nếu s% các mẫu trong D chứa condset và thuộc lớp y. Tổng hỗ trợ của một condset (condsupCount) là số lượng mẫu trong D chứa condset.

Tổng luật của một ruleitem (rulesupCount) là số lượng mẫu trong D có condset

và được gán nhãn với lớp y. Các ruleitem thoả hỗ trợ cực tiểu là các ruleitem

thường xuyên. Nếu một tập các ruleitem có cùng condset thì luật với độ tin cậy cao nhất được lựa chọn như một luật có thể (viết tắt: PR - Possible Rule) để miêu tả tập. Một luật thoảđộ tin cậy cực tiểu được gọi là luật chính xác.

"Phân loại kết hợp làm việc như thế nào?"

Trước tiên, phương pháp phân loại kết hợp tìm tập tất cả các PR mà có cả tính thường xuyên và tính chính xác. Đó chính là các luật kết hợp lớp (viết tắt CARs - class association rules). Một ruleitem mà condset của nó chứa k item là một k-ruleitem. Giải thuật dùng một tiếp cận lặp, ở đây các ruleitem được xử lý tốt hơn các itemset. Giải thuật quét cơ sở dữ liệu, tìm kiếm k-ruleitems thường xuyên, với k = 1,2,... cho tới khi tất cả các k-ruleitems thường xuyên được tìm ra. Một lần quét được thực hiện đối với mỗi giá trị của k. k-ruleitems được dùng để khảo sát (k +1)-ruleitems. Khi quét cơ sở dữ liệu lần đầu tiên, tổng số hỗ trợ của 1-ruleitems được xác định và 1-ruleitems thường xuyên được giữ lại. 1- ruleitems thường xuyên còn gọi là tập F1 được dùng để sinh ra ứng cử 2- ruleitems C2. Tri thức của các đặc tính ruleitem thường xuyên được dùng để cắt tỉa các ruleitemứng cử không phải là thường xuyên. Tri thức này cho thấy rằng

tất cả các tập con không rỗng của một ruleitems thường xuyên cũng phải là thường xuyên. Cơ sở dữ liệu được quét lần thứ 2 để tính tổng số hỗ trợ của mỗi ứng cử, để 2-ruleitems thường xuyên (F2) có thể được xác định. Xử lý này lặp lại với Fk được dùng để sinh ra Ck+1, cho tới khi không tìm thấy một ruleitems thường xuyên nào nữa. Các ruleitems thường xuyên mà thoảđộ tin cậy cực tiểu hình thành nên tập các CAR. Việc cắt tỉa có thểđược áp dụng cho tập luật này.

Bước thứ 2 của phương pháp phân loại kết hợp xử lý các CAR được phát sinh để xây dựng classifier. Vì tổng số lượng các tập con các luật được kiểm tra để xác định tập các luật chính xác nhất có thể là khổng lồ nên một phương pháp heuristic sẽ được dùng. Một thứ tự quyền ưu tiên giữa các luật được định nghĩa, tại đó một luật ri có độưu tiên cao hơn các luật rj (tức là ri frj) nếu:

(1) Độ tin cậy của ri lớn hơn của rj, hay

(2) Các độ tin cậy là giống nhau nhưng ri có hỗ trợ lớn hơn, hay

(3) Các độ tin cậy và hỗ trợ của ri và rj là như nhau nhưng ri được sinh ra sớm hơn rj.

Nhìn chung, giải thuật lựa chọn một tập các CAR quyền ưu tiên cao để phủ các mẫu trong D. Classifier duy trì các luật được chọn lựa từ thứ tự ưu tiên cao tới thấp. Khi phân loại một mẫu mới, luật đầu tiên thoả mẫu sẽ được dùng để phân loại nó. Classifier cũng chứa đựng một luật ngầm định, có thứ tự ưu tiên thấp nhất, nó định rõ một lớp ngầm định cho bất kỳ một mẫu mới nào mà không thoả bởi bất cứ một luật nào khác trong classifier.

Do vậy, khai phá luật kết hợp là một chiến lược quan trọng để sinh ra các classifier chính xác và có thể mở rộng.

Phân loại bằng lan truyền ngược

Các phương pháp phân loại khác