So sánh kĩ thuật phân lớp dựa trên luật kết hợp và phân lớp dựa trên tập

Một phần của tài liệu Khai phá luật quyết định trên bảng dữ liệu có các giá trị thuộc tính thay đổi (Trang 27)

tập thô

(1) Kỹ thuật phân lớp dựa trên luật kết hợp (ký hiệu là Ac) đƣợc phát triển trên cơ sở sửa đổi thuật toán khai phá luật kết hợp Apriori, nó gồm hai pha:

Thứ nhất: Pha sinh tập mục thƣờng xuyên, pha này thực hiện việc phát hiện tất cả các tập mục có chứa thuộc tính tƣơng ứng với thuộc tính mục tiêu (để đơn giản, có thể coi thuộc tính cuối cùng nhƣ là thuộc tính mục tiêu). Giả sử D là tập dữ liệu huấn luyện với thuộc tính mục tiêu Z. Ac sẽ sinh một danh sách các ứng viên Ck (trong đó, thành phần cuối cùng của danh sách này là các giá trị của mục tiêu Z) và cũng giống nhƣ thuật toán Apriori, tất cả các ứng viên trong Ck phải thỏa mãn ngƣỡng độ hỗ trợ tối thiểu cho trƣớc.

Thứ hai: Pha sinh luật, pha này thực hiện việc kiểm tra mục cuối cùng của tập mục thƣờng xuyên có phải là thuộc tính mục tiêu hay không? Nếu không phải, sẽ bị loại khỏi hệ thống. Nếu đúng, sẽ tiến hành sinh luật khi độ tin cậy của luật không nhỏ hơn ngƣỡng.

(2) Kỹ thuật phân lớp dựa trên tập thô (ký hiệu Rc) hƣớng tới xác định các luật quyết định từ một hệ thông tin tƣơng ứng với tập dữ liệu huấn luyện với cú pháp và ngữ nghĩa đơn giản đối với ngƣời sử dụng. Cách tiếp cận phân lớp dựa trên tập thô bao gồm các bƣớc chính sau đây:

Bƣớc đầu tiên, thực hiện việc ánh xạ thông tin từ cơ sở dữ liệu ban đầu sang dạng bảng quyết định theo định dạng thống nhất, tiền xử lý dữ liệu để loại nhiễu và rời rạc hóa dữ liệu (do mô hình phân lớp dựa trên tập thô chỉ đƣợc thực hiện với dữ liệu đã đƣợc rời rạc hóa).

Bƣớc tiếp theo, từ bảng quyết định thu đƣợc, tiến hành sinh các luật quyết định bằng cách liên kết các bộ giá trị thuộc tính trong từng lớp cụ thể. Theo quan điểm đó, Moharmad khẳng định rằng có thể so sánh kỹ thuật phân lớp dựa trên luật kết hợp (Ac) với kỹ thuật phân lớp dựa trên tập thô (Rc) ở hai khía cạnh đó là: độ chính xác phân lớp và số lƣợng các luật đƣợc sinh ra. Các kết quả thử nghiệm cho thấy, trong hầu hết các tập dữ liệu, độ chính xác phân lớp của Ac cao hơn Rc. Về số lƣợng các luật đƣợc sinh ra, trong hầu hết các trƣờng hợp Ac sinh nhiều luật hơn Rc.

Xem xét vấn đề sinh luật, sự khác nhau đáng kể giữa Ac và Rc là do cách xử lý dữ liệu, Ac cần xem tần suất của các thuộc tính quan tâm là vấn đề quan trọng, trong khi đó Rc thì xem sự phân biệt giữa các giá trị của thuộc tính trên cơ sở khái niệm phân biệt là quan trọng.

Chƣơng 2: KHAI PHÁ LUẬT QUYẾT ĐỊNH TRÊN BẢNG DỮ LIỆU CÓ CÁC GIÁ TRỊ THUỘC TÍNH THAY ĐỔI

Một phần của tài liệu Khai phá luật quyết định trên bảng dữ liệu có các giá trị thuộc tính thay đổi (Trang 27)