Chương 2 TÌM HIỂU MỘT SỐ GIẢI THUẬT PHÂN LỚP DỰA TRÊN LUẬT KẾT HỢP DỰ BÁO.
2.5.2. Xây dựng luật và phân lớp kết hợp.
Các bộ dữ liệu sau khi áp dụng phương pháp làm giảm kích thước T-Test được đưa vào xây dựng phân lớp. CPAR-GR là một bộ phân lớp kết hợp sử dụng các luật phân lớp dương tính và âm tính để xây dựng mô hình phân lớp. CPAR-GR lấy ý tưởng cơ bản từ FOIL, PRM và CPAR để tạo luật phân lớp. Ban đầu, bộ dữ liệu được phân chia thành tập dương tính và âm tính. Ở mỗi lần lặp cho đến khi tổng trọng số của các bộ dữ liệu dương tính lớn hơn hoặc bằng ngưỡng trọng số tối thiểu (TWT) với ngưỡng trọng số được tính bằng công thức (6), mỗi thuộc tính được tính toán giá trị Gain Ratio bằng công thức (1). Sau quá trình tính Gain_Ratio cho các thuộc tính
Preprocessed Dataset Statistical T-test Reducts computation CAR generation CAR evaluation CAR ordering CPAR-GR Laplace Accuracy
Select best k-rules from each class that satisfies the test tuple
Compute average Laplace accuracy for the best krules for each class
Class label prediction of the test tuple based on the average Laplace accuracy Dimensionality reduction Construction of associative classifier Classifier assification of the test tuple
(LGT) theo công thức (7). Các thuộc tính có giá trị Gain_Ratio lớn hơn ngưỡng này được đưa vào mảng các thuộc tính tốt nhất (Close-to-the-best). Bước tiếp theo là đối với các thuộc tính trong mảng Close-to-the-best được xét và tạo luật dự tuyển đồng thời giảm trọng số của các tuple có chứa thuộc tính đang xét bởi tham số Decay_Factor. Tiếp theo là đem lần lượt các luật dự tuyển ra xét, nếu khi xóa các tuple không chứa thuộc tính trong luật dự tuyển của tập dương tính và âm tính mà tập âm tính rỗng thì luật dự tuyển trở thành luật chính thức, thuộc tính này cũng được xóa khỏi bảng Gain (không được xét cho lần sau) và trọng số của các tuple có chứa thuộc tính này cũng được đưa về 0.
Quy trình này được lặp lại cho đến khi tất cả các bộ dữ liệu được xét đến. Lúc đầu, CPAR-GR tạo ra tất cả các luật phân lớp có thể từ tập dữ liệu dương tính. Ngay sau đó quy trình tương tự được lặp lại cho tập âm tính để tạo luật phân lớp phủ định. Trong quá trình tạo luật, CPAR-GR chọn tất cả các thuộc tính trong số thuộc tính tốt nhất trong luật dự tuyển thay vì một thuộc tính có giá trị Gain_ratio tốt nhất để tạo ra nhiều luật cùng một lúc. Các giải thuật phân lớp kết hợp hiện có như PRM chỉ chọn một thuộc tính có Gain tốt nhất trong luật ứng viên và bỏ qua tất cả các thuộc tính khác. Tuy nhiên, trong một tập dữ liệu có thể có một vài thuộc tính với Gain có giá trị tương tự hoặc gần với giá trị Gain cao nhất và do đó có thể bỏ lỡ một số luật quan trọng. Kết quả thực hiện giải thuật này là ta có một tập luật gồm nhiều luật bên trong từ tập dữ liệu huấn luyện.
Công đoạn tiếp theo là sử dụng luật được tạo ra ở giải thuật tạo luật kết hợp để tiến hành phân lớp cho các tuple trong tập dữ liệu thử nghiệm và đánh giá độ chính xác của việc phân lớp này. Ban đầu giải thuật sẽ tính độ chính xác (Laplace_Accuracy) của các luật khi tiến hành trên bộ dữ liệu huấn luyện bằng công thức (8), sau khi hoàn sẽ sắp xếp các luật theo chiều giảm dần theo độ chính xác vừa tính được. Sử dụng luật để phân lớp cho tập dữ liệu thử nghiệm và dự đoán nhãn cho các tuple. Đối sánh giữa nhãn dự đoán và nhãn có sẵn của mỗi tuple ta thống kê tính được độ chính xác phân lớp thông qua công thức (9).
Ký hiệu:
P1- lưu trữ bản sao của tập P N1- lưu trữ bản sao của tập N.
Gain_Ratio[n] – tập hợp lưu trữ giá trị gain của n thuộc tính sử dụng Gain ratio
Best_Gain – là tham số lưu trữ giá gain tốt nhất.
Close-to-the-Best[ ] – là tập hợp các thuộc tính có giá trị gain lớn hơn hoặc bằng LGT.
Input:
D[n]- là tập dữ liệu nhị phân cần phân lớp gồm n thuộc tính. P- là các tuple dương tính trong D.
N- là các tuple âm tính trong D
∑W(P)- tổng trọng số của tất cả các tuples dương tính. (khởi tạo ban đầu mỗi tuple có trọng số là 1)
MGV- do người dùng chỉ định giá trị gain tối thiểu (0.7). TWT- ngưỡng trọng số tối thiểu.
LGT- ngưỡng Gain của mỗi thuộc tính. CT- ngưỡng bao phủ của tuple (0.05).
Decay_Factor – do người dùng chỉ định dùng để giảm trọng số của tuple (2/3).
GSR – Hệ số lấy khoảng giá trị Gain_ratio (0.99)
Output:
Danh sách luật kết hợp (CAR)
Giải thuật: