Chương 3 : Một số giải thuật trích chọn thuộc tính
3.1. Tìm kiếm tồn bộ
3.1.1. Phương pháp Focus
Phương pháp này do Almuallim và Dietterich đưa ra vào năm 1991. Phương pháp này xem xét tất cả các kết hợp cĩ thể của N các thuộc tính, bắt đầu từ một tập con rỗng các thuộc tính: là tập con thứ nhất, là tập con thứ hai,…. Khi Focus tìm ra một tập con thỏa mãn tiêu chí đo lường độ ổn định, giải thuật sẽ dừng lại. Bỏ qua độ phức tạp thời gian của giải thuật khi kiểm tra độ ổn đinh, giải thuật Focus cần tạo ra tập con nhằm mục đích tìm ra tập con m thuộc tính bé nhất thỏa mãn tiêu chí ổn định. Khi m khơng nhỏ (Ví dụ m>N/2), thì chi phí thời gian chạy giải thuật là rất lớn. Dưới đây là pseudo-code của phương pháp Focus
Focus
Input: F – all feature x in data D,
U – inconsistency rate as evaluation measure
Initialize: S= {} For i=1 to N
For each subset S of size i
If CalU(S,D) = 0 /* CalU(S,D) return inconsistency */ Return S
Output: S – minimum subset satisfies U
3.1.2. Phương pháp ABB
Được Liu đưa ra năm 1998, ABB là viết tắt của cụm từ automated Branch and Bound algorithm. Chữ tự động (automated) ở đây cĩ nghĩa là cận (bound) được xác
định một cách tự động, điều này khơng giống như giải thuật nhánh và cận cổ điển, cận phải được xác định trước. Dưới đây thể hiện Psuedo-code của giải thuật ABB.
ABB Algorithm
Input: S – all feature x in data D,
U – inconsistency rate as evaluation measure, Q – an empty queue, S1, S2 – subsets Initialize: L = {S}s δ = CalU(S,D) ABB(S,D)
For each feature x in S {
S1 = S – x /* remove one featue at a time */ enque(Q,S1) }
While not Empty(Q) { S2 = deque (Q);
If (S2 is legitimate ^ CalU(S2,D) ≤ δ) L=append(S2,L)
ABB(S2,D) }
Smin = the minimum subset(x) in L sastifing U.
Output: Smin
Giải thuật ABB bắt đầu với một tập tất cả các thuộc tính, ABB thực hiện chiến lược tìm kiếm theo chiều rộng. Tại mỗi bước giải thuật lần lượt loại bỏ một thuộc tính cho đến khi khơng cịn một thuộc tính nào cĩ thể được loại bỏ mà vẫn thỏa mãn tiêu chí độ ổn định. ABB thực hiện việc mở rộng khơng gian tìm kiếm cũng giống như là việc cắt tỉa một cây. Một nhánh bị “tỉa” khi nĩ khơng thể phát triển thêm được nữa do việc vi phạm tiêu chí ổn định. Khi một nhánh khơng thể phát triển thêm được nữa thì
gốc của nhánh cĩ thể là một trong những “ứng cử viên” cho kết quả của giải thuật. Cuối cùng, một tập với số lượng các thuộc tính nhỏ nhất được chọn lựa nếu nĩ thỏa mãn tiêu chí đo lường U.