Thuật toán EBR

EBR cũng là thuật toán lựa chọn thuộc tính theo tiếp cận filter. Thuật toán này áp dụng chiến lược tìm kiếm heuristic dựa vào entropy giống như một số thuật toán học máy, chẳng hạn thuật giá trị toán xây dựng cây quyết định C4.5 của Quinlan. Có thể mô tả EBR như sau:

EBR(C)

C: tập tất cả các thuộc tính điều kiện;

(1) A C

(2) calculate H D x( / );

(3) choose A giving lowest value ofH D A( / ); (4) R ← A ; (5) do (6) T ← R ; (7) A (C R) (8) if H D R/ A H D T ( / ) (9) T R A ; (10) R T ; (11) until H D R( / ) H D C( / ); (12) return R ;

Tại bước đầu tiên, EBR kiểm tra toàn bộ tập dữ liệu, chọn thuộc tính cho lượng thông tin thu thêm (information gain) lớn nhất, điều này tương đương với việc tìm thuộc tính A cho entropy có điều kiện H D A( / ) nhỏ nhất. Entropy

( / )

2 1 1 ( / ) ( ) ( / )log ( / ) m n j i j i j j i H D A P a P d a P d a

trong đó, a a1, 2, ... ,am là các giá trị của A , d d1, 2, ... ,dn là các giá trị của thuộc tính quyết định D trong tập dữ liệu. Các xác suất được ước lượng được ước

lượng dựa vào tập dữ liệu. Chẳng han:

1 1

( ) S

P a

trong đó S1 là số các đối tượng có giá trị thuộc tính A bằng a1 , N là số tất cả

các đối tượng có trong tập dữ liệu.

Tại các bước tiếp theo, EBR tìm tập con cho entropy có điều kiện

( / )

H D R A nhỏ nhất trong số các tập con thu được bằng cách thêm vào tập R đã tìm được ở bước trước một thuộc tính còn lại.

Tương tự như trên, ta có:

1 2 ( / , , ... , k) H C A A A 1 2 1 2 2 1 2 1 1 ( , , ... , ) ( / , , ... , )log ( / , , ... , ) m n j j kj i j j kj i j j kj j i P a a a P c a a a P c a a a trong đó, (a1j,a2j, ... ,akj), (a12,a22, ... ,ak2), … , (a1m,a2m, ... ,akm) là các tổ hợp giá trị khác nhau của các thuộc tính A A1, 2, ... ,Ak.

Xét tập dữ liệu ví dụ 2.2. Trước tiên, EBR tính entropy của mỗi thuộc tính điều kiện, thu được:

Tập con Entropy a 0.8885861 b 0.9543363 c 0.9543363 d 0.8885860 e 0.8650087 f 0.6186034

Vì {f} có entropy nhỏ nhất, nó trở thành thuộc tính được chọn đầu tiên. Tại bước thứ hai, EBR tính entropy của tất cả các tập con gồm f và một thuộc tính

khác: Tập con Entropy a f, 0.42382884 b f, 0.46153846 c f, 0.55532930 d f, 0.42382884 e f, 0.40347020

Tại đây, e f, là tập con được chọn. … . Quá trình lựa chọn tiếp tục cho đến bước thứ tư, khi entropy nhỏ nhất của tập con đạt đến giá trị 0 (entropy

( / , , , , . )

H g a b c d e f của tập dữ liệu nhất quán 2.2). Tập con thuộc tính chọn được là a b e f, , , . Khi đó tập dữ liệu có thể được rút gọn lại chỉ với bốn thuộc tính a, b, e, f mà vẫn bảo tồn được tính nhất quán. Có thể thấy tập con thuộc

EBF có độ phức tạp tính toán là 2

(( ) / 2)

O n n . Ưu điểm của thuật toán này là có thể làm việc với các tập dữ liệu kích thước lớn, không đòi hỏi người sử dụng phải quy định bất kỳ một giá trị ngưỡng nào.

Các thuật toán theo cách tiếp cận wrapper

Một số thuật toán khác