CHƢƠNG 1 : TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU VÀ TRÍCH CHỌN THUỘC TÍNH
1.4 Một số thuật toán lựa chọn thuộc tính
1.4.4. Phƣơng pháp trọng số thuộc tính
Một trong những phƣơng pháp tiêu biểu nằm trong nhóm các phƣơng pháp trọng số thuộc tính là Relief. Phƣơng pháp này đƣợc đề xuất bởi Kira và Rendell vào năm 1992[25], mục đích ban đầu của phƣơng pháp là nhằm giải quyết một vấn đề thực tế trong phân lớp là mối tƣơng tác quan giữa các thuộc tính (một vài thuộc tính phụ thuộc lẫn nhau trong việc xác định lớp của thực thể). Relief chọn lựa các thuộc tính dựa vào sự tƣơng quan thống kê. Mặc dù mục đích của Relief vẫn là chọn lựa thuộc tính nhƣng Relief không tạo ra các tập con thuộc tính, và kiểm tra các điều kiện ràng buộc của các tập con này nhƣ các phƣơng pháp đƣợc trình bày ở trên. Thay vì việc tạo ra các tập con thuộc tính Relief tập trung vào việc lấy mẫu các thực thể (sampling) mà không tìm kiếm các tập con thuộc tính. Ý tƣởng của Relief đó là: các thuộc tính tƣơng quan là các giá trị có thể phân biệt các thực thể, đó là các giá trị nằm gần lẫn nhau. Do đó, hai hàng xóm gần nhau nhất (mỗi thực thể thuộc về một lớp khác nhau) đối với một thực thể (I) đƣợc đƣa ra, một là near-hit (H) và một là near-miss (J). Về ý tƣởng, một thuộc tính là liên quan nếu giá trị của nó là tƣơng tự giữa I và near-hit, và khác biệt giữa I và near-miss. Trên thực tế việc kiểm tra này có thể đƣợc thực hiện bằng cách tính khoảng cách tới một giá trị thuộc tính: khoảng cách này nên là bé nhất đối vơi I và H và lớn nhất đối với I và J. Khoảng cách của mỗi giá trị thuộc tính đối với mỗi thực thể đƣợc lấy ra ngẫu nhiên đƣợc tổng hợp trong véc tơ w (weight), véc tơ này có số chiều bằng số lƣợng thuộc tính. Những thuộc tính liên quan là những thuộc tính có giá trị vector w vƣợt quá ngƣỡng tƣơng quan r. Ngƣỡng tƣơng quan này có thể đƣợc xác định bằng cách sử dụng phƣơng pháp thống kê để ƣớc lƣợng khoảng. Cỡ mẫu m có thể biến đổi và một giá trị m lớn hơn có nghĩa là có một ƣớc lƣợng xấp xỉ tin cậy hơn.
Dƣới đây là thể hiện giả mã của phƣơng pháp Relief[25].
Input: x - features
m - number of instances sampled τ - adjustable relevance threshold
initialize: w = 0 for i 1 to m
begin randomly select an instance i
findnearest_hit H and nearest_miss J
for j 1 to N
w(j) = w(j) – diff(j, I,H)2/m + diff(j, I,J)2/m
end
Output: w greater than τ
Trong giả mã của phƣơng pháp Relief ở trên, hàm diff() tính sự khoảng cách giữa các giá trị của một số thuộc tính với hai thực thể. Đối với các thuộc tính rời rạc, giá
trị khoảng cách này nhận cả giá trị 1 và 0 (1 nếu các giá trị là khác biệt và 0 nếu các giá trị là nhƣ nhau), tuy nhiên đối với các thuộc tính liên tục thì giá trị khoảng cách nhận giá trị trong khoảng [-1;1].
Phƣơng pháp Relief có thể ứng dụng đƣợc với cả dữ liệu rời rạc và dữ liệu liên tục. Tuy nhiên phƣơng pháp cũng có một số nhƣợc điểm đó là: (1) không hiệu quả đối với dữ liệu chỉ có hai lớp, (2) không “nhạy” với các dữ liệu thừa [5, 25].