Thuật toán LVF

Một phần của tài liệu LỰA CHỌN THUỘC TÍNH TRONG KHAI PHÁ DỮ LIỆU (Trang 34 - 36)

Khác với RELIEF và FOCUS, thuật toán LVF thực hiện việc sinh các tập con thuộc tính để lựa chọn bằng phương pháp chọn ngẫu nhiên nhờ thuật toán tạo số ngẫu nhiên Las Vegas. Thuật toán LVF là như sau:

LVF(O, C, att , ).

O: tập tất cả các các đối tượng;

C: tập tất cả các thuộc tính điều kiện;

att : số bước lặp của thuật toán;

R: Tập con thuộc tính tốt nhất hiện thời.

(1) R ←C

(2) for num = 1...att

(3) S ← Tập con thuộc tính chọn ngẫu nhiên( )

(4) if |S|≤|R| (5) if Độnhấtquán(S, O) ≤ (6) if |S|< |R| (7) R ← S; output R (8) else R R S (9) return R

Đầu tiên, LVF coi toàn bộ tập thuộc tính điều kiện là tập thuộc tính tốt nhất. Tiếp đó, chọn ngẫu nhiên một tập con từ tập tất cả các thuộc tính điều kiện. Nếu tập con thuộc tính này có lực lượng nhỏ hơn tập con tốt nhất hiện thời và cho tỷ lệ các đối tượng mâu thuẫn nhau trong tập dữ liệu không vượt quá ngưỡng cho trước, nó sẽ được xem là tập con mới tốt nhất. Một khi có tập con tốt hơn được phát hiện, tập con này sẽ được LVF đưa ra dưới dạng kết quả tính toán tức thời.

Nhược điểm của LVF là tiêu tốn thời gian nhiều hơn so với các thuật toán heuristic trong việc tìm kiếm tập con thuộc tính tối ưu. Ngoài ra, khi tập dữ liệu có kích thước khổng lồ, việc kiểm tra tính nhất quán của dữ liệu cũng tiêu tốn khá nhiều thời gian.

Xét tập dữ liệu ví dụ 2.2: LVF chọn ngẫu nhiên một tập con thuộc tính từ 6 thuộc tính đã cho, chẳng hạn tập {a,b,c}. Đối với tập thuộc tính này, sẽ có 6 đối tượng không nhất quán, trong đó có 3 đối tượng mang nhãn lớp 1, 3 đối tượng mang nhãn lớp 2, vậy tỷ lệ các đối tượng không nhất quán được tính bằng (6-3)/12=1/4. Nếu tỷ lệ đối tượng không nhất quán cho phép = 0 thì tập

{a,b,c} bị loại. Tiếp tục quá trình tìm kiếm ngẫu nhiên, LVF sẽ cho kết quả tập con thuộc tính tối ưu cục bộ là a d f, , .

Một phần của tài liệu LỰA CHỌN THUỘC TÍNH TRONG KHAI PHÁ DỮ LIỆU (Trang 34 - 36)