Phƣơng pháp lai

Một phần của tài liệu (LUẬN VĂN THẠC SĨ) Nghiên cứu, xây dựng phương pháp trích chọn thuộc tính nhằm làm tăng hiệu quả phân lớp đối với dữ liệu đa chiều (Trang 26 - 27)

CHƢƠNG 1 : TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU VÀ TRÍCH CHỌN THUỘC TÍNH

1.4 Một số thuật toán lựa chọn thuộc tính

1.4.5. Phƣơng pháp lai

Các chiến lƣợc tìm kiếm khác nhau yêu cầu số lƣợng các tài nguyên khác nhau và cũng cho các kết quả khác nhau. Ý tƣởng cho sự xuất hiện của phƣơng pháp lai là chúng ta liệu có thể tận dụng các ƣu điểm cũng nhƣ tránh các nhƣợc điểm của mỗi phƣơng pháp? Focus là một giải thuật chọn lựa thuộc tính tiến, ABB là giải thuật chọn lựa thuộc tính lùi. Do đó, khi số lƣợng thuộc tính liên quan là quá ít thì giải thuật Focus là một lựa chọn phù hợp, tuy nhiên khi số lƣợng thuộc tính liên quan là nhiều thì ABB lại là lựa chọn tốt hơn. Tuy nhiên, khi chúng ta không có thông tin gì về số lƣợng thuộc tính liên quan chúng ta lại cần tới sự kết hợp của cả hai phƣơng pháp – phƣơng pháp lai. Một phƣơng pháp lai khác là việc kết hợp LVF và ABB, phƣơng pháp này đƣợc đặt tên là QBB (quick Branch and Bound) [25]. Phƣơng pháp này chạy giải thuật LVF với số lần xác định, sau đó sử dụng các tập con đƣợc chọn từ việc thực hiện giải thuật LVF nhƣ là đầu vào của giải thuật ABB nhằm tìm ra tập con tốt nhất. Giá trị của số lần chạy ảnh hƣởng tới kết quả của LVF. Nhƣ chúng ta đã biết, nếu LVF chạy lâu hơn (nhiều lần chạy) có nghĩa là sẽ đƣợc các tập con thuộc tính tốt hơn, cho tới khi chúng ta tìm đƣợc tập con tối ƣu. Tuy nhiên, số lƣợng các tập con đƣợc chọn lựa cũng nhỏ hơn khi LVF chạy nhiều lần hơn. Một mặt chúng ta muốn giảm số lƣợng các thuộc tính trong mỗi tập con(các tập con này là kết quả của việc chạy giải thuật LVF), một mặt chúng ta muốn số lƣợng các tập con này không quá bé do đó chúng ta có thể giảm thiểu nguy cơ mất các tập con tối ƣu. Vì thế chúng ta cần tìm ra một “điểm chuyển” tốt để cân bằng giữa hai yếu tố ở trên điều này cũng có nghĩa là QBB có thể nhanh chóng tìm ra các tập con tối ƣu với xác suất cao.

Dƣới đây minh họa giả mã của giải thuật QBB[25].

QBB

Input:num-the number of loop in LVF

γ – an allowed inconsistency rate D – a dataset with N features

Initialize :listLLVF=LABB={}

LLVF=LVF(D,γ,num) /*run LVF with num loops*/

LABB=append(S,LABB)

Output:Smin /*the minimum subset in LABB*/

Một phần của tài liệu (LUẬN VĂN THẠC SĨ) Nghiên cứu, xây dựng phương pháp trích chọn thuộc tính nhằm làm tăng hiệu quả phân lớp đối với dữ liệu đa chiều (Trang 26 - 27)

Tải bản đầy đủ (PDF)

(74 trang)