Lựa chọn thuộc tính dựa trên tập thô với phƣơng pháp đánh giá kinh nghiệm

Một phần của tài liệu Một số vấn đề liên quan đến lý thuyết tập thô (Trang 49)

kinh nghiệm [6,10,15]

Một cơ sở dữ liệu thƣờng chứa rất nhiều các thuộc tính dƣ thừa và không cần thiết cho việc tìm kiếm tri thức trong dữ liệu. Nếu các thuộc tính dƣ thừa không đƣợc loại bỏ thì không những độ phức tạp về thời gian tìm kiếm tri thức là rất lớn mà chất lƣợng tri thức tìm đƣợc cũng không cao. Mục tiêu của việc lựa chọn thuộc tính là tìm ra những tập thuộc tính tối ƣu trong cơ sở dữ liệu, dựa vào đó, việc sinh luật và phân lớp có thể đạt đƣợc hiệu quả cao nhất mà chỉ sử dụng những tập thuộc tính con đã đƣợc lựa chọn.

Tƣ tƣởng cơ bản của việc lựa chọn thuộc tính sử dụng tập thô với phƣơng pháp đánh giá kinh nghiệm nhƣ sau:

 Lựa chọn các thuộc tính trong nhân (CORE) làm tập con ban đầu

 Tại mỗi bƣớc, lựa chọn các thuộc tính sử dụng tiêu chuẩn đánh giá trong quá trình khám phá luật bởi bảng phân bố tổng quát trong tập thô.

Số lƣợng của các tập rút gọn có thể là 2N-1 trong đó N là số các thuộc tính. Việc lựa chọn tập rút gọn tối ƣu từ các tập rút gọn có thể là rất tốn thời gian nếu tìm kiếm toàn bộ hoặc khó có thể biết đƣợc khi nào thì tập con tối ƣu xuất hiện. Do đó ta sử dụng phƣơng pháp kinh nghiệm. Đặc điểm chính của phƣơng pháp lựa chọn thuộc tính dựa trên tập thô với phƣơng pháp đánh giá kinh nghiệm là nó có thể tìm ra các tập con thuộc tính nhanh và hiệu quả từ cơ sở dữ liệu lớn, các thuộc tính đƣợc lựa chọn không làm giảm đi tính ƣu việt của thuật toán quy nạp nhiều lắm. Đây không phải là chiến lƣợc tốt nhất, nhƣng nó là chiến lƣợc tốt đối với các dữ liệu lớn, các bài toán phức tạp.

Việc chọn lựa chọn thuộc tính để bổ sung vào tập thuộc tính nhân ban đầu thực hiện nhƣ sau:

Thuộc tính a đƣợc chọn nếu khi thêm a vào tập thuộc tính R thì card(POSR{a}(D)) tăng nhanh hơn và max_size(POSR{a}(D)/IND({R{a},D})) lớn hơn khi thêm thuộc tính khác.

Thuật toán lựa chọn thuộc tính sử dụng tập thô với phƣơng pháp đánh giá kinh nghiệm đƣợc mô tả:

Thuật toán:

Đặt R là tập thuộc tính điều kiện được chọn (R là tập các thuộc tính thuộc nhân). P là tập thuộc tính điều kiện không được chọn.

U là tập các đối tượng.

X là tập các đối tượng truyền thống. EXPECT là ngưỡng chính xác.

Ban đầu, giả sử R=CORE(C), P=C-CORE(C), K=0

Bước 1: Loại bỏ tất cả các đối tượng nhất quán: X=U-POSR(D)

Bước 2: Tính K=R(D)= ) ( )) ( ( U card D POS card R

If k EXPECT then STOP

ELSE If POSR(D)= POSC(D) return “chỉ có k khả dụng” and STOP.

vp= card(POSR{p}(D))

mp= max_size(POSR{p}(D)/(R{p}D) với pP.

Bước 4: Chọn thuộc tính p tốt nhất, ví dụ với vp mp lớn nhất và đặt R=R{p}, P=P-{p};

Bước 5: Quay lại Bước 1.

Ví dụ: Cho bảng thông tin với a,b,c,d là thuộc tính điều kiện, e là thuộc tính quyết định. U={x1, x2, x3, x4, x5, x6, x7}. U a b c d e x1 1 0 2 1 1 x2 1 0 2 0 1 x3 1 2 0 0 2 x4 1 2 2 1 0 x5 2 1 0 0 2 x6 2 1 1 0 2 x7 2 1 2 1 1

Bảng 2.2: Bảng thông tin mô tả các đối tượng

{b} là thuộc tính không thể thiếu duy nhất vì loại bỏ b sẽ gây nên việc không nhất quán:{a1c2d1}e1 và {a1c2d1}e0

Từ các lớp tƣơng đƣơng:

U/{b}={{x1,x2},{x5,x6,x7},{x3,x4}} và U/{e}={{x4}{x1,x2,x7},{x3,x5,x6}}

Ta thu đƣợc b-vùng khẳng định của e: POS{b}({E})={x1,x2}. Do đó, ở trạng thái khởi tạo ban đầu, thì R={b}, P={a,c,d}, X={x2,x4,x5,x6,x7}.

U b e

x3 2 2

x4 2 0

x6 1 2

x7 1 1

Bảng 2.3: Trạng thái khởi tạo

Giả sử EXPECT_k=1, điều kiện kết thúc là k1, vì k=2/7<1 nên R không phải là rút gọn, ta phải tiếp tục tìm các thuộc tính điều kiện trong số các thuộc tính a,c,d. Bảng miêu tả việc thêm {a},{c},{d} vào R nhƣ sau:

U a b e U b c e U b d e x3 1 2 2 x3 2 0 2 x3 2 0 2 x4 1 2 0 x4 2 2 0 x4 2 1 0 x5 2 1 2 x5 1 0 2 x5 1 0 2 x6 2 1 2 x6 1 1 2 x6 1 0 2 x7 2 1 1 x7 1 2 1 x7 1 1 1 Chọn {a} Chọn {c} Chọn {d}

Bảng 2.4: Các bảng thông tin tương ứng với việc chọn thuộc tính a, c, d

Từ bảng này ta thu đƣợc các họ các lớp tƣơng đƣơng: U/E={{x3,x5,x6},{x4},{x7}}

U/{a,b}={{x3,x4},{x5,x6,x7}}

U/{b,c}={{x3},{x4},{x5},{x6},{x7}} U/{b,d}={{x3},{x4},{x5,x6},{x7}} POS{a,b}(E)=;

POS{b,c}(E)= POS{b,d}(E)={x3,x4,x5,x6,x7}; max_size(POS{b,c}(E)/({b,c,E})=1

max_size(POS{b,d}(E)/({b,d,E})=|{x5,x6}|=2

Từ việc tính toán trên, vì tập lớn nhất nằm trong U/{b,d,e} suy ra d là thuộc tính đƣợc chọn.

Sau khi thêm d vào R, ta thấy tất cả các đối tƣợng nhất quán và phải loại bỏ khỏi U, khi đó U rỗng, k=1, quá trình thực hiện tìm kiếm kết thúc.

Một phần của tài liệu Một số vấn đề liên quan đến lý thuyết tập thô (Trang 49)

Tải bản đầy đủ (PDF)

(94 trang)