Tập thuộc tính rút gọn

Một phần của tài liệu Phát hiện luật và tiền xử lý dữ liệu theo tiếp cận tập thô và ứng dụng rosetta phát hiện luật trong bài toán xử lý dữ li (Trang 47 - 49)

Trong giai đoạn thu thập dữ liệu của các ứng dụng thực tế, chẳng hạn như chẩn đoán một căn bệnh chưa biết của một bệnh nhân, thường khó để biết được chính xác những đặc trưng nào là liên quan hay quan trọng, và chúng sẽ được mô tả như thế nào. Do đó tất cả các đặc trưng được cho là có ích sẽ được thu thập vào trong cơ sở dữ liệu. Các cơ sở dữ liệu thường chứa nhiều thuộc tính và giá trị thuộc tính dư thừa, không cần thiết trong việc phát hiện luật. Nếu những thuộc tính và giá trị thuộc tính dư thừa này không được loại bỏ thì nó không chỉ làm tăng độ phức tạp về mặt thời gian của việc phát hiện luật mà còn cả chất lượng của những luật được phát hiện có thể bị suy giảm một cách đáng kể. Vấn đề đặt ra là tìm một tập con tốt nhất của các thuộc tính trong cơ

sở dữ liệu theo một vài tiêu chuẩn và loại bỏ các giá trị thuộc tính dư thừa có trong các thuộc tính.

Xem xét các thuộc tính có thể rút gọn được và không thể rút gọn được trong bảng quyết định.

Giả sử với bảng quyết định C7Ỉ=(U,A,D) với thuộc tính a s A tập các thuộc tính điều kiện, u là tập vũ trụ và D thuộc tính quyết định. Thuộc tính a có thể rút gọn được trong nếu: POSA(D) = POS(MaỊ)(D), ngược lại, thuộc tính a không thể được rút gọn (không xuất hiện trong dí)

c4=(U,A,D) là rút gọn nếu tồn tại các thuộc tính a e A là rút gọn được trong C Á .

Tập các thuộc tính Rc;A được gọi là tập rút gọn của A nếu d ' = (U,R,D) là rút gọn và POSR(D) = POSA(D).

Tập tất cả các thuộc tính không thể thiếu được trong dl biểu diễn là CORE(A) (gọi là tập nhân) và được xác định là: CORE(A) = nRED(A), với RED(A) là tập tất cả các tập rút gọn của A.

Ví dụ 2.2.2: Xét bảng thông tin dưới đây:

u N ơi sinh Tôn giáo Qt hnay XXet

Sài gòn Mỹ Cấm

Sài gòn Pháp Nghi ngờ

Sài gòn Đức Cấm

Jt4 Hà nội Mỹ Không

Hà nội Không Pháp Không

*6 Hà nội Có Đức Cấm

Bảng 2.2.2.1: Hệ thông tin Tập rút gọn R edl = {Tôn giáo, Qt hnay}

u Tôn giáo Qt hnay XXet

Mỹ Cấm

Xỉ Pháp Nghi ngờ

-Í1, -Vf, Đức Cấm

*5 Không Pháp Không

Tập rút gọn thứ 2 Red2 = {Nơi_ sinh, Qt hnay}

u N ơi sinh Qt hnay Xxet

Xi Sài gòn Mỹ Cấm Sài gòn Pháp Nghi ngờ Sài gòn Đức Cấm Hà nội Mỹ Không Hà nôi Pháp Không *6 Hà nội Đức Cấm Bảng 2.2.2.3: Bảng rút gọn 2 (Reduct 2) Tập thuộc tính nhân:

CORE = {Nơi sinh, Qt hnay) n {{Tôn giáo, Qt hnay Ị = {Q th n a y}.

Các bảng ở trên được biết là bảng quyết định, trong đó, Noi_sinh, Ton giao, Qt hnay được tham chiếu đến như các thuộc tính điều kiện, trong đó, thuộc tính XXet được gọi là thuộc tính quyết định. Mỗi bảng quyết định có thể được mô tả trong mẫu của thuật toán quyết định, chứa các luật quyết định dạng “IF ... TH EN .. Trong ví dụ bảng 2.2.2.2, có thể biểu diễn dưới dạng:

IF (Ton_giao, Co) & (Qt_hnay, Mỹ) -> THEN (Xxet, Cấm)

IF (Ton_giao, Co) & ( Q t_ h n a y , Pháp) -> THEN (Xxet, Nghi ngờ) IF (Ton_giao, Co) & (Qt_hnay, Đức) -> THEN (Xxet, Cấm)

IF (Ton_giao, Không) & (Qt_hnay, Pháp) -> THEN (Xxet, Không)

Một phần của tài liệu Phát hiện luật và tiền xử lý dữ liệu theo tiếp cận tập thô và ứng dụng rosetta phát hiện luật trong bài toán xử lý dữ li (Trang 47 - 49)

Tải bản đầy đủ (PDF)

(91 trang)