Xác định tập biên

Một phần của tài liệu Kỹ thuật khai phá dữ liệu và ứng dụng xây dựng cơ sở tri thức (Trang 43 - 44)

Quyết định các tập phần tử nào được thêm vào tập biên tiếp theo là vấn đề tương đối phức tạp. Có người sẽ nghĩ rằng chỉ cần chọn tập lớn nhất (có số phần tử lớn nhất). Sự lựa chọn này là không đúng, nó có thể làm mất một số tập phần tử như trong ví dụ dưới đây.

Giả sử chúng ta đã mở rộng tập biên AB như trong ví dụ ở mục trước. Tuy nhiên, cả 2 tập ABD và ABCD đã là lớn ở cuối phép kiểm tra. Từ đó ABD do không là tập phần tử lớn nhất nên sẽ không được thêm vào biên, đó là một sự thiếu sót, vì ta không xem xét tập ABDF, đây có thể là một tập lớn và sẽ làm mất tính trọn vẹn.

Trong tập biên cho lần kiểm tra tiếp theo ta sẽ xét cả các tập ứng cử được cho là nhỏ nhưng sẽ trở thành lớn trong bước kiểm tra hiện tại.Để xác định đây là những tập phần tử cần trong các tập biên kế tiếp, ta sẽ định nghĩa bổ đề sau:

Bổ đề: Nếu tập ứng cử X được cho là nhỏ trong bước kiểm tra hiện tại trên toàn cơ sở dữ liệu , thì tất cả các mở rộng X+ Ij của X, với Ij > Ik với mọi Ik thuộc X , là tập ứng cử trong bước này.

Như vậy, chúng ta sẽ biết rằng không có mở rộng nào của các tập phần tử mà ta cho vào tập biên kế tiếp đã đựơc xét trong bước kiểm tra hiện tại. Nhưng vì trên thực tế các tập phần tử này là lớn ,chúng vẫn có thể sinh ra các mở rộng lớn . Do đó , các tập phần tử này phải nằm trong tập biên cho bước kiểm tra kế tiếp. Các tập này không gây ra sự dư thừa vì không có mở rộng nào của chúng đã được xét tới. Thêm nữa, đến đây gần như đã là hoàn thành công việc. Thực vậy, nếu một tập ứng cử là lớn nhưng đã không được cho là nhỏ thì nó sẽ không nằm trong tập biên của lần kiểm tra tiếp theo bởi vì với thuật toán đã được xác định , tất cả các mở rộng của một tập phần tử như vậy đều đã được xem xét trong bước kiểm tra hiện tại . Một tập ứng cử nhỏ sẽ không được đưa vào tập biên tiếp theo vì giá trị support của mở rộng của một tập phần tử không thể lớn hơn support của tập phần tử đó

Một phần của tài liệu Kỹ thuật khai phá dữ liệu và ứng dụng xây dựng cơ sở tri thức (Trang 43 - 44)