Trong lĩnh vực khai phá dữ liệu thì sinh luật kết hợp được xem là một bài toán cơ bản. Quá trình sinh luật kết hợp có thể chia thành hai giai đoạn, trước hết là tìm tất cả các tập phổ biến, sau đó dựa vào các tập phổ biến tìm được để sinh luật. Tuy nhiên, với một cơ sở dữ liệu lớn thì số lượng các tập phổ biến sinh ra sẽ rất lớn và như thế thì việc xác định luật kết hợp theo phương pháp truyền thống không đạt hiệu quả tốt. Kết quả nghiên cứu của luận án sử dụng ánh xạ đóng và lý thuyết giàn giao
như một công cụ toán học để minh họa cho khả năng ứng dụng vào lĩnh vực khai phá dữ liệu mà cụ thể ở đây là trình bày một phương pháp xác định tập phổ biến tối đại
62
việc sinh luật kết hợp đầy đủ và loại bỏ các luật thừa trong quá trình khai thác. Kết quả này của luận án đã được công bố trong [I].
Ý tưởng giải quyết bài toán được dựa trên phát biểu họ các tập phổ biến trong một cơ sở dữ liệu giao tác tạo thành một giàn giao được trình bày trong mệnh đề 2.5
ở phần trên. Từ đó, tiếp tục áp dụng các tính chất của giàn giao để đưa ra thuật toán xác định họ các tập phổ biến tối đại.
2.6.1. Cơ sở lý thuyết
Định nghĩa 2.12
Cho cơ sở dữ liệu giao tácα =(T, I) và tập mụcXI. Ta nói X là tập phổ biến tối đại nếu X là tập phổ biến và X không là tập con thực sự của một tập phổ biến
nào cả. Ký hiệu MFI là họ các tập phổ biến tối đại của α.
Ta nhận thấy rằng, với mỗi tập phổ biến thì tồn tại một tập phổ biến tối đại chứa nó. Tính chất này có thể kiểm chứng lại dễ dàng như sau: Gọi họ các tập phổ biến và
tập phổ biến tối đại lần lượt là P và MFI. Giả sử XP, và XMFI. Nếu không tồn tại tập Y MFI để X Y, theo định nghĩa 2.12 thì X là tập phổ biến tối đại. Nói cách khác, XMFI. Điều này mâu thuẫn với giả thiết. Vậy ta có thể kết luận là với mỗi tập phổ biến thì luôn tồn tại một tập phổ biến tối đại chứa nó.
Từ tính chất trên của tập phổ biến, ta nhận thấy trong quá trình sinh luật kết hợp theo quan hệ cha-con, thay vì phải quản lý tất cả các tập phổ biến thu được thì ta chỉ cần quản lý các tập phổ biến tối đại thì bảo đảm việc sinh luật kết hợp vẫn đầy đủ, các luật thừa được loại bỏ và tiết kiệm được không gian lưu trữ.
Để xác định họ các tập phổ biến, trong các công trình trước đây, các tác giả đã đưa ra và liên tục cải tiến với nhiều thuật toán như Apriori, Eclat, Declat, .... nhằm rút ngắn thời gian khai thác. Ở đây, với mục đích chỉ ra khả năng ứng dụng của AXĐ và lý thuyết giàn giao trong khai phá dữ liệu, để đơn giản, thuật toán xem như họ các tập phổ biến đã được xác định. Với họ các tập phổ biến được xác định, thuật toán Coatom sau sẽ tìm ra các tập phổ biến tối đại.
63