Giàn giao và ứng dụng trong khai thác tập phổ biến

Một phần của tài liệu Nghiên cứu hệ sinh ánh xạ đóng và ứng dụng trong thể hiện ngữ nghĩa dữ liệu (Trang 63)

Trong lĩnh vực khai phá dữ liệu thì sinh luật kết hợp được xem là một bài toán cơ bản. Quá trình sinh luật kết hợp có thể chia thành hai giai đoạn, trước hết là tìm tất cả các tập phổ biến, sau đó dựa vào các tập phổ biến tìm được để sinh luật. Tuy nhiên, với một cơ sở dữ liệu lớn thì số lượng các tập phổ biến sinh ra sẽ rất lớn và như thế thì việc xác định luật kết hợp theo phương pháp truyền thống không đạt hiệu quả tốt. Kết quả nghiên cứu của luận án sử dụng ánh xạ đóng và lý thuyết giàn giao

như một công cụ toán học để minh họa cho khả năng ứng dụng vào lĩnh vực khai phá dữ liệu mà cụ thể ở đây là trình bày một phương pháp xác định tập phổ biến tối đại

62

việc sinh luật kết hợp đầy đủ và loại bỏ các luật thừa trong quá trình khai thác. Kết quả này của luận án đã được công bố trong [I].

Ý tưởng giải quyết bài toán được dựa trên phát biểu họ các tập phổ biến trong một cơ sở dữ liệu giao tác tạo thành một giàn giao được trình bày trong mệnh đề 2.5

ở phần trên. Từ đó, tiếp tục áp dụng các tính chất của giàn giao để đưa ra thuật toán xác định họ các tập phổ biến tối đại.

2.6.1. Cơ sở lý thuyết

Định nghĩa 2.12

Cho cơ sở dữ liệu giao tácα =(T, I) và tập mụcXI. Ta nói Xtập phổ biến tối đại nếu Xtập phổ biếnX không là tập con thực sự của một tập phổ biến

nào cả. Ký hiệu MFI là họ các tập phổ biến tối đại của α.

Ta nhận thấy rằng, với mỗi tập phổ biến thì tồn tại một tập phổ biến tối đại chứa nó. Tính chất này có thể kiểm chứng lại dễ dàng như sau: Gọi họ các tập phổ biến

tập phổ biến tối đại lần lượt là PMFI. Giả sử XP, và XMFI. Nếu không tồn tại tập YMFI để XY, theo định nghĩa 2.12 thì Xtập phổ biến tối đại. Nói cách khác, XMFI. Điều này mâu thuẫn với giả thiết. Vậy ta có thể kết luận là với mỗi tập phổ biến thì luôn tồn tại một tập phổ biến tối đại chứa nó.

Từ tính chất trên của tập phổ biến, ta nhận thấy trong quá trình sinh luật kết hợp theo quan hệ cha-con, thay vì phải quản lý tất cả các tập phổ biến thu được thì ta chỉ cần quản lý các tập phổ biến tối đại thì bảo đảm việc sinh luật kết hợp vẫn đầy đủ, các luật thừa được loại bỏ và tiết kiệm được không gian lưu trữ.

Để xác định họ các tập phổ biến, trong các công trình trước đây, các tác giả đã đưa ra và liên tục cải tiến với nhiều thuật toán như Apriori, Eclat, Declat, .... nhằm rút ngắn thời gian khai thác. Ở đây, với mục đích chỉ ra khả năng ứng dụng của AXĐ và lý thuyết giàn giao trong khai phá dữ liệu, để đơn giản, thuật toán xem như họ các tập phổ biến đã được xác định. Với họ các tập phổ biến được xác định, thuật toán Coatom sau sẽ tìm ra các tập phổ biến tối đại.

63

Một phần của tài liệu Nghiên cứu hệ sinh ánh xạ đóng và ứng dụng trong thể hiện ngữ nghĩa dữ liệu (Trang 63)