Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 61 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
61
Dung lượng
650 KB
Nội dung
Bài giảng mơn: Data Mining CÁC THUẬT TỐN KHAI THÁC LUẬT KẾT HỢP Feb 22, 2023 Giới thiệu Bài toán khai thác luật kết hợp đưa vào năm 1993 Agrawal phát biểu sau: Cho trước tập n danh mục mặt hàng I = {i1, i2, …, in} tập giao dịch mặt hàng D giao dịch T I có định danh (TID) Luật kết hợp phép kéo theo có dạng XY(q,p) (X Y), q = Sup(Y) gọi độ phổ biến luật p=Sup(Y)/Sup(X) độ tin cậy luật Khai thác luật kết hợp tìm tất luật kết hợp rút từ CSDL D thỏa ngưỡng phổ biến ngưỡng tin cậy người dùng định nghĩa Feb 22, 2023 Giới thiệu (tt) Khai thác luật kết hợp chia làm hai giai đoạn: Tìm tất tập phổ biến ngưỡng thỏa phổ biến Tìm tất luật thỏa ngưỡng tin cậy Feb 22, 2023 Tìm Tập Phổ Biến Feb 22, 2023 Các phương pháp tìm tập phổ biến Phương pháp sinh ứng viên: Apriori Agrawal đề xuất Phương pháp không sinh ứng viên: a) Zaki: dựa vào IT-tree phần giao Tidset để tính độ phổ biến b) J Han: dựa vào FP-tree để khai thác tập phổ biến c) Ngồi ra, cịn có số phương pháp đưa như: Lcm, DCI, … Feb 22, 2023 Các thuật tốn tìm tập phổ biến Phương pháp Apriori Phương pháp FP-tree (Frequent Patterns Tree) Phương pháp IT-tree (Itemset Tidset Tree) Feb 22, 2023 Phương pháp IT-tree Một số định nghĩa: Định nghĩa độ phổ biến Cho CSDL giao dịch D tập liệu X I Độ phổ biến X D, kí hiệu (X), định nghĩa số giao dịch mà X xuất D Định nghĩa tập phổ biến X I gọi phổ biến (X) minSup ( với minSup giá trị người dùng định) Feb 22, 2023 Phương pháp IT-tree (tt) Kết nối Galois Cho quan hệ hai I T chứa CSDL cần khai thác Với X I Y T, ta định nghĩa hai ánh xạ P(I) P(T) sau: a) b) t: P(I) P(T), t(X) = {yT | xX, x y} i: P(T) P(T), i(Y) = {xI | yY, x y} Feb 22, 2023 Phương pháp IT-tree (tt) Cấu trúc IT-tree lớp tương đương: Cho XI, ta định nghĩa hàm p(X,k) = X[1:k] gồm k phần tử đầu X quan hệ tương đương dựa vào tiền tố sau: Mỗi nút IT-tree gồm thành phần ItemsetTidset Xt(X) gọi IT-pair, thực chất lớp tiền tố Các nút X thuộc lớp tương đương X chúng chia sẻ chung tiền tố X (t(X) tập giao dịch có chứa X) Feb 22, 2023 Thuật tốn tìm tập phổ biến ENUMERATE_FREQUENT([P]) for all li [P] [Pi] = for all lj [P] with j > i I = lj T = t(li) t(lj) if |T| minSup then [Pi] = [Pi] {IT} ENUMERATE_FREQUENT([Pi]) Delete [Pi] Trong t(X) = {yT | X xuất giao dịch y} gọi Tidset X Feb 22, 2023 10