Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 46 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
46
Dung lượng
659,41 KB
Nội dung
KHAI THÁC LUẬTKẾTHỢP 1 DD ẪẪ NN NHNH ẬẬ PP DD ẪẪ NN NHNH ẬẬ PP Xét CSDL khảo sát tiện nghi sử dụng ở các hộ gia đình nh ư sau: gia đình nh ư sau: Hộ Tiện nghi sở hữu 1 Ti i Má Vití h 1 Ti v i , MáyVití n h 2Tủlạnh, Máylạnh 3 Tivi , Máygiặt, Máylạnh 3 Tivi , Máygiặt, Máylạnh 4 Tivi, Tủlạnh, Máylạnh 5 Tivi, Máygiặt, MáyVitính 6 Tivi, Tủlạnh, Máygiặt 7 Tivi, Tủlạnh, MáyVitính 8 Tivi, Tủlạnh, Má yg iặt, Má y lạnh, Má y Vitính 2 LL UU ẬẬ TT KK ẾẾ TT HH ỢỢ PP LL UU ẬẬ TT KK ẾẾ TT HH ỢỢ PP LuLuậậttkkếếtthhợợpplàlà phépphép kéokéo theotheo cócó ddạạngng:: Tivi Máyvitính [50%, 57%] hay sử dụng:Tivi sử dụng:Máyvitính [50%, 57%] Nghĩa là: “57% hộ gia đình sử dụng Tivi thì cũng sử dụng Máyvitính. Tivi và Máyvitính xuấthiện chung trong 50% dòng d ữ li ệ u " dòng d ữ li ệ u . 3 KKHAIHAI THÁCTHÁC LULUẬẬTTKKẾẾTTHHỢỢPP ế Khai thác luật k ế t hợp được chia làm hai giai đoạn: 1. Khai thác t ập p h ổ bi ế n ( FIs – Fre q uent Itemsets ) . ậpp ( q) 2. Khai thác luật từ các tập phổ biến(ARs – Association Rules) Association Rules) . 4 KKHAIHAI THÁCTHÁC LULUẬẬTTKKẾẾTTHHỢỢPP ế CSDL giao tác Khai thác luật k ế t hợp được chia làm hai giai đoạn: 1. Khai thác t ập p h ổ bi ế n ( FIs – Fre q uent Itemsets ) . giao tác ậpp ( q) 2. Khai thác luật từ các tập phổ biến(ARs – Association Rules) Tìm tậpphổ CSDL luật Association Rules) . Tìm tập phổ biến Khai thác luật FIs 5 1 Tìm T ậ p ph ổ bi ế n 1 . Tìm T ậ p ph ổ bi ế n 2 Tìm lu ậ t k ế t h ợ p 2 . Tìm lu ậ t k ế t h ợ p 6 TTÌMÌM TTẬẬPPPHPHỔỔ BIBIẾẾNN Được đề xuất bởi Agrawal năm 1993. ố Mục đích: tìm m ố i liên hệ gi ữ a các mặt hàng (danh mục) được bán trong siêu thị. Đ ế ó hi ề h há đ há Đ ế nnay,c ó n hi ề up h ư ơ ng p há p đ ư ợ cp há t triểnnhư: Ph há A i i (A l) Ph ương p há p A pr i or i (A grawa l) Phương pháp IT-tree (M. Zaki) Ph ươ ng pháp FP - tree (J Han) Ph ươ ng pháp FP tree (J . Han) … 7 MMỘỘT ST SỐỐ THUTHUẬẬT TOÁN T TOÁN TÌM TTÌM TẬẬP PHP PHỔỔ BIBIẾẾNN 1 Ph ươ ng pháp Apriori 1 . Ph ươ ng pháp Apriori . 2. Phương pháp FP-tree (Frequent Patterns Tree) Tree) . 3. Phương pháp IT-tree (Itemset-Tidset Tree). 8 ĐĐỊỊNHNH NGHĨANGHĨA 1. Định nghĩa độ phổ biến: ChoCSDLgiaodịch D và tậpdữ liệu X I. Độ phổ biếncủa X trong D, kí hiệu (X), đ ượ c đ ị nh nghĩa là s ố giao d ị ch mà X xu ấ t đ ượ c đ ị nh nghĩa là s ố giao d ị ch mà X xu ấ t hiện trong D. 2. Định nghĩatậpphổ biến: Tậ p X I đư ợ c g ọilà p h ổ bi ế nn ế u p g p ( X )minSup (với minSup là giá trị do người dùng chỉ định). 9 2121 DecDec 1010 TTÍNHÍNH CHCHẤẤTT AAPRIORIPRIORI 1. Mọi tập con của tập phổ biến đều phổ biến, nghĩa là XY, nếu (Y) minSup thì (X) minSup 2. Mọi tập cha của tập không phổ biến đều không phổ bi ế n nghĩa là Y X n ế u (X) < minSup thì (Y) bi ế n , nghĩa là Y X , n ế u (X) < minSup thì (Y) < minSup 10 [...]... ê hiệu quả khai thác thường cao hơn so với các họ thuật toán sinh ứng viên Khi số tập phổ biến lớn, thời gian khai ố ổ ế thác luật lớn Cần phương pháp khai thác hiệu quả hơn 33 DIFFSET ĐỂ TÍNH NHANH ĐỘ PHỔ BIẾN PHỔ BIẾ Diffset của X so với Y, kí hiệu d(PX) được định , ệ ( ) ợ ị nghĩa như sau: d(PX) = t(P) – t(X) (PXY) = (PX) - |d(PXY)| (1) (PXY) (PX) Ta có d(PXY) = d(PY) – d(PX) (2) Diffset... đơn, sau đó tạo cây FP cục bộ và khai thác trên cây cục c c bộ một cách đệ qui qui Sử dụng phương pháp chia để trị để khai thác tập phổ biến Là phương pháp không sinh ứng viên g ệ q ậ ộ Thường rất hiệu quả trên các CSDL có mật độ trùng lắp dữ liệu cao 26 21-Dec21-Dec-10 PHƯƠNG PHƯƠNG PHÁP IT- TREE ITKết nối Galois: Cho quan hệ hai ngôi I T chứa CSDL cần khai thác Với: X I và Y T Định nghĩa... là một lớp tiền tố Các nút con của ự ộ p X thuộc về lớp tương đương của X vì chúng chia sẻ chung tiền tố X (t(X) là tập các giao dịch có chứa X) 28 NHẬN XÉT VỀ IT- TREE IT1 2 2 (X) =|t(X)| Chỉ cần kết hợp các phần tử trên cùng một mức của lớp tương đương là đủ để sinh ra các tập phổ biến 29 THUẬ THUẬT TOÁN TÌM TẬP PHỔ BIẾN TẬ PHỔ BIẾ ECLAT() [] = {iI| (i) minSup} ENUMERATE_FREQUENT([]) ENUMERATE_FREQUENT([P])... Ck.count minSup} FIs = kLk; 11 CÁCH TẠO ỨNG VIÊN CỦA APRIORI Nguyên tắc Apriori: Nhớ lại tính chất: mọi tập con của tập phổ biến cũng phổ biến Giả sử ta có L3 = {abc, abd, acd, ace, bcd} Xét việc kết để tao ra các ứng viên C4: L3*L3 abcd được tạo từ abc và abd acde đ d được t từ acd và ace tạo d à Rút gọn: acde bị loại vì ade không có trong L3 C4 = {abcd} 12 VÍ DỤ MINH HỌA Bảng 1: Xét CSDL... kí hiệu d(PX) được định , ệ ( ) ợ ị nghĩa như sau: d(PX) = t(P) – t(X) (PXY) = (PX) - |d(PXY)| (1) (PXY) (PX) Ta có d(PXY) = d(PY) – d(PX) (2) Diffset thường khá nhỏ so với Tidset (3) Từ (1), (2) và (3), chúng ta có thể sử dụng Diffset để thay thế Tidset 34 DIFFSET (TT) Mức 1 dùng Tidset {}x12345 Ax1345 1345 A - Bx12345 12345 B Cx245 Dx135 Ex234 Mức 2: d(PX) = t(P) – t(X) AB ABx ABDx4 ACx13 . dòng d ữ li ệ u " dòng d ữ li ệ u . 3 KKHAIHAI THÁCTHÁC LULUẬẬTTKKẾẾTTHHỢỢPP ế Khai thác luật k ế t hợp được chia làm hai giai đoạn: 1. Khai thác t ập p h ổ bi ế n ( FIs – Fre q uent Itemsets ) . ậpp ( q) 2. Khai thác luật. – Association Rules) Association Rules) . 4 KKHAIHAI THÁCTHÁC LULUẬẬTTKKẾẾTTHHỢỢPP ế CSDL giao tác Khai thác luật k ế t hợp được chia làm hai giai đoạn: 1. Khai thác t ập p h ổ bi ế n ( FIs – Fre q uent. Itemsets ) . giao tác ậpp ( q) 2. Khai thác luật từ các tập phổ biến(ARs – Association Rules) Tìm tậpphổ CSDL luật Association Rules) . Tìm tập phổ biến Khai thác luật FIs 5 1 Tìm T ậ p ph ổ bi ế n 1 . Tìm