1. Trang chủ
  2. » Thể loại khác

Khai thác luật kết hợp

50 1 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 50
Dung lượng 4,69 MB

Nội dung

Giới thiệu KHAI THÁC LUẬT KẾT HỢP PGS TS Võ Đình Bảy Khoa CNTT, Trường đại học Công nghệ TP HCM bayvodKhai thác luật kết hợpKhai thác luật kết hợpKhai thác luật kết hợpKhai thác luật kết hợpKhai thác luật kKhai thác luật kết hợpKhai thác luật kết hợpKhai thác luật kết hợpKhai thác luật kết hợpết hợpinhgmail com 1 DẪN NHẬP Xét CSDL khảo sát tiện nghi sử dụng ở các hộ gia đình như sau Hộ Tiện ng.

KHAI THÁC LUẬT KẾT HỢP PGS.TS Võ Đình Bảy Khoa CNTT, Trường đại học Công nghệ TP.HCM bayvodinh@gmail.com DẪN NHẬP  Xét CSDL khảo sát tiện nghi sử dụng hộ gia đình sau: Hộ Tiện nghi sở hữu Tivi, MáyVitính Tủlạnh, Máylạnh Tivi, Máygiặt, Máylạnh Tivi, Tủlạnh, Máylạnh Tivi, Máygiặt, MáyVitính Tivi, Tủlạnh, Máygiặt Tivi, Tủlạnh, MáyVitính Tivi, Tủlạnh, Máygiặt, Máylạnh, MáyVitính PGS.TS Võ Đình Bảy LUẬT KẾT HỢP  Luật  kết hợp biểu thức có dạng: Tivi  Máyvitính [50%, 57%] hay sử dụng:Tivi  sử dụng:Máyvitính [50%, 57%] Nghĩa là: “57% hộ gia đình sử dụng Tivi sử dụng Máyvitính Tivi Máyvitính xuất chung 50% dịng liệu." PGS.TS Võ Đình Bảy KHAI THÁC LUẬT KẾT HỢP Khai thác luật kết hợp chia làm hai giai đoạn: Khai thác tập phổ biến (FIs – Frequent Itemsets) Sinh luật từ tập phổ biến (ARs – Association Rules) PGS.TS Võ Đình Bảy KHAI THÁC LUẬT KẾT HỢP CSDL Khaigiao thác tác luật kết hợp chia làm hai giai đoạn: Khai thác tập phổ biến(FIs – Frequent Itemsets) Sinh luật từ tập phổ biến(ARs – Association CSDL luật Rules) Tìm tập phổ biến FIs Khai thác luật PGS.TS Võ Đình Bảy Khai thác tập phổ biến Sinh luật kết hợp PGS.TS Võ Đình Bảy KHAI THÁC TẬP PHỔ BIẾN  Được đề xuất Agrawal năm 1993  Mục đích: tìm mối liên hệ mặt hàng (danh mục) bán siêu thị  Đến nay, có nhiều phương pháp phát triển như:     Phương pháp Apriori (Agrawal et al., 1994) Phương pháp IT-tree (Zaki et al., 1997) Phương pháp FP-tree (Han et al., 2000) v.v… PGS.TS Võ Đình Bảy MỘT SỐ PHƯƠNG PHÁP KHAI THÁC TẬP PHỔ BIẾN Apriori Agrawal et al đề xuất Dựa vào IT-tree: Zaki et al Dựa vào FP-tree: Han et al Ngồi ra, cịn có số phương pháp đề xuất như: LCM, DCI, PrePost, v.v… PGS.TS Võ Đình Bảy ĐỊNH NGHĨA Độ phổ biến Cho CSDL giao dịch D itemset XI, Độ phổ biến X D, kí hiệu (X), số giao dịch mà X xuất D Tập phổ biến Itemset X  I gọi phổ biến (X)  minSup ( với minSup giá trị người dùng xác định) 11-Aug-16 PGS.TS Võ Đình Bảy MỘT SỐ TÍNH CHẤT Mọi tập tập phổ biến phổ biến, nghĩa XY, (Y)  minSup (X)  minSup Mọi tập cha tập không phổ biến không phổ biến, nghĩa Y  X, (X) < minSup (Y) < minSup Cả hai tính chất dễ dàng chứng minh ( xem tập) 10 PGS.TS Võ Đình Bảy VÍ DỤ MINH HỌA  Xét CSDL mẫu Mã giao dịch Nội dung giao dịch định dạng liệu dọc Mã danh mục Các giao dịch chứa danh mục A 1, 3, 4, A, C, T, W C, D, W A, C, T, W C 1, 2, 3, 4, 5, A, C, D, W D 2, 4, 5, A, C, D, T, W T 1, 3, 5, 6 C, D, T W 1, 2, 3, 4,  t(A) = 1345; t(AD) = t(A)  t(D) = 1345  2456 = 45 PGS.TS Võ Đình Bảy 36 36 IT-tree với minSup=50% {}x123456 Ax1345 Cx123456 Dx2456 Tx1356 Mức IT-tree với minSup = PGS.TS Võ Đình Bảy Item TID A 1, 3, 4, C 1, 2, 3, 4, 5, D 2, 4, 5, T 1, 3, 5, W 1, 2, 3, 4, Wx12345 37 IT-tree với minSup=50% {}x123456 Ax1345 join Cx123456 Dx2456 Tx1356 Item TID A 1, 3, 4, C 1, 2, 3, 4, 5, D 2, 4, 5, T 1, 3, 5, W 1, 2, 3, 4, Wx12345 ACx1345 Mức IT-tree với minSup = PGS.TS Võ Đình Bảy 38 IT-tree với minSup=50% {}x123456 Cx123456 Ax1345 A ACx1345 ACTx135 ATx135 ACWx1345 AWx1345 ATWx135 Dx2456 Tx1356 CDx2456 CTx1356 CDWx245 PGS.TS Võ Đình Bảy TID A 1, 3, 4, C 1, 2, 3, 4, 5, D 2, 4, 5, T 1, 3, 5, W 1, 2, 3, 4, Wx12345 CWx12345 DWx245 TWx135 CTWx135 Có 19 tập phổ biến thỏa minSup = ACTWx135 Item 39 NHẬN XÉT  Thuật toán dựa vào phần giao Tidset để tính nhanh độ phổ biến nên quét CSDL lần  Có thể sử dụng Diffset để tính nhanh độ phổ biến nhằm làm giảm không gian lưu trữ Tidset  Do thuật tốn khơng sinh ứng viên nên hiệu khai thác thường cao so với họ thuật toán sinh ứng viên  Khi số tập phổ biến lớn, thời gian khai thác luật lớn  Cần phương pháp khai thác hiệu PGS.TS Võ Đình Bảy 40 DIFFSET ĐỂ TÍNH NHANH ĐỘ PHỔ BIẾN  Diffset A so với B, kí hiệu d(AB) định nghĩa sau: d(AB) = t(A) \ t(B) A, B  I Gọi PA PB nút thuộc lớp tương đương P, ta có: d(PXY) = d(PY) \ d(PX) (1)  (PXY) = (PX) – |d(PXY)| (2)  Diffset thường nhỏ so với Tidset (3)  Từ (1), (2) (3), sử dụng Diffset để thay Tidset  41 PGS.TS Võ Đình Bảy Diffset với minSup = Mức dùng Tidset Ax1345 {}x123456 Cx123456 Dx2456 Tx1356 Item TID A 1, 3, 4, C 1, 2, 3, 4, 5, D 2, 4, 5, T 1, 3, 5, W 1, 2, 3, 4, Wx12345 42 PGS.TS Võ Đình Bảy Diffset với minSup = {}x123456 Ax1345 Cx123456 Dx2456 Tx1356 Item TID A 1, 3, 4, C 1, 2, 3, 4, 5, D 2, 4, 5, T 1, 3, 5, W 1, 2, 3, 4, Wx12345 Mức 2: d(AC) = t(A) \ t(C) = {1,3,4,5} \ {1,2,3,4,5,6} =  ACx 43 PGS.TS Võ Đình Bảy Diffset với minSup = {}x123456 Ax1345 ATx4 ACx ACTx4 Cx123456 123456 C ACWx AWx ATWx Dx2456 CDx13 CDWx6 Tx1356 CTx24 CWx6 TID A 1, 3, 4, C 1, 2, 3, 4, 5, D 2, 4, 5, T 1, 3, 5, W 1, 2, 3, 4, Wx12345 DWx6 TWx6 CTWx6 Từ mức 3: d(PXY) = d(PY) \ d(PX) ACTWx Item PGS.TS Võ Đình Bảy 44 NHẬN XÉT  Kích thước Diffset thường nhỏ so với Tidset nên tiết kiệm không gian nhớ thời gian tính phần “khác nhau” So sánh độ dài trung bình Tidset Diffset CSDL chuẩn CSDL MinSup (%) Độ dài trung bình Diffset Độ dài trung bình Tidset Tỉ lệ Tidset/Diffset chess 50 26 1820 70 connect 90 143 62204 434.99 mushroom 60 622 10.37 pumsb_star 35 301 18977 63.04 pumsb 90 330 45036 136.47 T10I4D100K 0.1 31 230 7.42 T40I10D100K 0.5 96 755 7.86 PGS.TS Võ Đình Bảy Tỉ lệ = 1820/26 45 TÌM TẬP PHỔ BIẾN ĐĨNG (FREQUENT CLOSED ITEMSETS - FCI)  Tốn tử đóng: Cho X  I cit: P(I) P(I): cit(X) = i(t(X)) Ánh xạ cit gọi tốn tử đóng Ví dụ: cit(AW) = i(t(AW)) = i(1345) = ACW  Tập đóng: Cho X  I X gọi tập đóng  cit(X) = X 46 PGS.TS Võ Đình Bảy TÌM TẬP PHỔ BIẾN ĐÓNG (FREQUENT CLOSED ITEMSETS - FCI) t(AW) = t(A)  t(W) = 1345  Tập đóng: Item TID Tid Items A 1, 3, 4, A, C, T, W C 1, 2, 3, 4, 5, C, D, W D 2, 4, 5, A, C, T, W T 1, 3, 5, A, C, D, W W 1, 2, 3, 4, 5 A, C, D, T, W C, D, T Cho X  I X gọi tập đóng  cit(X) = X Ví dụ: xét CSDL bảng ta có Do cit(AW) = i(t(AW)) = i(1345) = ACW  AW khơng phải tập đóng Do cit(ACW) = i(t(ACW)) = i(1345) = ACW  ACW tập đóng  PGS.TS Võ Đình Bảy 47 CÁC TÍNH CHẤT CỦA IT-PAIR Định lý 1: Cho Xit(Xi) Xjt(Xj) hai phần tử tùy ý lớp tương đương [P] Ta có tính chất sau (c cit): Nếu t(Xi) = t(Xj) c(Xi) = c(Xj) = c(XiXj) Nếu t(Xi)  t(Xj) c(Xi)  c(Xj) c(Xi) = c(XiXj) Nếu t(Xi)  t(Xj) c(Xi)  c(Xj) c(Xj) = c(XiXj) Ngược lại 1, 3: c(Xi)  c(Xj)  c(XiXj) Tải FULL (91 trang): https://bit.ly/3LDBuAX Dự phịng: fb.com/TaiHo123doc.net 48 PGS.TS Võ Đình Bảy NHẬN XÉT VỀ IT-PAIR Tính chất nói rằng, phần giao hai Tidset |t(Xi)|=|t(Xj)|=|t(XiXj)| mà XiXiXj XjXiXj nên Xi, Xj không tập đóng Theo tính chất 2, ta có c(Xi) = c(XiXj)  Xi khơng tập đóng Bên cạnh đó, t(Xi)t(Xj) nên Xi Xj thuộc tập đóng Tải FULL (91 trang): https://bit.ly/3LDBuAX khác Dự phịng: fb.com/TaiHo123doc.net Tương tự tính chất Theo tính chất 4, Xi, Xj XiXj thuộc tập đóng khác PGS.TS Võ Đình Bảy 49 THUẬT TỐN TÌM TẬP PHỔ BIẾN ĐĨNG(CHARM) CHARM-PROPERTY(X Y,li,lj,[Pi],[P]) CHARM(D,minSup) []={lit(li):liI Sup(li)minSup} CHARM-EXTEND([], C = ) return C if Sup(X)  minSup then if t(li)=t(lj) then Remove lj from [P] Pi = Pi  lj elseif t(li)  t(lj) then Pi = Pi  lj elseif t(li)  t(lj) then Remove lj from [P] CHARM-EXTEND([P], C) for each lit(li) in [P] Pi = Pi  lj and [Pi] =  for each ljt(lj) with j > i Y =t(li) t(lj) CHARM-PROPERTY(XY,li,lj,[Pi],[P]) SUBSUMPTION-CHECK(C, Pi) CHARM-EXTEND([Pi], C) delete ([Pi] Sử dụng bảng băm để kiểm tra tập P có phải tập đóng hay khơng? Add X Y to [Pi] else Add X Y to [Pi] SUBSUMPTION-CHECK(C, P) if PY, Y HASHTABLE[|t(P)|] then C = C  P 50 6599596 PGS.TS Võ Đình Bảy

Ngày đăng: 31/10/2022, 09:09

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w