Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 43 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
43
Dung lượng
1,59 MB
Nội dung
ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN Khoa Công Nghệ Thông Tin Isolated Items Discarding Strategy For Discovering High Utility Itemsets ĐẶNG THỊ HẰNG Giảng viên: PGS. TS Lê Hoài Bắc TP. Hồ Chí Minh, 10/06/2015 Yu-Chiang Li, Jieh-Shan Yeh, Chin-Chen Chang NỘI DUNG 1 1 Cơ sở lý thuyết 2 IIDS & thuật toán 3 Kết quả thử nghiệm 4 Kết luận và hướng phát triển 5 Bài toán Bài Toán 2 Khai thác luật kết hợp: quan trọng Mục như là một biến nhị phân: có hay không có trong một giao dịch Mua các sản phẩm cùng nhau Số lượng của một item nhiều hơn 1 Lợi nhuận hay giá trị của các item là khác nhau Hamilton (2004) : khai thác tập mục hữu ích cao từ CSDL Tạo quá nhiều ứng viên khi tìm HUI Chi phí lớn giảm ứng viên: sử dụng IIDS Cơ Sở Lý Thuyết 3 TID Transaction Count T01 {A, B, C, D, G, H} {1, 1, 1, 1, 1, 1} T02 {A, C, E, F} {4, 3, 1, 2} T03 {A, C, E} {4, 3, 3} T04 {B, C, D, F} {4, 1, 2, 2} T05 {A, B, D} {3, 1, 2} T06 {B, C, D} {3, 2, 1} Item A B C D E F G H Profit ($) 3 2 1 3 5 2 8 4 Cơ Sở Lý Thuyết 4 Định nghĩa 2.5: Giá trị hữu ích cục bộ (Local) của một itemset X trong DB ký hiệu là là tổng của các giá trị hữu ích của itemset X trong . Ví dụ: . • Cơ Sở Lý Thuyết 5 TID Transaction Count T01 {A, B, C, D, G, H} {1, 1, 1, 1, 1, 1} T02 {A, C, E, F} {4, 3, 1, 2} T03 {A, C, E} {4, 3, 3} T04 {B, C, D, F} {4, 1, 2, 2} T05 {A, B, D} {3, 1, 2} T06 {B, C, D} {3, 2, 1} Item A B C D E F G H Profit ($) 3 2 1 3 5 2 8 4 Cơ Sở Lý Thuyết 6 Định nghĩa 3.1: Cho k-itemset X. Một superset của X (chứa X và xuất hiện ít nhất trong một giao dịch nào đó của DB) với kích thước chứa giao tác được ký hiệu là , với và . Ví dụ: Cho hoặc , . Cả và đều chứa X, có ba phần tử và xuất hiện trong T02 của DB. • Cơ Sở Lý Thuyết 7 Định lý 3.1: Cho là một -superset tùy ý của k-itemset X, với . Giả sử rằng tồn tại một hàm dự đoán với mọi . Nếu thì không có superset của X là hữu ích cao. Với • IIDS & Thuật Toán 8 - IIDS: một cách thức hiệu quả của việc thiết kế một hàm dự đoán. - Utility mining là dạng tổng quát của share mining (SH-mining) - Các thuật toán: ShFSM (Share-counted frequent sequence mining), DCG (Direct Candidates Generation),… - Áp dụng IIDS FUM (Fast Utility Mining), DCG+ ShFSM & FUM IIDS & Thuật Toán 9 Input: (1) DB: cơ sở dữ liệu giao tác có số lượng (2) UT (utility table): bảng hữu ích (3) minUtil: ngưỡng hữu ích nhỏ nhất Output: Tất cả các itemset hữu ích cao: HUI(DB) [...]... 18 while // lượt kế tiếp k++; ; ; foreach // sử dụng để sinh ; // sinh ứng viên foreach // quét DB T và bằng cách loại bỏ ; // foreach // kiểm tra tất cả các ứng viên if // hữu ích cao ; if ; // xóa itemset không hữu ích Chỉ định rõ mà không có item xuất hiện trong Return ; IIDS & Thuật Toán 19 • : làm tiếp K=k+1=;; ; foreach // sử dụng để sinh ; // sinh ứng viên => foreach // quét DB T và bằng cách... & Thuật Toán 15 • k = 1 : ShFSM = : FUM Transaction T01 T02 T03 T04 T05 T06 Tutil(DB) Transaction utility 21 24 30 19 17 11 122 CF(A) = util(T01) + util(T02) + util(T03) + util(T05) = 21 + 24 + 30 + 17 = 92 CF(A) CF(B) CF(C) CF(D) CF(E) CF(F) CF(G) CF(H) 92 68 105 68 54 43 21 21 IIDS & Thuật Toán 16 • foreach // kiểm tra tất cả các ứng viên if // hữu ích cao ; if ; // xóa item không hữu ích ; // thêm... {3, 2, 1} minUtil = 30% Item A B C D E F G H Profit ($) 3 2 1 3 5 2 8 4 IIDS & Thuật Toán 11 • = 30% * 122 = 36.6 Transaction T01 T02 T03 T04 T05 T06 Tutil(DB) Transaction utility 21 24 30 19 17 11 122 {A, B, C, D, E, F, G, H}; foreach // duyệt DB và // IIDS & Thuật Toán TID Transaction Count T01 {A, B, C, D, G, H} {1, 1, 1, 1, 1, 1} T02 {A, C, E, F} {4, 3, 1, 2} T03 {A, C, E} {4, 3, 3} T04 {B, C,... minUtil = 30% Item A B C D E F G H Profit ($) 3 2 1 3 5 2 8 4 IIDS & Thuật Toán 21 • ShFSM: CF({A, B}) = Tutil ( = util(T01, T01) + util (T05, T05) TID Transaction = 21 +17 = 38 Count Isolated item { G, H} Transaction utility T01 {A, B, C, D} {1, 1, 1, 1, 1, 1} 9 T02 {A, C, E, F} {4, 3, 1, 2} 24 T03 {A, C, E} {4, 3, 3} 30 T04 {B, C, D, F} {4, 1, 2, 2} 19 T05 {A, B, D} {3, 1, 2} 17 T06 {B, C, D} {3,... DE DF EF 38 75 38 54 24 51 68 0 19 51 54 43 0 19 24 FUM AB AC AD AE AF BC BD BE BF CD CE CF DE DF EF 26 63 26 54 24 39 56 0 19 39 54 43 0 19 24 IIDS & Thuật Toán 25 •foreach // kiểm tra tất cả các ứng viên if // hữu ích cao ; if ; // xóa itemset không hữu ích Chỉ định rõ mà không có item xuất hiện trong IIDS & Thuật Toán 26 ShSFM FUM IIDS & Thuật Toán 27 ShFSM: • FUM: : làm tiếp IIDS & Thuật Toán 28... (Synthetic datasets) - Máy phát dữ liệu tổng hợp IBM - T10.I6.D1000k.N1000, T10.I6.D100k.N2000, và T20.I6.D1000k.N1000 - Thực tế: - Dữ liệu chuỗi cửa hàng được lấy từ một chuỗi cửa hàng tạp hóa lớn ở California chứa 1.112.949 giao dịch và 46.086 mặt hàng khác nhau Bảng hữu ích lưu trữ lợi nhuận cho mỗi item Tổng lợi nhuận của các tập dữ liệu là 26.388.499,80$ Kết Quả Thử Nghiệm 30 Kết Quả Thử Nghiệm 31 . {G, H} IIDS & Thuật Toán 18 while // lượt kế tiếp k++; ; ; foreach // sử dụng để sinh ; // sinh ứng viên foreach // quét DB T và bằng cách loại bỏ ; // foreach // kiểm tra. 43 21 21 IIDS & Thuật Toán 16 foreach // kiểm tra tất cả các ứng viên if // hữu ích cao ; if ; // xóa item không hữu ích ; // thêm item biệt lập ;//remaining candidate • IIDS &. có item xuất hiện trong Return ; IIDS & Thuật Toán 19 foreach // sử dụng để sinh ; // sinh ứng viên • : làm tiếp K = k + 1 = ; ; ; => foreach // quét DB T và bằng cách