Bài viết đề xuất một cách tiếp cận khai thác tập tương quan hiếm có trọng số theo hướng tiếp cận không thỏa tính chất bao đóng giảm và đồng thời thỏa ràng buộc phản đơn điệu của độ đo tương quan all-confidence.
Kỷ yếu Hội nghị KHCN Quốc gia lần thứ XII Nghiên cứu ứng dụng Công nghệ thơng tin (FAIR); Huế, ngày 07-08/6/2019 DOI: 10.15625/vap.2019.00058 THUẬT TỐN HIỆU QUẢ KHAI THÁC TẬP TƯƠNG QUAN HIẾM CÓ TRỌNG SỐ KẾT HỢP ĐỘ ĐO ALL-CONFIDENCE Phan Thành Huấn1,2, Lê Hồi Bắc3 Khoa Tốn - Tin học, Trƣờng Đại học Khoa học Tự nhiên, Đại học Quốc gia Tp Hồ Chí Minh Bộ mơn Tin học, Trƣờng Đại học Khoa học Xã hội Nhân văn, Đại học Quốc gia Tp Hồ Chí Minh Khoa Cơng nghệ thơng tin, Trƣờng Đại học Khoa học Tự nhiên, Đại học Quốc gia Tp Hồ Chí Minh huanphan@hcmussh.edu.vn, lhbac@fithcmus.edu.vn TĨM TẮT: Khai thác tập kỹ thuật khai thác quan trọng với ứng dụng tiềm phát cơng máy tính, giao dịch gian lận tổ chức tài chính, tin sinh học, y tế Trong khai thác liệu truyền thống liệu giao dịch item khơng có trọng số (như nhau) Tuy nhiên, số ứng dụng thực tế item có trọng số khác (thể mức độ quan trọng hay ý nghĩa item) - cần khai thác tập phổ biến/ có trọng số item Trong viết này, đề xuất cách tiếp cận khai thác tập tương quan có trọng số theo hướng tiếp cận khơng thỏa tính chất bao đóng giảm đồng thời thỏa ràng buộc phản đơn điệu độ đo tương quan all-confidence Thuật tốn chúng tơi đề xuất gọi ALLCONF-CORSI Chúng tiến hành thực nghiệm thuật toán liệu thực UCI liệu giả lập trung tâm nghiên cứu IBM Almaden, cho thấy thuật toán đề xuất hiệu Từ khóa: độ đo all-confidence, tập tương quan có trọng số, thuật tốn ALLCONF-CORSI I GIỚI THIỆU Thuật toán khai thác luật kết hợp truyền thống [1-3] dùng giá trị ngƣỡng phổ biến tối thiểu minsup với ngầm định mặt hàng có tính chất tần số liệu, điều không thực tế Trong kinh doanh bán lẻ, thƣờng mặt hàng thiết yếu, hàng tiêu dùng sản phẩm giá rẻ đƣợc mua nhiều hơn, mặt hàng xa xỉ sản phẩm giá trị cao lại đƣợc mua (tập hiếm) Nếu chọn minsup q cao mặt hàng đƣợc khai thác thơng thƣờng có giá thành thấp mang lại lợi nhuận không cao cho doanh nghiệp Ngƣợc lại, chọn minsup thấp mặt hàng đƣợc khai thác lớn, điều làm cho doanh nghiệp khó khăn định kinh doanh Từ đó, có nhiều thuật toán khai thác tập đƣợc đề xuất nhƣ Apriori-Inverse, Rarity, Walky-G Các thuật toán dựa Apriori [8-9], Eclat [10] có nhiều hạn chế nhƣ quét liệu nhiều lần, sử dụng nhiều nhớ, chiến lƣợc cắt tỉa (không tái sử dụng cho lần khai thác tiếp theo) Những năm cuối kỷ 20, C.H.Cai đồng [5] đề xuất mơ hình khai thác tập phổ biến có trọng số mục hàng (mức độ quan trọng hay mức ý nghĩa mục hàng khác nhau) chứa nhiều tri thức so với khai thác tập phổ biến truyền thống (khơng trọng số) Sau đó, có nhiều tác giả nghiên cứu đề xuất thuật toán [5-6] giải vấn đề Tuy nhiên, thuật toán tiếp cận giải theo hƣớng thỏa tính chất bao đóng giảm Năm 2003, F.Tao có bàn luận đến hƣớng giải tốn theo cách tiếp cận “khơng thỏa tính chất bao đóng giảm”, điều làm gia tăng đáng kể khơng gian tìm kiếm Nhƣng cơng trình [6] F.Tao đồng giải toán theo hƣớng thỏa tính chất bao đóng giảm thuật toán tựa Apriori Trong năm gần đây, S Kamepalli đồng đề xuất thuật toán IWI [7] sử dụng cấu trúc FP-Tree khai thác tập có trọng số theo hƣớng tiếp cận khơng thỏa tính chất bao đóng giảm Trong năm gần đây, để đáp ứng nhu cầu ứng dụng khai thác liệu toán tiềm nhƣ phát cơng máy tính, giao dịch gian lận tổ chức tài chính, tin sinh học, y tế,… S Bouasker đồng [10] đề xuất thuật toán CORI khai thác tập không trọng số kết hợp độ đo tƣơng quan bond [4] (tương quan độ phổ biến độ phủ tập mục hàng giao dịch) Thuật toán sử dụng cấu trúc IT-Tree khai thác tập từ tập xác định tập tƣơng quan Tuy nhiên, thuật toán CORI khai thác tập tƣơng quan liệu khơng có trọng số Từ khảo sát trên, chúng tơi đề xuất thuật tốn giải tốn khai thác tập tƣơng quan có trọng số “khơng thỏa tính chất bao đóng giảm”, thách thức lớn Trong tốn này, chúng tơi giải kết hợp khai thác tập có trọng số độ đo tƣơng quan all_confidence [4] (tương quan độ phổ biến tập mục hàng độ phổ biến tối đại mục hàng tập) Dựa vào tập tương quan có trọng số tìm đƣợc, chúng tơi khai thác luật kết hợp tất luật kết hợp có độ tin cậy nhỏ ngƣỡng minallconf cho trƣớc Thuật toán đề xuất bao gồm thuật toán nhƣ sau: - Xây dựng mảng Index_COOC chứa items đồng xuất item xuất giao dịch item hạt nhân; - Xây dựng nLOOC-Tree chứa mẫu xuất giao dịch item hạt nhân; - Thuật toán ALLCONF-CORSI khai thác hiệu tập tƣơng quan có trọng số kết hợp độ đo tƣơng quan All-Confidence dựa mảng Index_LOOC nLOOC-Tree Phan Thành Huấn, Lê Hoài Bắc 451 Trong phần 2, báo trình bày khái niệm khai thác tập phổ biến, tập không trọng số có trọng số Phần 3, xây dựng thuật tốn xác định mảng chứa itemset đồng xuất itemset xuất giao dịch item hạt nhân, danh sách nLOOC-Tree thuật toán ALLCONF-CORSI khai thác tập tƣơng quan có trọng số Kết thực nghiệm đƣợc trình bày phần kết luận phần II CÁC VẤN ĐỀ LIÊN QUAN A Khai thác tập phổ biến tập không trọng số Cho I = {i1, i2, , im} tập gồm m mục hàng, mục hàng gọi item Tập item X ={i1, i2, , ik}, ij I (1 j k) gọi itemset, itemset có k item gọi k-itemset Ɗ liệu giao dịch, gồm n ghi phân biệt gọi tập giao dịch T = {t1, t2, , tn}, giao dịch tk ={ik1, ik2, , ikm}, ikj I (1 kj m) Định nghĩa 1: Độ phổ biến (support) itemset X chứa X n giao dịch I, ký hiệu sup(X) - tỷ lệ số giao dịch Ɗ có Định nghĩa 2: Cho X I, X gọi itemset phổ biến sup(X) ≥ minsup, minsup ngƣỡng phổ biến tối thiểu Ký hiệu FI tập hợp itemset phổ biến Định nghĩa 3: Cho X itemset I, X gọi itemset - sup(X) < minsup Ký hiệu RI tập hợp chứa Tính chất 1: X Y, sup(Y) ≥ minsup: sup(X) ≥ minsup; Tính chất 2: ik I, sup(ik) < minsup: ik RI; Tính chất 3: X Y, sup(X) < minsup: sup(Y) < minsup X, Y RI Cho liệu giao dịch Ɗ Bảng Bảng Dữ liệu giao dịch Ɗ Mã giao dịch Tập mục t1 A C E F t2 A C G t3 E H t4 A C D F G t5 A C E G t6 E t7 A B C E t8 A C D t9 A B C E G t10 A C E F G Ví dụ 1: Dữ liệu giao dịch Ɗ Bảng 1, có item riêng biệt I = {A, B, C, D, E, F, G, H} 10 giao dịch T = {t1, t2, t3, t4, t5, t6, t7, t8, t9, t10} với giá trị ngƣỡng minsup = 0,20, ta có: Xét itemset X ={A, C, E}, sup({A,C,E}) = 0,50 ≥ minsup, ta nói: ”X ={A, C, E} phổ biến với minsup = 0,20”; Theo tính chất tập X ={A, C, E} phổ biến, nghĩa tất tập X phổ biến sup({A}) = 0,80; sup({C}) = 0,80; sup({E}) = 0,70; sup({A, C}); sup({A, E}) = 0,50; sup({C, E}) = 0,50 ≥ minsup Theo tính chất 2, Y = {H} sup({H}) = 0,10 < minsup, ta nói: ”Y = {H} itemset ngƣỡng minsup = 0,20”; Theo tính chất tập cha Y ={H} itemset hiếm, nghĩa Y = {E, H} itemset hiếm, với sup({E, H}) = 0,10 < minsup = 0,20 B Khai thác tập phổ biến tập có trọng số Trong thực tế, nhiều ứng dụng tiềm cần khai thác tập nhƣ ứng dụng phát cơng máy tính, giao dịch gian lận tổ chức tài chính, tin sinh học, y tế,… Nhiều tác giả đề xuất thuật toán [7-10] khai thác tập thỏa hai ngƣỡng tập tƣơng quan [11] Sau khái niệm liên quan: Cho I = {i1, i2, , im} tập gồm m mục hàng, mục hàng gọi item Tập SIG = {sigi1, sigi2, , sigim}, sigik [0, 1] tập mức ý nghĩa hay mức độ quan trọng item (trọng số mục hàng) Tập item X ={i1, i2, , ik}, ij I (1 j k)gọi itemset, itemset có k item gọi k-itemset Ɗ liệu giao dịch, gồm n ghi phân biệt gọi tập giao dịch T={t1, t2, , tn}, giao dịch tk ={ik1, ik2, , ikm}, ikj I (1 kj m) Định nghĩa 4: Cho X I, mức ý nghĩa itemset X đƣợc tính sig(X)=max(sigi1, sigi2, , sigik), ij X (1 j k) Định nghĩa 5: Cho X I, X gọi itemset phổ biến sigsup(X) ≥ minsigsup, minsigsup ngƣỡng mức ý nghĩa phổ biến tối thiểu (do người dùng định) Tập hợp chứa itemset phổ biến có trọng số gọi tập phổ biến có trọng số, ký hiệu FSI KHAI THÁC TẬP TƢƠNG QUAN HIẾM CÓ TRỌNG SỐ KẾT HỢP ĐỘ ĐO ALL-CONFIDENCE 452 Mức ý nghĩa phổ biến itemset X: sigsup(X) = sig(X) sup(X) (1) Định nghĩa 6: Cho X I, X đƣợc gọi itemset có trọng số, sigsup(X) < minsigsup Tập hợp chứa itemset có trọng số gọi tập có trọng số, ký hiệu RSI Tính chất 4: (mở rộng tính chất 2) ik Định nghĩa 7: Cho X I, sigsup(ik) < minsigsup: ik RSI I Độ đo all_confidence itemset X đƣợc tính: all _ conf ( X ) sup( X ) max(sup( i j )| i j (2) X) Độ đo all_confidence thỏa tính chất bao đóng giảm: X’ X all_conf(X’) ≥ all_conf(X) Ta nói: tất luật kết hợp sinh từ itemset X có độ tin cậy conf lớn ngƣỡng all_conf tối thiểu min_allconf Định nghĩa 8: Cho X RSI, X đƣợc gọi itemset tƣơng quan có trọng số, all_conf(X) min_allconf, min_allconf ngƣỡng độ tin cậy tối thiểu (do người dùng định) Tập hợp chứa itemset tƣơng quan có trọng số gọi tập tương quan có trọng số, ký hiệu CORSI Tính chất 5: (mở rộng tính chất 4) ik I, sigsup(ik) < minsigsup: all_conf(ik) = ik CORSI Bảng Mức ý nghĩa item Ɗ Mục hàng Mức ý nghĩa (sigi) A 0,55 B 0,70 C 0,50 D 0,65 E 0,40 F 0,60 G 0,30 H 0,80 Ví dụ 2: Cho Ɗ Bảng 1, item có mức ý nghĩa đƣợc cho Bảng minsigsup = 0,20 Xét itemset Y ={A,C,G}, ta có: sup({A,C,G}) = 0,50; sig({A,C,G}) = max(sigA, sigC, sigG) = max(0,55; 0,50; 0,30) = 0,55 sigsup = 0,55 0,50=0,275 ≥ minsigsup=0,20 - ta nói: ”Y ={A,C,G} itemset phổ biến có trọng số”; Theo tính chất (mở rộng cho trƣờng hợp có trọng số) tập Y ={A,C,G} phổ biến, nghĩa tất tập Y phổ biến - Các Y Ysub = {(A; 0,44), (C; 0,40), (G; 0,15), (AC; 0,44), (AG; 0,275), (CG; 0,25)}, nhiên có itemset {A, C, AC, AG, CG} phổ biến; cịn itemset {G}, ta có: sup({G}) = 0,50; sig({G}) = 0,30 sigsup({G}) = 0,15 < minsigsup = 0,20 không phổ biến Điều cho thấy: “Khai thác tập phổ biến có trọng số (mức ý nghĩa item) tính chất khơng thỏa” Theo tính chất 4, xét itemset Z = {G} có sup({G}) = 0,50; sig({G}) = 0,30 sigsup({G}) = 0,15 < minsigsup = 0,20, ta nói: “Itemset Z = {G} itemset có trọng số”; Theo tính chất tập cha Z ={G} khơng phổ biến Tuy nhiên, ta có Z ={G} Y = {A,C,G}, mà sup({A,C,G}) = 0,50; sig({A,C,G}) = max(0,55; 0,50; 0,30) = 0,55 sigsup({A,C,G}) = 0,55 0,50=0,275 ≥ minsigsup=0,20 ; Y = {A,C,G} itemset phổ biến Điều cho ta thấy: ”Khai thác tập có trọng số (mức ý nghĩa item) tính chất không thỏa ” Bảng Tập RSI, CORSI liệu giao dịch Ɗ với minsigsup = 0,15 k-itemset Tập tương quan CORSI Tập tương quan CORSI min_allconf = 0,25 min_allconf = 0,30 #CORSI = 23 #CORSI = H, B, D H, B, D H, B, D BA, BG, BE, BG, DA, DC, DG, DF, BE, BA, BC, DA, DC, DF, FE, DF, FG, EG FE, FG, EG FG, EG BEA, BEC, BAC, BGE, BGA, BGC, BEA, BEC, BAC, DAC, FEA, DAC, DFA, DFC, DGA, DGC, DFG, FEC, FGA, FGC FEA, FEC, FGA, FGC, FEG BEAC, BGEA, BGEC, BGAC, BEAC, FEAC, FGAC DFAC,DGAC, DFGA, DFGC, FEAC, FGAC, FEGA, FEGC BGEAC, DFGAC, FEGAC Tập RSI #RSI = 26 Trong bảng 3, cho thấy tập có trọng số RSI tập tƣơng quan CORSI chứa k-itemset với minsigsup = 0,15 Số lƣợng tập |RSI| = 46, số lƣợng tập tƣơng quan |CORSI|0,25 = 23 số lƣợng tập tƣơng quan |CORSI|0,30 = Tỷ suất CORSI 0,25 RSI 23 46 100% 50% Qua đó, ta dễ dàng thấy mối quan hệ tập tập tƣơng quan kết hợp độ đo all_confidence nhƣ sau: CORSI RSI Phan Thành Huấn, Lê Hoài Bắc 453 C Tổ chức lưu trữ liệu giao dịch Lƣu trữ liệu giao dịch dạng bit cấu trúc hiệu khai thác tập phổ biến [12] Chuyển đổi liệu giao dịch thành ma trận nhị phân BiM, dịng ứng với giao dịch cột ứng với item Nếu item thứ ik xuất giao dịch tj bit thứ k dòng tj BiM mang giá trị 1, ngƣợc lại mang giá trị III CÁC THUẬT TOÁN A Tập chiếu itemset đồng xuất Tập chiếu item ik liệu giao dịch Ɗ: (ik)={t Ɗ│ik t} tập giao dịch có chứa item ik sup(ik) = | ( ik)| Tập chiếu itemset X ={i1, i2, , ik}, ij I (1 j k), (X) = (i1) (3) (i2)… (ik) sup(X) = | ( X )| Ví dụ 3: Theo Bảng 1, có (A) = {t1, t2, t4, t5, t7, t8, t9, t10} (B) = {t7, t9} Khi đó, (AB) = (A) {t1, t2, t4, t5, t7, t8, t9, t10} {t7, t9} = {t7, t9}, (B) (A) (AB) (A) (4) (B)= Để tránh trùng lặp khơng gian sinh tập có trọng số, đƣa định nghĩa bổ đề rút gọn khơng gian sinh tập có trọng số nhƣ sau: Định nghĩa 9: Cho ik I (i1 i2 … im) thứ tự giảm dần theo mức ý nghĩa, ta gọi ik item hạt nhân Tập Xlexcooc I gọi đồng xuất có thứ tự với item ik: Xlexcooc tập item có thứ tự theo độ phổ biến, đồng xuất ik ( ik) ( ik ij) , i j Xlexcooc, i k ij Ký hiệu, lexcooc(ik) = Xlexcooc Định nghĩa 10: Cho ik I (i1 i2 … im) thứ tự giảm dần theo mức ý nghĩa, ta gọi ik item hạt nhân Tập Ylexlooc I chứa item xuất có thứ tự với ik giao dịch, nhƣng không đồng xuất hiện: | ( ik ij) | < | ( ik)| , i j Ylexlooc, i k ij Ký hiệu, lexlooc(ik) = Ylexlooc B Thuật tốn sinh itemset đồng xuất có thứ tự Trong phần này, trình bày thuật tốn sinh item đồng xuất xuất giao dịch với item hạt nhân, đƣợc lƣu trữ vào mảng Index_COOC Mỗi phần tử Index_COOC gồm thành phần thông tin: - Index_COOC[k].item: item hạt nhân thứ k; - Index_COOC[k].sup: độ phổ biến item hạt nhân thứ k; - Index_COOC[k].cooc: item đồng xuất item hạt nhân thứ k dạng bit; - Index_COOC[k].looc: item xuất item hạt nhân thứ k giao dịch dạng bit; Mã giả thuật toán Xây dựng bảng Index_COOC Đầu vào: Dữ liệu giao dịch Ɗ Đầu ra: Mảng Index_COOC, ma trận BiM 1: Với phần tử k mảng Index_COOC thực hiện: 2: Index_COOC[k].item = ik 3: Index_COOC[k].sup = 4: Index_COOC[k].cooc= 2m - 5: Index_COOC[k].looc= 6: Với giao dịch ti thực hiện: 7: Lƣu giao dịch ti vào ma trận BiM 8: Với item k có giao dịch ti thực hiện: 9: Index_COOC[k].cooc = Index_COOC[k].cooc AND vectorbit(ti) 10: Index_COOC[k].looc = Index_COOC[k].looc OR vectorbit(ti) 11: Index_COOC[k].sup = Index_COOC[k].sup + 12: Sắp xếp mảng Index_COOC giảm dần theo sig 13: Với phần tử k mảng Index_LOOC: 14: Index_LOOC[k].cooc= lexcooc(ik) 15: Index_LOOC[k].looc= lexclooc(ik) 16: Trả mảng Index_COOC, ma trận BiM Dòng đến dòng 5: khởi tạo cho mảng Index_COOC Dòng duyệt liệu giao dịch, ứng với giao dịch: có chứa item thứ k thực phép AND bit để xác định item đồng xuất với item k (dòng 9) thực pháp OR bit để xác định item xuất với item k giao dịch (dòng 10) KHAI THÁC TẬP TƢƠNG QUAN HIẾM CÓ TRỌNG SỐ KẾT HỢP ĐỘ ĐO ALL-CONFIDENCE 454 Khởi tạo mảng Index_COOC: (thành phần cooc looc biểu diễn dạng bit) số item m = item sup cooc looc item sup cooc looc item sup cooc looc A B C D E 0 0 11111111 11111111 11111111 11111111 11111111 00000000 00000000 00000000 00000000 00000000 Đọc giao dịch t1: {A, C, E, F} có biểu diễn dạng bit 10101100 F G 11111111 00000000 B C D E F 0 1 1 10101100 11111111 10101100 11111111 10101100 10101100 10101100 00000000 10101100 00000000 10101100 10101100 Duyệt lần lƣợt đến giao dịch t10: {A, C, E, F, G} có biểu diễn dạng bit 10101110 H 11111111 00000000 A 11111111 00000000 G H 11111111 00000000 B C D E F G 2 8 10100000 11101000 10100000 10110000 00001000 10100100 10100010 11111110 11101010 11111110 10110110 11101111 10111110 11111110 Thuật toán 1, trả mảng Index_COOC giảm theo mức ý nghĩa item theo Bảng 11111111 00000000 A H 00001001 00001001 Bảng Trả mảng Index_COOC giảm theo mức ý nghĩa item (dòng đến 12) item sup cooc looc H B D F A C E G 2 8 E A, C, E A, C A, C C A Ø A, C Ø G F, G D, E, G B, D, E, F, G B, D, E, F, G A, B, C, F, G, H B, D, E, F Chỉ có itemset đồng xuất item C cần hiệu chỉnh Ta có, cooc(C) = {A} A C, nên lexcooc(C) = { } Tƣơng tự, ta có looc(A) = {B, D, E, F, G} B D F A E G, nên lexlooc(A) = {E, G} Sau thực dịng 13, 14 15, ta có kết Bảng Chúng thêm vào mảng Index_COOC thành phần sig để minh họa mảng có thứ tự giảm dần theo mức ý nghĩa Bảng Trả mảng Index_COOC giảm theo mức ý nghĩa item, thành phần cooc looc có thứ tự item sig sup cooc looc H 0,80 0,10 E Ø B 0,70 0,20 E, A, C G D 0,65 0,20 A, C F, G F 0,60 0,30 A, C E, G A 0,55 0,80 C E, G C 0,50 0,80 Ø E, G E 0,40 0,70 Ø G G 0,30 0,50 Ø Ø C Thuật toán xây dựng nLOOC-Tree Thuật toán - Từ mảng Index_LOOC xây dựng danh sách chứa mẫu xuất giao dịch với item hạt nhân Mỗi có nút gốc item hạt nhân nút item xuất giao dịch với item hạt nhân (có thứ tự giảm dần theo mức ý nghĩa) Mỗi nút gồm thành phần: - nLOOC_Tree[k].item: item xuất với item hạt nhân (nút gốc); - nLOOC_Tree[k].sup: độ phổ biến item xuất với item hạt nhân; Mã giả thuật toán Xây dựng danh sách nLOOC-Tree Đầu vào: Ma trận BiM, Mảng Index_COOC Đầu ra: Danh sách nLOOC-Tree 1: 2: 3: 4: 5: 6: 7: 8: 9: 10: 11: Với phần tử k mảng Index_COOC: nLOOC_Tree[k].item = Index_COOC[k].item nLOOC_Tree[k].sup = Index_COOC[k].sup Với item ik giao dịch tℓ : Với item ij Index_COOC[k].looc: Nếu ij nút nút gốc nLOOC-Tree[k] Thêm nút ij vào nút gốc nLOOC-Tree[k] Ngƣợc lại Thêm nút ij vào nút gốc nLOOC-Tree[k] Cập nhật sup nút ij nút gốc nLOOC-Tree[k] Trả danh sách nLOOC-Tree Cây nLOOC-Tree có đặc trƣng nhƣ sau: Phan Thành Huấn, Lê Hoài Bắc 455 - Chiều cao nhỏ số lƣợng item xuất giao dịch với item hạt nhân (các item có thứ tự theo độ phổ biến) - Mỗi đƣờng đơn (single-path) mẫu có thứ tự từ nút gốc (item hạt nhân) đến nút độ phổ biến mẫu độ phổ biến nút (ik ik+1 … iℓ) - Mỗi phân đoạn đƣờng đơn (sub-single-path) từ nút gốc đến nút đƣờng đơn mẫu thứ tự độ phổ biến mẫu độ phổ biến nút cuối phân đoạn đƣờng đơn Hình Thuật tốn - sinh danh sách nLOOC-Tree theo mảng Index_COOC Bảng {F Ví dụ 4: Xét item hạt nhân F, có đƣờng đơn {F E E} sup({F,E}) = 0,20 độ phổ biến nút E G} sup({F,E,G}) = 0,10; phân đoạn đƣờng đơn D Thuật tốn khai thác tập tương quan có trọng số ALLCONF-CORSI Thuật toán - ALLCONF-CORSI khai thác itemset tƣơng quan có trọng số từ mảng Index_COOC nLOOC_Tree Chúng đề xuất bổ đề rút gọn không gian sinh itemset tƣơng quan nhƣ sau: Bổ đề 1: lexcooc(ik) Xlexcooc sup(ik xsub) = sup(ik), xsub Ƥ 1(Xlexcooc) Chứng minh: lexcooc(ik) Xlexcooc, xsub Ƥ 1(Xlexcooc) Theo định nghĩa 9, ta có (ik (ik) theo phƣơng trình (3), (4) sup(ik xsub) = sup(ik), xsub Ƥ 1(Xlexcooc) ■ xsub) = (ik) (xsub) = Ví dụ 5: Xét item F, với sup({F}) = 0,30 Ta có, lexcooc(F) = {A, C} itemset kết hợp {A, C, AC} sup({F}) = sup({FA}) = sup({FC}) = sup({FAC}) = 0,30 Bổ đề 2: lexlooc(ik) ysub Ylexlooc sup(ik ysub) < sup(ik), Chứng minh: Theo định nghĩa 10, | ( ik Ƥ 1(Ylexlooc), hiển nhiên (ik ysub) = (ik) ysub Ƥ 1(Ylexlooc) ij) | < | ( ik)| , ij lexlooc(ik) (4), ta có: sup(ik (ysub) (ik) ■ ysub) < sup(ik), Ví dụ 6: Xét item D, với sup({D}) = 0,20 Ta có, lexlooc(D) = {F, G} itemset kết hợp {F, G, FG} sup({D,F}) = sup({D,G}) = sup({D,F,G}) = 0,10 < sup({D}) = 0,10 Bổ đề 3: (Loại bỏ item hạt nhân không sinh CORSI) sig(ik) sup(ik) xsub} CORSI, xsub Ƥ 1(Xlexcooc) minsigsup {ik Chứng minh: Theo bổ đề 1, sup(ik xsub) = sup(ik), xsub Ƥ 1(Xlexcooc) Ta có, sigsup(ik xsub) = max(sig(ik),{sig(ij)| ij xsub}) sup(ik) = sig(ik) sup(ik) minsigsup; đó, {ik xsub} RSI hiển nhiên {ik xsub} CORSI■ Ví dụ 7: Cho minsigsup = 0,15, xét item F, có sup({F})= 0,30 lexcooc(F) = {A, C} Khi đó, sup({F}) max(sig({F}), sig({A}), sig({C})) = sig({F}) sup({F}), = 0,60 0,30 = 0,18 minsigsup {FA, FC, FAC} CORSI, sigsup({F,A}) = sigsup({F,C}) = sigsup({G,A,C}) = 0,18 minsigsup Bổ đề 4: (Loại bỏ item hạt nhân không sinh CORSI) sig(ik) sup(ik) < minsigsup sup(ik) < min(sup(ij)| ij lexcooc(ik)) min_allconf {ik xsub} CORSI, xsub Ƥ 1(Xlexcooc) Chứng minh: Theo bổ đề 1, sup(ik xsub) = sup(ik), xsub Ƥ 1(Xlexcooc) Ta có, all_conf(ik xsub) = sup(ik xsub)/max(sup(ik), {sup(ij)| ij xsub}) = sup(ik)/max(sup(ik), {sup(ij)| ij xsub}) < sup(ik)/min({sup(ij)| ij xsub}) < sup(ik)/min({sup(ij)| ij lexcooc(ik)}) < min_allconf; đó, {ik xsub} CORSI, xsub Ƥ 1(Xlexcooc)■ 456 KHAI THÁC TẬP TƢƠNG QUAN HIẾM CÓ TRỌNG SỐ KẾT HỢP ĐỘ ĐO ALL-CONFIDENCE Ví dụ 8: Cho minsigsup = 0,15 min_allconf = 0,70; xét item D, có sup({D})= 0,20 sig({D} = 0,65 với lexcooc(D) = {A, C} Khi đó, sigsup({D}) = 0,20 0,65 = 0,13 < minsigsup sup({D}) = 0,20 < min(sup({A}), sup({C})) min_allconf = 0,80 0,70 = 0,56 {DA, DC, DAC} CORSI, all_conf({D,A}) = 0,25, all_conf({D,C}) = 0,25, all_conf({D,A,C}) = 0,25 < min_allconf {ik Bổ đề 5: (Loại bỏ item hạt nhân không sinh CORSI) sup(ik) < min(sup(ij)| ij ysub} CORSI, ysub Ƥ 1(Ylexlooc) lexlooc(ik)) min_allconf Chứng minh: Theo bổ đề 2, sup(ik ysub) < sup(ik), ysub Ƥ 1(Ylexlooc) Ta có, all_conf(ik ysub) = sup(ik ysub)/max(sup(ik), {sup(ij)| ij ysub}) < sup(ik)/max(sup(ik), {sup(ij)| ij ysub}) < sup(ik)/min(sup(ik), {sup(ij)| ij ysub}) < sup(ik)/min(sup(ik), {sup(ij)| ij lexlooc(ik)}) < min_allconf; đó, {ik ysub} CORSI, ysub Ƥ 1(Ylexlooc)■ Ví dụ 9: Cho min_allconf = 0,70, xét item D, có sup({D})= 0,20 lexlooc(D) = {G, F} Khi đó, sup({D}) = 0,20 < 0,30 0,70 = 0,21 {DG, DF, DGF} CORSI, all_conf({D,G}) = 0,20, all_conf({D,F}) = 0,33, all_conf({D,G,F}) = 0,20 < min_allconf Bổ đề 6: (Loại bỏ đƣờng đơn không sinh CORSI) ik item hạt nhân đƣờng đơn từ ik spj (ik ik+1 … iℓ) sig(ik) sup(spj) minsigsup {ik sspl} CORSI, sspl spj Chứng minh: Theo đặc trƣng nLOOC-Tree, sspl spj, sup(sspl) sup(spj) Ta có, sig(ik) sup(sspl) sig(ik) sup(spj) minsigsup; đó, {ik sspl} RSI hiển nhiên {ik sspl} CORSI, sspl spj ■ Ví dụ 10: Cho minsigsup = 0,15, xét item hạt nhân A, có đƣờng đơn {A E G}, sup({A,E,G}) = 0,30 sigsup({A,E,G}) = sig({A,E,G}) sup({A,E,G}) = sig({A}) sup({A,E,G}) = 0,55 0,30 = 0,165 minsigsup phân đoạn đƣờng đơn {A E} sigsup({A,E}) = sig({A,E}) sup({A,E}) = 0,55 0,50 = 0,275 minsigsup Mã giả thuật toán Khai thác tập tương quan có trọng số ALLCONF_CORSI Đầu vào: Mảng Dataset, Index_COOC, minsigsup min_allconf Đầu ra: Tập tƣơng quan có trọng số CORSI 1: Với Index_COOC[k].sigsup < minsigsup 2: CORSI[k] = CORSI [k] Index_COOC[k].item//theo tính chất 3: Với (Index_COOC[k].item) 4: Nếu ((Index_COOC[k].looc ={ }) không thỏa Bổ đề 4) 5: CORSI[k]= {Index_COOC[k].item xsub | xsub Ƥ 1(Index_COOC[k].cooc)} 6: Nếu ((Index_COOC[k].looc { } không thỏa Bổ đề 5) 7: nLOOC_Tree(Index_COOC[k].item) 8: SP GenPath(Index_COOC[k].item)//sinh single-path 9: Với spj SP 10: Nếu (Index_COOC[k].sig sup(spj) < minsigsup all_conf(Index_COOC[k].item spj) min_allconf)//Bổ đề 11: CORSI[k]= {Index_COOC[k].item sspl | sspl spj} 12: CORSI[k]= {Index_COOC[k].item sspl xsub| sspl spj, xsub Ƥ 1(Index_COOC[k].cooc) 13: Nếu (Index_COOC[k].sig Index_COOC[k].sup < minsigsup không thỏa Bổ đề 4) 14: CORSI[k]= {Index_COOC[k].item xsub | xsub Ƥ 1(Index_COOC[k].cooc)} 15: Trả tập tƣơng quan có trọng số CORSI Ví dụ 11: Cho liệu giao dịch Ɗ Bảng 1, minsigsup = 0,15 min_allconf = 0,25 Sau thực thuật tốn 2, ta có mảng INDEX_COOC với nLOOC-Tree, nhƣ Bảng Hình Dịng 2: item theo tính chất - có item H (sigsup(H) = 0,10 0,50 = 0,05 < minsigsup), B D CORSI[H] = {(H; 0,10; 0,08)}, CORSI[B] = {(B; 0,20; 0,14)}, CORSI[D] = {(D; 0,20; 0,13)}; Dịng 6: khơng sinh CORSI từ item H G; Xây dựng nLOOC-Tree cho item cần khai phá: B, D, F, A C ; Xét item B, nLOOC-Tree(B) có đƣờng đơn {B G}, sigsup({BG}) = 0,07 < minsigsup all_conf({BG}) = 0,20 < min_allconf , {BG} CORSI Ta có, sigsup({B}) = 0,14 < minsigsup không thỏa Bổ đề 4: sinh itemset tƣơng quan có trọng số từ item B CORSI[B] = {(BA; 0,20;0,14), (BC; 0,20;0,14), (BE; 0,20;0,14), (BAC; 0,20;0,14), (BAE; 0,20;0,14), (BCE; 0,20;0,14), (BACE; 0,20;0,14)} Xét item D, nLOOC-Tree(D) có đƣờng đơn {D F G} sigsup({DFG}) = 0,065 < minsigsup thỏa Bổ đề Dòng 10, sinh phân đoạn đƣờng đơn {D F} có sigsup({DF}) = 0,065 < minsigsup khơng thỏa Bổ đề 4: sinh itemset tƣơng quan có trọng số từ item D CORSI[D] = {(DF; 0,10;0,065), (DA; 0,20;0,13), (DC; 0,20;0,13), (DAC; 0,20;0,13)} Phan Thành Huấn, Lê Hoài Bắc 457 Xét item F, nLOOC-Tree(F) có hai đƣờng đơn {F E G} {F G}: sigsup({FEG}) = 0,06 < minsigsup thỏa Bổ đề Dòng 10, sinh phân đoạn đƣờng đơn {F E} có sigsup({FE}) = 0,12 < minsigsup không thỏa Bổ đề 4, sinh itemset tƣơng quan có trọng số từ item F CORSI[F] = {(FE; 0,20;0,12), {(FAE; 0,20;0,12), {(FCE; 0,20;0,12), {(FACE; 0,20;0,12)}, tƣơng tự đƣờng đơn {F G} sinh thêm itemset tƣơng quan có trọng số CORSI[F] = {(FG; 0,20;0,12), {(FAG; 0,20;0,12), {(FCG; 0,20;0,12), {(FACG; 0,20;0,12)} Xét item E, nLOOC-Tree(E): có đƣờng đơn {E G} ssigup(EG) = 0,12 < minsigsup không thỏa Bổ đề 4: sinh itemset tƣơng quan có trọng số từ item E CORSI[E] = {(EG; 0,30;0,12)} Tập tƣơng quan có trọng số CORSI Ɗ Bảng với minsigsup = 0,15 min_allconf = 0,25: Item hạt nhân H B D F E Tập tương quan có trọng số CORSI (H;0,1;0,08) (B;0,2;0,14) (BE;0,2;0,14) (BA;0,2;0,14) (BC;0,2;0,14) (BAE;0,2;0,14) (BCE;0,2;0,14) (BAC;0,2;0,14) (BACE;0,2;0,14) (D;0,2;0,13) (DA;0,2;0,13) (DC;0,2;0,13) (DF;0,1;0,065) (DAC;0,2;0,13) (FE;0,2;0,12) (FG;0,2;0,12) (FAE;0,2;0,12) (FCE;0,2;0,12) (FGA;0,2;0,12) (FGC;0,2;0,12) (FACE;0,2;0,12) (FGAC;0,2;0,12) (EG;0,3;0,12) IV KẾT QUẢ THỰC NGHIỆM Thực nghiệm máy tính Core Duo 2.0 GHz, 4GB RAM, thuật toán cài đặt C#, MVS 2010 Nghiên cứu thực nghiệm hai nhóm liệu: Nhóm liệu thực có mật độ dày: sử dụng liệu thực từ kho liệu học máy trƣờng Đại học California (Lichman, M (2013) UCI Machine Learning Repository [http://archive.ics.uci.edu/ml] Irvine, CA: University of California, School of Information and Computer Science) gồm tập Chess Mushroom Nhóm liệu giả lập có mật độ thưa: sử dụng phần mềm phát sinh liệu giả lập trung tâm nghiên cứu IBM Almaden (IBM Almaden Research Center, San Joe, California 95120, U.S.A [http://www.almaden.ibm.com]) gồm tập T10I4D100K T40I10D100K Bảng Dữ liệu thực nghiệm Tên liệu Số giao dịch 3.196 8.142 100.000 100.000 Số mục 75 119 870 942 Chess Mushroom T10I4D100K T40I10D100K Số mục nhỏ nhất/ giao dịch 37 23 Số mục lớn nhất/ Số mục trung bình/ Mật độ giao dịch giao dịch (%) 37 37 49,3 23 23 19,3 29 10 1,1 77 40 4,2 Trong viết này, chúng tơi đề xuất thuật tốn khai thác tập tƣơng quan có trọng số kết hợp độ đo AllConfidence giải toán theo hƣớng sinh tập có trọng số khơng thoả tính chất bao đóng giảm Đây đề xuất theo hƣớng tiếp cận trên, nên chƣa có thuật tốn hƣớng tiếp cận để so sánh hiệu thuật toán Vì vậy, chúng tơi đề xuất so sánh hiệu thuật toán theo thực nghiệm sau: A Thực nghiệm thứ Khai thác tập tƣơng quan có trọng số kết hợp độ đo tƣơng quan All-Confidence: Trong thực nghiệm 1, chúng tơi dựa vào thuật tốn IWI [7] cải tiến thành thuật toán khai thác tập có trọng số item đồng thời kết hợp độ đo All-Confidence, gọi IWI Trên sở này, so sánh hiệu thuật toán IWI với thuật toán đề xuất ALLCONF-CORSI: cho minsigsup thay đổi cố định min_allconf Mức ý nghĩa (trọng số) item đƣợc phát sinh ngẫu nhiên [0, 1] cố định ngƣỡng min_allconf (a) Chess+min_allconf=0,30 (b) Mushroom+min_allconf=0,30 1000.000 100.000 IWI 10.000 ALLCONF-CORSI 1.000 Thời gian (mili giây) Thời gian (mili giây) 1000.000 100.000 IWI 10.000 ALLCONF-CORSI 1.000 0,20 0,21 0,22 minsigsup 0,23 0,24 0,15 0,16 0,17 0,18 0,19 minsigsup Hình Thời gian thực ALLCONF-CORSI IWI Chess, Mushroom KHAI THÁC TẬP TƢƠNG QUAN HIẾM CÓ TRỌNG SỐ KẾT HỢP ĐỘ ĐO ALL-CONFIDENCE 458 Hình 2a 2b kết thực nghiệm nhóm liệu có mật độ cao, ta thấy thuật toán ALLCONF-CORSI nhanh thuật toán IWI (a) T10I4D100K+min_allconf=0,25 (b) T40I10D100K+min_allconf=0,25 100.000 100.000 IWI 10.000 ALLCONF-CORSI Thời gian (mili giây) Thời gian (mili giây) 1000.000 1.000 10.000 IWI ALLCONF-CORSI 1.000 0,015 0,016 0,017 0,018 0,019 0,025 0,030 0,035 0,040 0,045 minsigsup minsigsup Hình Thời gian thực ALLCONF-CORSI IWI T10I4D100K, T40I10D100K Hình 3a 3b kết thực nghiệm nhóm liệu giả lập có mật độ thấp, ta thấy thuật toán ALLCONFCORSI nhanh thuật toán IWI Hiệu suất thuật toán ALLCONF-CORSI cao so với IWI liệu thƣa B Thực nghiệm thứ Khai thác ALLCONF-CORSI không trọng số: sigi1 sigim sigi2 (5) Thuật tốn ALLCONF-CORSI, có mức ý nghĩa (trọng số) mục thỏa (5) thuật toán khai thác tập tƣơng quan không trọng số (mức ý nghĩa item nhau), đồng thời ngƣỡng độ đo tƣơng quan min_allconf = Trong thực nghiệm 2, so sánh thuật tốn đề xuất ALLCONF-CORSI (có trọng số ngưỡng độ đo tương quan minallconf = 0, ký hiệu ALLCONF-CORSI-0) với thuật toán AprioriInverse [8], thuật tốn khai thác tập tƣơng quan khơng trọng số hiệu năm gần (a) Chess (b) Mushroom 1000.000 100.000 10.000 AprioriInverse ALLCONF-CORSI-0 1.000 Thời gian (mili giây) Thời gian (mili giây) 1000.000 100 100.000 10.000 AprioriInverse ALLCONF-CORSI-0 1.000 100 25 30 35 40 45 10 Minsup (% ) 15 20 25 30 Minsup (% ) Hình Thời gian thực ALLCONF-CORSI-0 AprioriInverse Chess, Mushroom Hình 4a 4b kết thực nghiệm nhóm liệu có mật độ cao, ta thấy thuật toán ALLCONF-CORSI0 nhanh thuật toán AprioriInverse (a) T10I4D100K (b) T40I10D100K 1000.000 100.000 10.000 AprioriInverse ALLCONF-CORSI-0 1.000 100 Thời gian (mili giây) Thời gian (mili giây) 1000.000 100.000 10.000 AprioriInverse ALLCONF-CORSI-0 1.000 100 0,1 0,2 0,3 0,4 Minsup (% ) 0,5 0,3 0,4 0,5 0,6 0,7 Minsup (% ) Hình Thời gian thực ALLCONF-CORSI-0 AprioriInverse T10I4D100K, T40I10D100K Hình 5a 5b kết thực nghiệm nhóm liệu giả lập có mật độ thấp, ta thấy thuật toán ALLCONFCORSI-0 hiệu thuật toán AprioriInverse nhiều Hiệu suất thuật toán ALLCONF-CORSI-0 cao so với AprioriInverse liệu thƣa Kết cho thấy thuật toán khai thác tập tƣơng quan có trọng số ALLCONF-CORSI tốt thuật tốn gần Ngồi ra, thuật tốn cần thực nghiệm thêm nhiều tập liệu có mật độ khác nhau, nhƣ nhiều liệu cỡ lớn Phan Thành Huấn, Lê Hoài Bắc 459 V KẾT LUẬN Nhóm tác giả đề xuất thuật tốn khai thác tập tương quan có trọng số gồm ba giai đoạn: giai đoạn thứ tính nhanh mảng Index_COOC chứa item đồng xuất item xuất với item hạt nhân giao dịch; giai đoạn thứ hai: xây dựng nLOOC-Tree; giai đoạn thứ ba: thuật toán ALLCONF-CORSI khai thác hiệu tập tương quan có trọng số dựa mảng Index_COOC nLOOC-Tree Với kiến trúc nhƣ trên, ngƣời dùng khai thác tập tƣơng quan có trọng số với ngưỡng khác thuật tốn đề xuất thực khai thác tập tƣơng quan mảng Index_COOC nLOOC-Tree tính lần khai thác trƣớc làm giảm thời gian xử lý đáng kể Tƣơng lai, nhóm tác giả mở rộng thuật tốn để khai thác tập tương quan có trọng số kết hợp độ đo Any-confidence, Bond,… liệu giao dịch có trọng số item, hƣớng nghiên cứu đƣợc quan tâm khả ứng dụng vào nhiều lĩnh vực, đặc biệt kinh doanh, y khoa VI LỜI CẢM ƠN Nhóm tác giả cảm ơn hỗ trợ từ Trƣờng Đại học Khoa học Xã hội Nhân văn; Đại học Khoa học Tự nhiên Đại học Quốc gia Tp.HCM TÀI LIỆU THAM KHẢO [1] R Agrawal, T Imilienski, A Swami, “Mining association rules between sets of large databases” Proc of the ACM SIGMOD International Conference on Management of Data, Washington, DC, pp.207-216, 1993 [2] M J Zaki, S Parthasarathy, M Ogihara, W Li, “New Algorithms for Fast Discovery of Association Rules” In: Proc of the 3rd International Conference on Knowledge Discovery in Databases, pp.283-286, 1997 [3] J Han, J Pei, Y Yin, R Mao, “Mining frequent patterns without candidate generation: A frequent pattern tree approach” Data Mining and Knowledge Discovery, 8(1) pp.53-87, 2004 [4] E Omiecinski, “Alternative interest measures for mining associations in databases” IEEE Transactions on Knowledge and Data Engineering, 15(1), pp.57-69, 2003 [5] C.H Cai, A.W Fu, C.H Cheng, W.W Kwong, “Mining association rules with weighted items” Proceedings of International Database Engineering and Applications Symposium (IDEAS 98), pp.68-77, 1998 [6] F Tao, F Murtagh, M Farid, “Weighted association rule mining using weighted support and significance framework” SIGKDD’03, pp.661-666, 2003 [7] S Kamepalli, R S R Kurra, Y K K Sundara, “Infrequent Pattern Mining from Weighted Transactional Data Set” International Journal of Research Studies in Computer Science and Engineering, 2(3), pp 1-5, 2015 [8] Y S Koh, N Rountree, “Finding sporadic rules using apriori-inverse” In PAKDD’05, 3518, pp.97-106, 2005 [9] L Troiano, C Birtolo, “A fast algorithm for mining rare itemsets” IEEE 19th International Conference on Intelligent Systems Design and Applications, pp.1149-1155, 2009 [10] L Szathmary, P Valtchev, A Napoli, R Godin, ”Efficient vertical mining of minimal rare itemsets” Proc of the 19th International Conference on Concept Lattices and Their Applications, pp.269-280, 2012 [11] S Bouasker, S B Yahia, “Key correlation mining by simultaneous monotone and anti-monotone constraints checking” Proc of the 2015 ACM Symposium on Applied Computing (SAC 2015), pp 851-856, 2015 [12] Phan Thành Huấn, Lê Hoài Bắc, “Thuật toán hiệu khai thác tập tối thiểu” Hội nghị Quốc gia lần thứ XI Nghiên cứu ứng dụng Công nghệ thông tin (FAIR); tr 497-505, 2018 AN EFFICIENT MINING ALGORITHM RARE CORRELATED SIGNIFICANCE ITEMSET COHERENCE ALL-CONFIDENCE MEASURE Phan Thanh Huan, Le Hoai Bac ABSTRACTL: Rare itemsets mining is an important task for potential applications such as the detection of computer attacks, fraudulent transactions in financial institutions, bioinformatics and medical In the traditional data mining on transaction databases, which items have no weight (equal weight, as equal to 1) However, in real world applications are often each item has a different weight (the importance/significance of each item) Therefore, we need to mining weighted frequent/rare itemsets on transaction databases In this paper, we proposed an algorithm for mining rare correlated significance itemsets approach based on NOT satisfy the downward closure property and coherence the anti-monotone constraint of correlation belong to the all-confidence measure We propose an efficient algorithm called ALLCONF-CORSI The experimental results show that the proposed algorithms perform faster than other existing algorithms on both real-life datasets of UCI and synthetic datasets generated by IBM Almaden Keywords: all-confidence measure, rare correlated significance itemset, ALLCONF-CORSI algorithm ... thiểu (do người dùng định) Tập hợp chứa itemset phổ biến có trọng số gọi tập phổ biến có trọng số, ký hiệu FSI KHAI THÁC TẬP TƢƠNG QUAN HIẾM CÓ TRỌNG SỐ KẾT HỢP ĐỘ ĐO ALL-CONFIDENCE 452 Mức ý... Mushroom KHAI THÁC TẬP TƢƠNG QUAN HIẾM CÓ TRỌNG SỐ KẾT HỢP ĐỘ ĐO ALL-CONFIDENCE 458 Hình 2a 2b kết thực nghiệm nhóm liệu có mật độ cao, ta thấy thuật toán ALLCONF-CORSI nhanh thuật toán IWI (a)... dựa vào thuật tốn IWI [7] cải tiến thành thuật toán khai thác tập có trọng số item đồng thời kết hợp độ đo All-Confidence, gọi IWI Trên sở này, so sánh hiệu thuật toán IWI với thuật toán đề xuất