Phan Thành Huấn, Lê Hoài Bắc 28 KHAI PHÁ TẬP SINH TÓI THIẾU CỦA TẬP HIÉM ĐÓNG TỪ DỮ LIỆÙ GIAO DỊCH CĨ TRỌNG sị CỦA ITEMS ALGORITHM MINING MINIMAL GENERATORS OF CLOSED RARE ITEMSETS FROM TRANSACTIONAL DATABASES WITH WEIGTHS OF ITEMS Phan Thành Huấn1, Lê Hoài Bắc1 Trường Đại học Khoa học Tự nhiên, Đại học Quốc gia Hồ Chí Minh huanphan@hcmussh edu vn; lhbac@fithcmus edu (Nhận bài: 03/9/2020; Chấp nhận đăng: 28/11/2020) Tóm tắt - Trong khai phá liệu, khai phá luật kết hợp Abstract - In the data mining, rare association rules mining is one kỳ thuật khai phá quan trọng với nhiều ứng dụng tiềm năng, hạn phát công mạng, giao tác gian lận ữong tài chính, y tế, tin sinh họcvà nhiều ứng dụng khác Khai phá liệu truyền thống - khơng có trọng số item Tuy nhiên, nhiều ứng dụng thực tế trọng số mồi item khác (cho biết mức độ quan trọng cùa item) - đê khai phá luật kết hợp đầy đủ không dư thừa liệu giao dịch với items có trọng số, cần có giải thuật khai phá tập sinh tối thiều cùa tập đóng.Trong viêt này, nhóm tác giả đề xuất giải thuật hiệu quà NOVmGCRSI khai phá tập sinh tối thiểu tập đóng liệu giao dịch với items có trọng số tiếp cận theo hướng khơng thóa tính chất Apriori Nhóm tác giã tiến hành thực nghiệm đánh giá giài thuật đề xuất dựa liệu giả lập liệu thực, cho thấy giải thuật NOV-mGCRSI hiệu quà of the important techniques for latent applications such as the finding of network attacks, illegal transactions in financial, medicine, bioinformatics, and other applications In the out-ofdate data mining on transaction databases, which items have no weights (as equal to 1) In spite of this, in the real-life applications are often each item with a different weight (the significance/ importance of each item) - to mining the exact and non-redundant rare association rules on transaction databases with weights of items, we need to mining for minimal generators of closed rare itemsets In that paper, we suggest an efficient mining algorithm for minimal generators of closed rare itemsets based on dissatisfy the Apriori property We suggest a novel algorithm named NOVmGCRSI The experimental investigational results show that the algorithm NOV-mGCRSI perform quicker than current algorithms on together synthetic datasets and real-life datasets Từ khóa - Tập đóng; tập sinh tối thiều tập đóng; giải thuật NOV-mGCRSI: trọng số cùa items Key words - Closed rare itemset; minimal generator itemsets; NOV-mGCRSI algorithm; weights of items Đặt vấn đề họp đầy đu cần cỏ giãi thuật hiệu khai phá tập sinh tối thiêu tập đóng Khai phá luật kết hợp truyền thống nhiều nhóm tác Agrawal [1], Han [2] đề xuất chi dùng giá trị ngưỡng hỗ trợ tối thiểu minsupp với giả định item liệu có tính chất, thực tế dạng liệu Trường hợp ngưỡng minsupp chọn cao, kết quà itemset khai phá có số lượng lợi ích sử dụng chưa cao cho người dùng Ngược lại, nẻu chọn minsupp thấp item khai phá lớn, điêu gây khó khăn cho người dùng chọn lựa luật kết hợp sử dụng Tuy nhiên, nhiều ứng dụng thực tế lại cần khai phá luật kết hợp có ngưỡng hỗ trợ tối đại maxsupp nhỏ độ tin cậy minconf cao gọi luật kết hợp hiếm, chẳng hạn phát tân công mạng, phát gian lận lĩnh vực tài chính, y tế, tin sinh học nhiều ứng dụng khác Nhiều nhóm tác Koh, Troiano Szathmary đề xuất giải thuật khai phá tập thỏa hai ngưỡng giãi thuật Apriori-Inverse [3], Rarity [4] WalkyG [5] Các giải thuật tồn hạn chế đọc liệu nhiều lần, dùng nhiều nhớ, sử dụng chiến lược căt tia (không dùng lại cho lần khai phá kế tiếp) Vào năm 2018 nhóm tác giá Borah [8] có tổng luận thách thức khai phá mẫu tương lai Cùng thời diêm đó, Lu đề xuất giài thuật RaCloMiner [9] khai phá tập đóng Tuy nhiên, đế sinh nhanh luật kết VNUHCM - University of Science (Phan Thanh Huan, Le Hoai Bac) Song song đó, Cai [6] đề xuất mơ hình khai phá tập phơ biến có trọng số item (mức độ quan trọng hay mức ý nghĩa cùa item khác nhau) chứa nhiều tri thức so với khai phá tập phổ biến truyền thống (không trọng sổ) Nhận thấy ý nghĩa vẩn đề, nhiều nhóm tác già đề xuất giải thuật để giải vấn đề Phần lớn giải thuật đề xuất giải quyêt theo hướng tiêp cận thỏa tính chất Apriori Năm 2011, Huai đề xuất giải thuật WHIUA [7] giải vấn đề dựa theo tiếp cận không thỏa tính chất Apriori, điều làm gia tăng đáng kể khơng gian tìm kiếm itemset phổ biến - thách thức lớn Trong cơng trình này, nhóm tác giả trình bày giải thuật đê xuất NOV-mGCRI khai phá hiệu tập sinh tối thiêu tập đóng Điều này, làm giảm đáng kể kết họp bước sinh luật kết hợp Vấn đề tập Cho I = {ii, 12, , im} tập gồm m thuộc tính, thuộc tính gọi item Tập SIG = {sigil, sigi2 , sigim}, Vsigik e [0, 1] tập mức ý nghĩa hay mức độ quan trọng item (trọng so cùa item) Tập chứa item X ={ii, Ĩ2 , ik}, Vij e I (l- i2 >- >- im) có thứ tự giảm dần theo mức ý nghĩa, gọi ik item-hạt-nhán Itemset Yỉexiiooc £ I gồm item xuất ưong giao dịch với ik, không xuất đồng thời: I ij Ký hiệu, lexdooc(lk) Ylexilooc Giải thuật sinh màng IndexCOOC Từng phần tử cùa mảng IndexCOOC có trường thơng tin: - IndexCOOCịkị.item: lưu trữ item-hạt-nhán ik', - IndexCOOCịkl.supp: độ hỗ trợ cùa ik', - IndexCOOC|k|.cooc: items xuất đồng thời với ik', - IndexCOOC|k|.looc: items xuất với ik giao dịch: Giải thuật Tạo dựng máng IndexCOOC Đầu vào,- Tập liệu D 17 Đầu IndexCOOC _ Bảng CRSI vàm mGCRSI D vói maxsigsupp = 0,15 s upp(ik) = \Tĩ(ik)\ (2) Phương trình (2): độ hỗ trợ cùa ìk bàng lực lượng tập chiếu ik liệu D 17 b is 17 il 14 12 is 16 0,55 0,70 0,50 0,65 0,40 0,60 0,30 0,80 k-itemset Chiếu item ik lên liệu D: 7t(ik)={Vtje Dik e tj} tập hợp giao dịch có chứa ik, tập chiếu ik 17 Bảng Mức ý nghĩa tưcmg ứng cua môi item Tập CRSI (#CRSI=9) I2I1I3I5I7, I4I1I3I6I7, I6HI3I5I7 3.1 Tập chiếu items xuất giao dịch với item-hạt-nhân có thứtự [10Ị 17 Dữ liệu Bàng 1: items I ={ó; Ì2l h; Ì4Ỉ is; Ĩ61 Í7,' i«} 10 giao dịch T= {tl; t2; t3; t4; t5; tó; t7; t8; t9; tlO} item sig Giãi thuật đề xuất is 16 Ì2Ì1Ì3Ì5, Ì6ĨIÌ3Ì7, Ì6ÌIĨ3Ì5 Bàng 3, cho thấy tập CRSI mGCRSI gom nhóm theo k-itemset với maxsigsupp = 0,15 số lượng itemset đóng |CRSIị = 9, itemset sinh tối thiểu itemset đóng |mGCRSI| = Ĩ7 b 13 16 29 Tập mGCRSI (#mGCRSI=8) is, Í2, Ì4 isis, ish l2l7, I4I6, I4I7, l6>7 Ì4Í1Í3 Ì6ỈSỈ7 10 11 12 13 For each IndexCOOC IndexCOOC[k].item — ik; IndexCOOC[k].sỉựỊp = lndexCOOC[k].cooc=2ra-1; IndexCOOC[k]./ooc=0 For ti e T For i* e ti lndexCOOC[k].cooc &= vectorbit(ti) IndexCOOCịk].looc 1= vectorbitựi) lndexCOOC[k].supp + + sort IndexCOOC in descending by sig For each IndexCOOC IndexCOOCfk],cooc= lexicooc(ik) IndexCOOC[k]./ooc= lexilooctjk) return IndexCOOC, BiVI 30 Phan Thành Huấn, Lê Hoài Bắc Minh họa giải thuật 1: thực từ dòng ỉ đến For each IndexCOOC Khởi tạo cho màng IndexCOOC: (cooc looc minh họa theo hexa) số item từ liệu D cho Bàng m = nLOOCTree[k].ite/n = lndexCOOC\X\.item nLOOCTreefk], supp = IndexCOOC\X\.supp For each ú e u item ■1 Ĩ2 Ĩ3 Ì4 is ■6 17 is For each ij e IndexCOOCfk],looc supp 0 0 0 0 If ij Ể child node of nLOOCTree[k] cooc 0xFF looc 0x00 0xFF 0x00 0xFF OxFF OxFF 0x00 0x00 OxFF 0x00 0x00 OxFF 0x00 OxFF Add child node i, to nLOOCTreefk] 0x00 Else Duyệt giao dịch tr {i|, 13, ú} có dạng bit tương ứng 10110000 íOxBO) item il 12 Ì3 14 supp 1 is 16 17 1 Update supp of child node ij on nLOOCTreefk] 10 return nLOOCTree nLOOC’-Tr** cooc Ox B0 OxFF Ox B0 OxBO OxFF OxFF OxFF OxFF looc OxBO 0x00 Ox B0 Ox B0 OxFF OxFF 0x00 0x00 Tương tự, duyệt giao dịch ho: {ii, 12,13, is} có dạng bít tương ứng 11101000 (0xE8) _ _ _ _ item il 12 sup Ì4 is is 16 17 18 cooc OxAO 0xE8 OxAO OxBO 0x08 0xA4 0xA2 0x09 looc OxFE OxEA OxFE 0xB6 OxEF OxBE OxFE 0x01 Hình Các nLOOCTree theo IndexCOOC Ờ Bang Đặc trưng nLOOCT ree: Dòng 9, xếp IndexCOOC giảm dần theo sig - Độ cao tương ứng khơng lán hon số tùng item, ta có kết q: _ item xuất với item-hạt-nhản Í4 item is ■7 12 il is is giao dịch (items có thứ tự theo supp) supp 2 8 Một đường đơn (single-path): itemset thứ tự xác i/.õ.ỏ cooc Ì5 /■/ h //, h Ĩ3 h il, Ĩ3 dịnh từ nút gốc nút supp itemset /7 16 Ì7 I4.IỊX7 Ỉ2,l4.l5,Ỉ6,Ỉ7 Ì2,Ì4,Ì5,Ì6,Ì7 i I- h, h, ló, 17, iff I2.l4,l5,l6 looc supp nút (ik—>ik+i—> —>ú) Từ dòng 10 đén 12 — cho kết quà rút gọn Bảng 4: - Phân đoạn đường đơn (sub-single-path): từ nút gốc đến nút tùy ý đường đơn Chì có itemset đồng xuất item 13 cần hiệu itemset thứ tự; supp itemset supp nút chỉnh Ta có, coocịiì) = {11} Ĩ| >- 13, nên lexicoocCh) = nam cuối phân đoạn {0} Tương tự, ta có /ooc(ii) = { 12,14, is, 16,17} 12 >- i4 Mỗi nLOOCTree lưu trữ thêm độ hỗ trợ nhỏ >- 16 > Ĩ| >- Ỉ5>- 17, nên lexilooc(iì) = { 15, 17} Dòng 10, (ký hiệu min) nút II 12 thực hiện, ta nhận kết Bảng 3.3 Giải thuật khai phá tập sinh tối thiếu tập Nhóm tác giả bơ sung vào IndexCOOC trường sig minh họa IndexCOOC có trường sig xếp giảm dần đóng NOV-mGCRSI u Bảng IndexCOOC có thứ tự giám dần theo mức ý nghĩa sig item, đông thời cooc looc có thứ tự item is Ì2 sig 0.80 supp 0,10 cooc looc 14 16 il 0,70 0.65 0,60 0,20 0,20 0,30 Õ i 1,13,15 h, h Ì7 Ỉ6, h Ỉ7 is is 0,55 0,50 0,40 0,30 0.80 0,80 0,70 0,50 // h Ĩ3 0 is, Ỉ7 ỉs, Ỉ7 h, b Ì7 3.2 Giải thuật sinh nLOOCTree Từ IndexCOOC xây dựng lưu trữ mẫu xuất với item-hạt-nhân giao dịch Nút gốc cùa item-hạt-nhân, nút items xuất với item-hạt-nhán trong giao dịch Mỗi nút có trường thịng tin: - nLOOCTree|k|.ztow: lưu trữ item xuất với item-hạt-nhân giao dịch; - nLOOCTreeịk| sw/?p: lưu trữ độ hỗ trợ item xuất với item-hạt-nhân; Giải thuật 2: Tạo sinh nLOOCTree Đầu vào D, IndexCOOC Đầu nLOOCTree Giải thuật NOV-mGCRSI (NOVel - ỊỊỊÌnimal Generators Closed Rare Significance Itemsets): khai phá tập sinh tối thiêu dựa nLOOCTree chứa items xuất với item-hạt-nhãn giao dịch Các bổ đề hệ dùng để loại bó item-hạtnhãn khơng khai phá itemset sinh tối thiểu tập đóng- Bỗ đề 1: Xiexicooc = lexicooc(\k) 5wpp(ik u Xsub) = supplỳk), V Xsub e y>\(Xlexlcooc) Chứng minh-, lexicoocịỹk) = Xiexicooc, V xSub e ?>i(AferiCOOC) Từ Định nghĩa 7, ta có 7t(it u Xsub) = 7t(á) n tt(xsub) - Tĩ(ik); theo (2) (3) suppUk u Xsub) = supp(ik), V Xsub P>i(A7et,raoc)B Bố đề 2: Yiexiiooc = lexiloocịỹk) 5wpp(ik Ư yiexiiooc) < Sưp/Xlk), V yiexilooc € T>1( Yiexilooè) Chứng minh: supply^ yiexiiooc) < swpp(ik), từ định nghĩa 7t(ikU yiexiiooc) = tt(ik) n 7t(ii) n n 7t(ij)