1. Trang chủ
  2. » Giáo án - Bài giảng

DFS-Apriori: Khai thác nhanh tập phổ biến áp dụng chiến lược tìm kiếm theo chiều sâu

6 4 0

Đang tải... (xem toàn văn)

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 6
Dung lượng 484,35 KB

Nội dung

Bài viết DFS-Apriori: Khai thác nhanh tập phổ biến áp dụng chiến lược tìm kiếm theo chiều sâu khảo sát một số thuật toán Apriori cải tiến và trình bày cách tiếp cận mới cải tiến hiệu quả thuật toán Apriori dựa theo chiến lược tìm kiếm theo chiều sâu (Depth First Search – DFS) – dễ dàng mở rộng trên môi trường tính toán phân tán. Đồng thời, thuật toán đề xuất kỹ thuật rút gọn các ứng viên, tính nhanh độ phổ biến của ứng viên và biểu diễn dữ liệu dạng bit - giúp đẩy nhanh tốc độ tính toán và giảm thiểu truy xuất dữ liệu. Mời các bạn cùng tham khảo!

Hội nghị Quốc gia lần thứ 25 Điện tử, Truyền thông Công nghệ Thông tin (REV-ECIT2022) DFS-Apriori: Khai Thác Nhanh Tập Phổ Biến Áp Dụng Chiến Lƣợc Tìm Kiếm Theo Chiều Sâu Phan Thành Huấn1,2,4, Đặng Thanh Minh1,4, Nguyễn Nhƣ Đồng3 Khoa Toán – Tin học, Trƣờng Đại học Khoa học Tự nhiên, ĐHQG.HCM-VN Bộ môn Tin học, Trƣờng Đại học Khoa học Xã hội Nhân văn, ĐHQG.HCM-VN Trung tâm Giáo dục Nghề nghiệp – Giáo dục Thƣờng xuyên, Tp Thủ Đức Đại học Quốc gia Tp Hồ Chí Minh Email: huanphan@hcmussh.edu.vn; minhthanhdang1982@gmail.com; dongnhunguyen74@gmail.com đƣợc nhiều nhà nghiên cứu cải tiến áp dụng khai phá nhiều loại liệu khác nhau: chuỗi [3], định lượng [4], đồ thị [5], thuộc tính có trọng số [6],… Qua khảo sát nghiên cứu liên quan đến cải tiến thuật toán Apriori khai thác tập phổ biến DLGD nhị phân, gồm hai hướng tiếp cận chính:  Định dạng liệu theo chiều ngang: Đây định dạng theo thuật toán Apriori gốc Các thuật toán cải tiến Apriori thƣờng sử dụng chiến lƣợc rút gọn giao dịch rút gọn không gian sinh ứng viên tiềm k-itemset Tuy nhiên, vấn đề tính độ phổ biến k-itemset chƣa thật hiệu  Định dạng liệu theo chiều dọc: Năm 1995, Savasere [7] đồng đề xuất thuật toán Parition sử dụng định dạng liệu theo chiều dọc Định dạng này, giúp tính độ phổ biến dễ dàng hạn chế DLGD có mật độ cao Tóm tắt - Khai thác tập phổ biến giai đoạn cốt lõi khai thác luật kết hợp từ liệu giao dịch nhị phân Agrawal đồng đề xuất thuật toán Apriori Đây thuật toán sở cho nhiều cải tiến, sử dụng khai thác nhiều loại liệu khác Ngồi ra, năm gần thuật tốn Apriori thuật toán nhiều nhà nghiên cứu lựa chọn để mở rộng cho khai thác tập phổ biến từ liệu lớn môi trường phân tán Thuật tốn Apriori dựa theo chiến lược tìm kiếm theo chiều rộng (Breadth First Search – BFS) – điều làm hạn chế thực tính tốn phân tán Trong viết này, nhóm tác giả khảo sát số thuật tốn Apriori cải tiến trình bày cách tiếp cận cải tiến hiệu thuật toán Apriori dựa theo chiến lược tìm kiếm theo chiều sâu (Depth First Search – DFS) – dễ dàng mở rộng môi trường tính tốn phân tán Đồng thời, thuật tốn đề xuất kỹ thuật rút gọn ứng viên, tính nhanh độ phổ biến ứng viên biểu diễn liệu dạng bit - giúp đẩy nhanh tốc độ tính toán giảm thiểu truy xuất liệu Thuật toán cải tiến gọi DFS-Apriori Nhóm tác giả tiến hành thực nghiệm thuật toán liệu thực UCI liệu giả lập trung tâm nghiên cứu IBM Almaden, cho thấy thuật toán cải tiến hiệu Bảng Một số cơng trình cải tiến thuật toán Apriori [7-16] Tác giả Định dạng Thuật toán Năm đứng đầu liệu A Savasere Partition dọc 1995 J Lei HDO-Apriori ngang 2006 W.Yu RATT ngang 2008 Y Guo IApriori dọc 2010 J Singh SOT-Apriori ngang 2013 H Singh MBAT ngang 2013 M A Maolegi M-Apriori dọc 2014 V.Vijayalakshmi CBTRA ngang 2015 S Aditya LOT-Apriori ngang 2017 L Xu MD-Apriori dọc 2019 Bảng 1, liệt kê số thuật toán cải tiến Apriori Các đặc trƣng thuật toán cải tiến: i) rút gọn giao dịch dựa vào số lƣợng items giao dịch – SOT-Aprioir [11], CBTRA [14], LOT-Apriori [15] ; ii) rút gọn tập ứng viên tiềm – Partition [7], HDO-Apriori [8], Iapriori [11], M-Apriori [13], MD-Apriori [16]; iii) giảm bƣớc tính độ phổ biến – RAAT [9], MBAT [12]; iv) phân chia liệu thành nhiều phần – Parition [7], MD-Apriori [16] Ngoài ra, thuật toán tựa Apriori đƣợc nhiều nhà nghiên cứu quan tâm mở rộng thực khai thác liệu lớn môi trƣờng phân tán Gần đây, Shashi đồng đề xuất thuật toán EAFIM [19] khai thác môi trƣờng phân tán Spark dựa thuật toán Apriori gốc, thuật toán EAFIM cho thấy hiệu thuật toán R-Apriori [18], YAFIM [17] Từ khóa – luật kết hợp, tập phổ biến, thuật tốn DFS-Apriori I GIỚI THIỆU Năm 1993, Agrawal đồng đề xuất mơ hình tốn khai thác luật kết hợp – khai thác luật kết hợp liệu giao dịch (DLGD) nhị phân [1] Khai thác luật kết hợp khai phá luật kết hợp có độ phổ biến (support) nhƣ độ tin cậy (confidence) lớn ngƣỡng phổ biến tối thiểu (minsup) ngƣỡng tin cậy tối thiểu (minconf) Bài tốn đƣợc chia thành hai pha: Pha 1: Tìm tất kết hợp thỏa ngƣỡng phổ biến tối thiểu minsup (sinh tập phổ biến FI - Frequent Itemset); Pha 2: Sinh luật kết hợp lần lƣợt từ kết hợp thỏa minsup pha luật kết hợp phải thỏa ngƣỡng tin cậy tối thiểu minconf Sau đó, Agrawal đồng tập trung hƣớng giải cho pha nhóm đề xuất thuật toán Apriori [2] cho khai thác tập phổ biến Đây thuật toán then chốt, quan trọng khai thác luật kết hợp Thuật toán tiếp cận sinh kết hợp phổ biến với chiến lƣợc tìm kiếm theo chiều rộng (Breadth First Search – BFS) dễ dàng cài đặt song song hóa nhằm nâng cao hiệu năng; thuật tốn tốn nhiều lần qt liệu có độ phức tạp dạng hàm mũ Chính vậy, Apriori thuật toán ISBN 978-604-80-7468-5 135 Hội nghị Quốc gia lần thứ 25 Điện tử, Truyền thông Công nghệ Thơng tin (REV-ECIT2022) Nhóm tác giả thấy rằng, thuật toán cải tiến chƣa quan tâm đến thứ tự độ phổ biến items, rút gọn bƣớc phát sinh ứng viên k-itemset từ tập phổ biến (k-1)-itemset Ngồi ra, chiến lƣợc tìm kiếm theo chiều rộng khó phân rã mở rộng khai thác liệu lớn hệ thống tính tốn phân tán Vì vậy, nhóm tác giả đề xuất tiếp cận cải tiến hiệu thuật toán Apriori cho khai thác tập phổ biến DLGD áp dụng chiến lƣợc tìm kiếm theo chiều sâu (Depth First Search – DFS) – thuật tốn dễ dàng mở rộng mơi trƣờng tính tốn phân tán Phần 2, báo trình bày khái niệm khai thác tập phổ biến, thuật tốn AprioriTID phân tích ƣu, nhƣợc điểm Phần 3, đề xuất thuật toán khai thác nhanh tập phổ biến theo hƣớng tiếp cận theo chiều sâu DFS-Apriori; kết thực nghiệm đƣợc trình bày phần 4; kết luận hƣớng phát triển đƣợc trình bày phần II Ví dụ 1: Dữ liệu giao dịch Bảng 1, có item riêng biệt I = {A, B, C, D, E, F, G, H} tập giao dịch Ƭ = {t1, t2, t3, t4, t5, t6, t7, t8, t9, t10} với giá trị ngƣỡng phổ biến tối thiểu minsup = 0,50, ta có: Theo tính chất 1: X ={G, A, C}, sup(GAC) = 0,50 – độ phổ biến lần lƣợt tập X: sup(A) = sup(C) sup(AC) = 0,80; sup(G) = sup(GA) = sup(GC) = 0,50 Theo tính chất 2: tập X ={G, A, C} phổ biến; ta thấy độ phổ biến tập X lớn ngƣỡng minsup Theo tính chất 3: Y = {F} sup(F) = 0,20 < minsup - ”Y = {F} itemset khơng phổ biến ngƣỡng minsup” Khi đó, tập cha Y không phổ biến, nghĩa Z = {F, E} không phổ biến, sup(FE) = 0,20 < minsup Bảng FIs liệu giao dịch T, minsup = 0,50 k-itemset (G; 0,50), (E; 0,70), (A; 0,80), (C; 0,80) (GA; 0,50), (GC; 0,50), (EA; 0,50), (EC; 0,50), (AC; 0,80) (GAC; 0,50), (EAC; 0,50) Ở Bảng 3, trình bày k-itemset phổ biến DLGD với ngƣỡng minsup = 0,50; k-itemset phổ biến đƣợc xêp tăng dần theo độ phổ biến items (H  B  D  F  G  E  A  C) có 11 itemset phổ biến CÁC KHÁI NIỆM CƠ BẢN A Khai thác tập phổ biến Cho I = {i1, i2, , im} tập gồm m thuộc tính, thuộc tính gọi item Tập item X ={i1, i2, , ik}, ij  I (1 j  k) gọi itemset, itemset có k item gọi k-itemset Dữ liệu giao dịch T = {t1, t2, , tn} gồm n giao dịch, giao dịch tk ={ik1, ik2, , ikm}, ikj I (1kj m) Định nghĩa 1: Độ phổ biến (support) itemset X  I, ký hiệu sup(X) - tỷ lệ số giao dịch T có chứa X n giao dịch sup( X )  t  T | X  t n B Thuật toán Apriori AprioriTID Thuật toán Apriori Agrawal đồng đề xuất năm 1994 [2], đƣợc đánh giá mang tính chất lịch sử khai thác luật kết hợp Apriori thuật tốn tảng để tìm tập phổ biến sử dụng phƣơng pháp sinh ứng viên Thuật tốn có đặc điểm tìm kiếm theo chiều rộng sử dụng tính chất Apriori: (k-1)-itemset khơng phổ biến khơng thể tập k-itemset phổ biến Một số ký hiệu thuật toán Apriori: Lk: tập chứa k-itemset phổ biến; Ck: tâp ứng viên tiềm k-itemset; Mã giả thuật toán Apriori Đầu vào: Tập giao dịch Ƭ, ngƣỡng minsup Đầu ra: Tập kết hợp nối liền phổ biến FI 1: L1 = {1-itemset} 2: For (k = 2; Lk-1   ; k++) 3: Ck = AprioriGen(Lk-1) 4: For each t  Ƭ 5: Ct = subset(Ck, t) 6: For each c  Ct 7: c.count ++ 8: Lk = {c  Ck| c.count  minsup} 9: FI = k Lk 10: Trả FI Dòng 1, tập L1 chứa item thỏa minsup; dòng đến 8, phát sinh k-itemset phổ biến; dòng sinh tập Ck ứng viên chứa k-itemset từ tập Lk-1 chứa (k-1)-itemset phổ biến; dòng đến 7, với giao dịch t, xác định ứng viên tiềm từ Ck đƣợc chứa giao dịch lƣu vào Ct Độ phổ biến ứng viên tiềm Ck đƣợc tính tốn theo Ct; dịng 8, lọc ứng viên k-itemset thỏa ngƣỡng minsup đƣa vào Lk Thủ tục AprioriGen - sinh ứng viên k-itemset tiềm Ck từ tập (k-1)-itemset Lk-1 Định nghĩa 2: Cho X  I, X gọi itemset phổ biến – sup(X) ≥ minsup, minsup ngƣỡng phổ biến tối thiểu (do người dùng định) Ký hiệu FI tập hợp chứa itemset phổ biến Một số tính chất itemset phổ biến: tính chất tảng sử dụng cho việc rút gọn khơng gian tìm kiếm – tính chất đƣợc gọi tính chất Apriori/ bao đóng giảm (Downward Closure Property - DCP) Tính chất 1: (độ phổ biến tập con) Cho X, Y  I, X  Y sup(X)  sup(Y); Tính chất 2: Một itemset khác rỗng itemset phổ biến itemset phổ biến - XY, sup(Y) ≥ minsup: sup(X) ≥ minsup; Tính chất 3: Một itemset chứa itemset không phổ biến itemset không phổ biến - X Y, sup(X) < minsup: sup(Y) < minsup Bảng Dữ liệu giao dịch T dùng cho Ví dụ TID t1 t2 t3 t4 t5 t6 t7 t8 t9 t10 A A C C Items E F G E A A A A A A C C B B C C C C ISBN 978-604-80-7468-5 D H F E E E G G D E E F Tập phổ biến FIs (#FIs = 11) G G 136 Hội nghị Quốc gia lần thứ 25 Điện tử, Truyền thông Công nghệ Thông tin (REV-ECIT2022) Dữ liệu giao dịch T, có item thỏa minsup: L1 = {(F; 0,30), (G; 0,50), (E; 0,70), (A; 0,80), (C; 0,80)}; C1 = {, , , , , , , }; Bước lặp k = 2: sinh tập ứng viên 2-itemset C2 = {FG, FE, FA, FC, GE, GA, GC, EA, EC, AC}; C ={, , , , , , , ; tập phổ biến L2 = {(FA; 0,30), (FC; 0,30), (GE; 0,30), (GA; 0,50), (GC; 0,50), (EA; 0,50), (EC; 0,50), (AC; 0,80)}; Bước lặp k = 3: sinh ứng viên 3-itemset C3 = {FAC, GEA, GEC, GAC, EAC}; C ={, , , , , , }; tập phổ biến L3 = {(FAC; 0,30), (GEA; 0,30), (GEC; 0,30), (GAC; 0,50), (EAC; 0,50)}; Bước lặp k = 4: sinh ứng viên 4-itemset C4 = {GEAC}; C ={, , }; tập phổ biến L4 = {(GEAC; 0,30)}; Kết khai thác tập phổ biến liệu giao dịch T, với ngƣỡng minsup = 0,30 đƣợc trình bày Bảng Mã giả thủ tục AprioriGen Đầu vào: Tập chứa (k-1)-itemset phổ biến Lk-1 Đầu ra: Tập ứng viên k-itemset Ck 1: Ck = {X  X’| X, X’  Lk-1, |XX’| = k - 2} 2: For each itemset c  Ck 3: For each (k-1)-subset s of c 4: If (s  Lk-1) then 5: Ck = Ck - c 6: Trả Ck Ưu điểm: Thuật tốn dựa tính chất Apriori itemset itemset phổ biến itemset phổ biến Vì vậy, trình tìm tập ứng viên, thuật tốn cần dùng đến tập ứng viên vừa xuất bƣớc trƣớc đó, khơng cần dùng đến tất tập ứng viên (cho đến thời điểm đó) Nhờ vậy, nhớ đƣợc giải phóng đáng kể Nhược điểm: Thuật tốn phải qt liệu (maxlen+1) lần, với maxlen chiều dài itemset phổ biến dài Thuật tốn Apriori giảm khơng gian dựa vào tính chất Apriori Tuy nhiên, số itemset phổ biến đƣợc sinh lớn, maxlen lớn hay ngƣỡng phổ biến tối thiểu minsup nhỏ dẫn đến việc phát sinh nhiều ứng viên phải duyệt liệu nhiều lần, thuật tốn có chi phí cao Trong cơng trình [2], Agrawal đồng đề xuất thêm thuật toán cải tiến AprioriTID – độ phổ biến ứng viên tiềm đƣợc tính dựa tập C k (lƣu trữ dòng giao dịch có chứa ứng viên k-itemset theo cấu trúc ) Một số ký hiệu thuật toán AprioriTID: Lk: tập chứa k-itemset phổ biến; Ck: tâp ứng viên tiềm k-itemset; C k : tập ứng viên k-itemset đƣợc chứa giao dịch t DLGD; Mã giả thuật toán AprioriTID Đầu vào: Tập giao dịch Ƭ, ngƣỡng minsup Đầu ra: Tập kết hợp nối liền phổ biến FI 1: L1 = {1-itemset} 2: C1 = tập giao dịch Ƭ// chứa item L1 3: For (k = 2; Lk-1   ; k++) 4: Ck = AprioriGen(Lk-1) 5: Ck =  6: For each t  C k 1 7: Ct = {c  Ck| (c – c[k])  t.set-of-itemset  (c – c[k-1])  t.set-of-itemset} 8: For each c  Ct 9: c.count ++ 10: If (Ct  ) then 11: C k += 12: Lk = {c  Ck| c.count  minsup} 13: Trả FI= k Lk Để thuận tiên cho việc minh họa thuật toán AprioriTID, nhóm tác giả hiệu chỉnh dịng so với phiên gốc ( C1 chứa item có L1 thỏa ngƣỡng minsup) Bảng FIs liệu giao dịch T, minsup = 0,30 Tập phổ biến FIs (#FIs = 19) F E (F; 0,30), (FA; 0,30), (FC; 0,30), (FAC; 0,30) (G; 0,50), (GE; 0,30), (GA; 0,50), (GC; 0,50), (GEA; 0,30),(GEC; 0,30), (GAC; 0,50), (GEAC; 0,30) (E; 0,70), (EA; 0,50), (EC; 0,50), (EAC; 0,50) A (A; 0,80), (AC; 0,80) C (C; 0,80) G III THUẬT TOÁN DFS-APRIORI A Thuật tốn DFS-Apriori Phần này, nhóm tác giả trình bày thuật toán DFS-Apriori hiệu khai thác tập phổ biến, cải tiến từ thuật toán Apriori dễ dàng mở rộng hệ thống tính tốn phân tán: Thứ nhất, xếp item theo thứ tự tăng dần độ phổ biến – sử dụng tính chất cho việc rút gọn kết hợp bƣớc (item kết hợp item có độ phổ biến nhỏ nhất) Thứ hai, cải tiến thủ tục AprioriGen sinh ứng viên cách xếp (k-1)-itemset phổ biến theo thứ tự sinh kết hợp giúp giảm dƣ thừa trùng lặp Thứ ba, thực tính độ phổ biến cho ứng viên tiềm C theo nhóm item đầu dựa ma trận bit Ƭ tƣơng ứng đƣợc rút gọn theo cột occ (vector giao dịch chứa item thứ i) Một số ký hiệu thuật toán DFS-Apriori: - L: tập thành viên chứa k-itemset thỏa minsup, thành viên có trƣờng thơng tin itemset độ phổ biến sup, bổ sung thêm thứ tự nhỏ (min) lớn (max) item itemset thuộc Lk; C Minh họa thuật toán AprioriTID Trong phần này, nhóm tác giả minh họa thuật tốn AprioriTID khai thác itemset phổ biến: Ví dụ 2: Cho liệu giao dịch T Bảng giá trị ngƣỡng minsup = 0,30 ISBN 978-604-80-7468-5 Items 137 Hội nghị Quốc gia lần thứ 25 Điện tử, Truyền thông Cơng nghệ Thơng tin (REV-ECIT2022) Theo Ví dụ 2, tập giao dịch Ƭ Bảng giá trị ngƣỡng minsup = 0,30 - C: tập ứng viên chứa k-itemset tiềm năng, ứng viên có trƣờng thơng tin itemset biểu diễn dạng bit, độ phổ biến sup, thứ tự nhỏ (min) lớn (max) item itemset thuộc C; - Ƭ: tập giao dịch đƣợc biểu diễn dạng bit, giao dịch dạng bit có thêm trƣờng thơng tin |t| số lƣợng items giao dịch, thứ tự nhỏ (min) lớn (max) thứ tự item đầu, cuối giao dịch Mã giả thuật toán DFS-Apriori Đầu vào: Tập giao dịch Ƭ, ngƣỡng minsup Đầu ra: Tập phổ biến FI 1: L1 = {1-itemset}; // item thỏa minsup 2: Ƭ = tập Ƭ chứa item có L1 có |t| > //Ƭ biểu diễn dạng bit có thứ tự theo |t|, min, max 3: L2 = {L1L1}//2-itemset thỏa minsup 4: FI = L1  L2 5: For (i = 1; i < |L1|; i++) //xét item thỏa minsup 6: L = {  L2| .min == i} //nhóm item thứ i 7: Cập nhật vector occ tƣơng ứng với item thứ i 8: k = 3// sinh 3-itemset 9: While (|L| > 1) //sinh itemset phổ biến 10: C = AprioriGenStar(L) 11: For each c  C //tính sup theo nhóm giao dịch j=1 12: 13: While (k  t[j].|t|  t[j].min  c.min)//t  Ƭ 14: If (occ[j]==1  c.max t[j].max) then 15: If (c.itemset==c.itemset AND t[j].itemset) then 16: c.sup += 1/n 17: j++ 18: Lnext = {c  C| c.sup  minsup}//lọc ứng viên thỏa 19: FI = FI  Lnext 20: L = Lnext 21: k++ 22: Return FI Mơ tả thuật tốn DFS-Apriori: Dịng 2, sinh tập L1 chứa item thỏa ngƣỡng minsup rút gọn tập giao dịch biểu diễn dạng bit (loại bỏ giao dịch có item) Dòng 3, sinh tập phổ biến L2 Dòng 6, lọc 2-itemset phổ biến theo nhóm item thứ i; dịng – cập nhật vector occ theo item thứ i, dạng mục phép đếm độ phổ biến Từ dòng đến dòng 21, khai thác theo chiều sâu theo item thứ i Lặp lại dòng 5, sinh itemset phổ biến item thứ i Mã giả thủ tục AprioriGenStar Đầu vào: Tập chứa k-itemset phổ biến Lk Đầu ra: Tập ứng viên Ck+1 1: Ck+1 =  2: For (i = 1; i < |Lk| ; i++) 3: For (j = i+1; j  |Lk| ; j++) 4: Ck+1 = Ck+1  {Xi  Xj|{Xi  Xj}  Ck+1} 5: Trả Ck+1 Thủ tục AprioriGenNew sinh ứng viên từ tập phổ biến k-itemset riêng biệt nhóm theo item (chiến lƣợc tìm kiếm theo chiều sâu) – độ phức tạp giảm đáng kể Bảng Tập giao dịch T rút gọn – loại bỏ t3 t6 TID F G E A C max |t| occ t10 5 1 1 1 t1 1 1 1 t4 1 1 1 t5 1 1 t9 1 1 t2 0 1 t7 0 1 t8 0 1 Dữ liệu Ƭ đƣợc xếp theo |t|, min, max cột occ đƣợc cập nhật theo vector item F: {1, 1, 1, 0, 0, 0, 0, 0} Dòng 1, xét item thỏa minsup = 0,30: có items {F, G, E, A, C} đƣợc tăng dần theo độ phổ biến gán lần lƣợt thứ tự từ đến 5; Dòng 2, sinh tập phổ biến 1-itemset L1 = {(F; 0,30), (G; 0,50), (E; 0,70), (A; 0,80), (C; 0,80)}; Xét item F: sinh ứng viên 2-itemset C2[F] = {FG, FE, FA, FC}; tập chứa 2-itemset phổ biến L2[F] = {(FA; 0,30), (FC; 0,30)}; sinh ứng viên 3-itemset C3[F] = {FAC}; tập chứa 3itemset phổ biến L3[F] = {(FAC; 0,30)} Xét item G: cập nhật vector cột occ = {1, 0, 1, 1, 1, 1, 0, 0}; sinh ứng viên 2-itemset C2[G] = {GE, GA, GC}; tập chứa 2itemset phổ biến L2[G] = {(GE; 0,30), (GA; 0,30), (GC; 0,30)}; sinh ứng viên 3-itemset C3[G] = {GEA, GEC, GAC}; tập chứa 3-itemset phổ biến L3[G] = {(GEA; 0,30), (GEC; 0,30), (GAC; 0,50)}; sinh ứng viên 4-itemset C4[G] = {GEAC}; tập chứa 4itemset phổ biến L4[G] = {(GEAC; 0,30)} Xét item E: cập nhật vector cột occ = {1, 1, 0, 1, 1, 0, 1, 0}; sinh ứng viên 2-itemset C2[E] = {EA, EC}; tập chứa 2-itemset phổ biến L2[E] = {(EA; 0,50), (EC; 0,50)}; sinh ứng viên 3itemset C3[E] = {EAC}; tập chứa 3-itemset phổ biến L3[E] = {(EAC; 0,50)} Xét item A: cập nhật vector cột occ = {1, 1, 1, 1, 1, 1, 1, 1}; sinh ứng viên 2-itemset C2[A] = {AC}; tập chứa 2-itemset phổ biến L2[A] = {(AC; 0,80)} Kết khai thác tập phổ biến đƣợc trình bày Bảng (19 itemset phổ biến: itemset đƣợc khai thác theo chiều sâu từ item F; itemset từ item G; itemset từ item E; itemset từ item A itemset từ item C) C So sánh ứng viên tiềm số giao dịch duyệt thuật toán Apriori DFS-Apriori Bảng Số ứng viên duyệt giao dịch theo Ví dụ AprioriTID DFS-Apriori Số Số giao Số Số giao Lần lặp k Items ứng viên dịch duyệt ứng viên dịch duyệt 10 340 F 15 28 90 G 34 10 E 15 A 0 C 0 48 433 Tổng: 16 72 Tổng: Bảng 6, cho thấy tổng số ứng viên tiềm thuật toán DFS-Apriori thấp 66,67% so với AprioriTID tổng số dịng giao dịch đƣợc duyệt thấp 83,37% Qua đó, cho thấy thuật toán DFS-Apriori khả thi hiệu so với thuật toán AprioriTID B Minh họa thuật tốn DFS-Apriori Trong phần này, nhóm tác giả minh họa thuật toán DFSApriori khai thác tập phổ biến DLGD, cho thấy thuật toán cải tiến hiệu ISBN 978-604-80-7468-5 138 Hội nghị Quốc gia lần thứ 25 Điện tử, Truyền thông Công nghệ Thông tin (REV-ECIT2022) IV KẾT QUẢ THỰC NGHIỆM Thực nghiệm máy tính Core Duo 2.0 GHz, 4GB RAM, thuật toán cài đặt MSVC# 2010 A Mô tả liệu thực nghiệm Nghiên cứu thực nghiệm nhóm liệu:  Nhóm liệu thực có mật độ dày: từ kho liệu học máy trƣờng Đại học California (Lichman, M (2013) UCI Machine Learning Repository [http://archive.ics.uci.edu/ml] Irvine, CA: University of California, School of Information and Computer Science) gồm Chess Mushroom  Nhóm liệu giả lập có mật độ thưa: sử dụng phần mềm phát sinh liệu giả lập trung tâm nghiên cứu IBM Almaden (IBM Almaden Research Center, San Joe, California 95120, U.S.A [http://www.almaden.ibm.com]) gồm T10I4D100K T40I10D100K Hình Thời gian thực khai thác FI Mushroom Bảng Dữ liệu thực nghiệm Dữ liệu Chess Số item 75 Số Số item trung Mật giao dịch bình/giao dịch độ (%) 3.196 37 49,3 Mushroom 119 8.142 23 19,3 T10I4D100K 870 100.000 10 1,1 942 100.000 40 4,2 T40I10D100K Bảng 7, mô tả tập liệu sử dụng thực nghiệm, gồm thông số nhƣ số lƣợng item, số lƣợng giao dịch, số item trung bình giao dịch mật độ tập liệu Hình Thời gian thực khai thác FI T10I4D100K B Thực nghiệm Để đánh giá mức độ hiệu thuật tốn DFS-Apriori, chúng tơi so sánh thuật tốn DFS-Apriori khai thác tập phổ biến DLGD với thuật toán AprioriTID [2] đƣợc cải tiến theo dạng bit Cả hai thuật toán cho kết ngƣỡng minsup khác Hình Thời gian thực khai thác FI T40I10D100K Hình kết thực nghiệm nhóm liệu giả lập có mật độ thấp, ta thấy thuật toán DFS-Apriori nhanh thuật toán AprioriTID-bit Hiệu suất thuật toán DFSApriori cao so với AprioriTID-bit liệu thƣa Kết thực nghiệm, cho thấy thuật toán cải tiến DFSApriori hiệu thuật tốn AprioriTID-bit Ngồi ra, thuật tốn cần thực nghiệm so sánh thêm với thuật toán theo hƣớng tiếp cận theo chiều sâu (Depth First Search - DFS), với nhiều tập liệu khác mở rộng mơi trƣờng tính tốn phân tán Hình Thời gian thực khai thác FI Chess Hình kết thực nghiệm nhóm liệu có mật độ cao, ta thấy thuật tốn DFS-Apriori nhanh thuật toán AprioriTID-bit ISBN 978-604-80-7468-5 V KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN Trong viết này, nhóm tác giả đề xuất tiếp cận cải tiến hiệu thuật tốn Apriori áp dụng chiến lƣợc tìm kiếm theo chiều sâu: Thứ nhất, rút gọn hiệu không gian sinh ứng viên k-itemset từ tập (k-1)-itemset phổ biến; Thứ hai, bƣớc tính độ phổ biến ứng viên k-itemset 139 Hội nghị Quốc gia lần thứ 25 Điện tử, Truyền thông Công nghệ Thông tin (REV-ECIT2022) xem xét giao dịch dạng bit có chứa item (item có sup nhỏ nhất); Thứ ba, sau bƣớc khai thác k-itemset phổ biến tập liệu dạng bit đƣợc giới hạn dựa vào số item có giao dịch Về mặt thời gian thực hiện, thuật toán DFSApriori hiệu so với thuật toán cải tiến AprioriTID-bit Tuy nhiên, nhóm tác giả chƣa thực so sánh với thuật toán cải tiến dựa theo Apriori gần Mặc dù vậy, kết kiến trúc thuật toán cho thấy thuật tốn triển vọng, có khả mở rộng môi trƣờng phân tán Nghiên cứu nhóm tác giả so sánh DFSApriori với thuật toán cải tiến khác tiến hành nghiên cứu mở rộng thuật tốn mơi trƣờng phân tán xử lý liệu lớn [9] TÀI LIỆU THAM KHẢO [14] [1] [2] [3] [4] [5] [6] [7] [8] [10] [11] [12] [13] R Agrawal, T Imilienski, A Swami Mining association rules between sets of large databases Proc of the ACM SIGMOD Int Conf on Management of Data, Washington, DC, (1993), 207-216 R Agrawal, R Srikant Fast Algorithms for Mining Association Rules in Large Databases VLDB 1994, (1994), 487-499 R Agrawal, R Srikant Mining sequential patterns Proceedings of the Eleventh International Conference on Data Engineering, (1995), 3-14 C.L Carter, H.J Hamilton, N Cercone Share Based Measures for Itemsets PKDD1997, (1997), 14-24 A Inokuchi, T Washio, H Motoda An Apriori-Based Algorithm for Mining Frequent Substructures from Graph Data PKDD’00, 1910,(2000), 13-23 G C Lan, T P Hong, H Y Lee, and C W Lin Mining Weighted Frequent Itemsets Proceedings of the 30th workshop on Combinatorial Mathematics and Computation Theory (Alg’30), (2013), 85-89 A Savasere, E Omiecinski, S.B Navathe An Efficient Algorithm for Mining Association Rules in Large Databases VLDB, (1995), 432-444 J Lei, B Zhang, L Jianhua A New Improvement on Apriori Algorithm 2006 International Conference on Computational Intelligence and Security 1, (2006): 840-844 ISBN 978-604-80-7468-5 [15] [16] [17] [18] [19] 140 W Yu, X Wang, F Wang, E Wang, B Chen Notice of Retraction: The research of improved apriori algorithm for mining association rules 11th IEEE Inter Conf on Communication Technology, (2008), 513-516 Y Guo, Z Wang A vertical format algorithm for mining frequent itemsets 2nd International Conference on Advanced Computer Control, 4,(2010) 11-13 J Singh, H Ram Improving Efficiency of Apriori Algorithm Using Transaction Reduction Inte Journal of Scientific and Research Publications, 3(1), (2013), 1-4 H Singh, R Dhir A New Efficient Matrix Based Frequent Itemset Mining Algorithm with Tags Inter Journal of Future Computer and Communication, (2013), 355-358 M A Maolegi, B Arkok An Improved Apriori Algorithm for Association Rules International Journal on Natural Language Computing (IJNLC) , 3(1), (2014), 21-29 V Vijayalakshmi, A Pethalakshmi An Efficient Count Based Transaction Reduction Approach for Mining Frequent Patterns Procedia Computer Science, 47, (2015), 52-61 S Aditya, M Hemanth, C.K Lakshmikanth, K Suneetha Effective algorithm for frequent pattern mining 2017 Inter Conf on Energy, Communication, Data Analytics and Soft Computing (ICECDS), (2017), 704-708 L Xu, L Qiao, F Zhao, B Yang, Q Wang, P Ding, L Li Improvement and Application of Apriori Algorithm Based on Equalization IEEE Fourth International Conference on Data Science in Cyberspace (DSC), (2019), 635-641 H Qiu, G Rong, C Yuan, Y Huang YAFIM: A Parallel Frequent Itemset Mining Algorithm with Spark IEEE Inter Parallel & Distributed Processing Symposium Workshops, (2014), 1664-1671 S Rathee, M Kaul, A Kashyap R-Apriori: an efficient apriori based algorithm on spark In: Proceedings of the 8th workshop on Ph.D workshop in information and knowledge management ACM, (2015), 1-8 S Raj, D Ramesh, M Sreenu, K.K Sethi EAFIM: efficient aprioribased frequent itemset mining algorithm on Spark for big transactional data Knowledge and Information Systems, 62, (2020), 3565-3583 ... 2-itemset C2[A] = {AC}; tập chứa 2-itemset phổ biến L2[A] = {(AC; 0,80)} Kết khai thác tập phổ biến đƣợc trình bày Bảng (19 itemset phổ biến: itemset đƣợc khai thác theo chiều sâu từ item F; itemset... bày khái niệm khai thác tập phổ biến, thuật tốn AprioriTID phân tích ƣu, nhƣợc điểm Phần 3, đề xuất thuật toán khai thác nhanh tập phổ biến theo hƣớng tiếp cận theo chiều sâu DFS-Apriori; kết... cho khai thác tập phổ biến DLGD áp dụng chiến lƣợc tìm kiếm theo chiều sâu (Depth First Search – DFS) – thuật toán dễ dàng mở rộng mơi trƣờng tính tốn phân tán Phần 2, báo trình bày khái niệm khai

Ngày đăng: 31/12/2022, 13:25

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w