1. Trang chủ
  2. » Giáo án - Bài giảng

Dup Apriori: Thuật toán hiệu quả khai thác tập phổ biến dựa trên giao dịch trùng lặp

6 3 0

Đang tải... (xem toàn văn)

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 6
Dung lượng 634,15 KB

Nội dung

Bài viết Dup Apriori: Thuật toán hiệu quả khai thác tập phổ biến dựa trên giao dịch trùng lặp trình bày tiếp cận mới trong cải tiến hiệu quả thuật toán Apriori dựa trên giao dịch trùng lặp - giúp đẩy nhanh tốc độ tính toán và giảm thiểu quá trình truy xuất dữ liệu. Thuật toán cải tiến được gọi là DUP-Apriori.

Phan Thành Huấn 50 DUP-APRIORI: THUẬT TOÁN HIỆU QUẢ KHAI THÁC TẬP PHỔ BIẾN DỰA TRÊN GIAO DỊCH TRÙNG LẶP DUP-APRIORI: AN EFFICIENT ALGORITHM FOR MINING FREQUENT ITEMSETS BASED ON DUPLICATE TRANSACTIONS Phan Thành Huấn* Trường Đại học Khoa học Tự nhiên, Đại học Quốc gia Hồ Chí Minh1 *Tác giả liên hệ: huanphan@hcmussh.edu.vn (Nhận bài: 15/9/2022; Chấp nhận đăng: 03/11/2022) Tóm tắt - Thuật tốn Apriori thuật toán kinh điển dùng cho khai thác tập phổ biến từ liệu giao dịch nhị phân – giai đoạn quan trọng khai thác luật kết hợp Đây thuật tốn nhiều nhóm nghiên cứu quan tâm cải tiến, sử dụng khai thác nhiều loại liệu khác Trong viết này, tác giả trình bày tiếp cận cải tiến hiệu thuật toán Apriori dựa giao dịch trùng lặp - giúp đẩy nhanh tốc độ tính tốn giảm thiểu q trình truy xuất liệu Thuật tốn cải tiến gọi DUP-Apriori Tác giả tiến hành thực nghiệm thuật toán liệu thực UCI liệu giả lập trung tâm nghiên cứu IBM Almaden, cho thấy thuật toán cải tiến hiệu so với thuật toán gần Abstract - The Apriori algorithm is the classic algorithm used for frequent itemset mining from binary dataset - important phase in association rule mining This is an algorithm that many research groups are interested in improving, as well as using mining on many different types of dataset In this paper, the author presents a new approach in improving the efficiency of the Apriori algorithm based on duplicate transactions - to speed up computation and reduce database access The improved algorithm is called DUP-Apriori Experimenting the algorithm on real dataset of UCI and simulated dataset of IBM Almaden research center, shows that the algorithm improves efficiency compared to the recent algorithm Từ khóa - Luật kết hợp; tập phổ biến; thuật toán DUP-Apriori Key words - Association rules; frequent itemsets; DUP-Apriori algorithm Đặt vấn đề Năm 1993, Agrawal đồng đề xuất mô hình tốn khai thác luật kết hợp – khai thác luật kết hợp liệu giao dịch (DLGD) nhị phân [1] Khai thác luật kết hợp khai phá luật kết hợp có độ phổ biến (support) độ tin cậy (confidence) lớn ngưỡng phổ biến tối thiểu (minsup) ngưỡng tin cậy tối thiểu (minconf) Bài toán chia thành hai pha [1-15]: Pha 1: Tìm tất kết hợp thỏa ngưỡng phổ biến tối thiểu minsup (sinh tập phổ biến FI - Frequent Itemset); Pha 2: Sinh luật kết hợp từ kết hợp thỏa minsup pha luật kết hợp phải thỏa ngưỡng tin cậy tối thiểu minconf Năm sau đó, Agrawal đồng tập trung hướng giải cho pha nhóm đề xuất thuật toán Apriori [2] cho khai thác tập phổ biến Đây thuật toán then chốt, quan trọng khai thác luật kết hợp Thuật toán tiếp cận sinh kết hợp phổ biến với chiến lược tìm kiếm theo chiều rộng (Breadth First Search – BFS) dễ dàng cài đặt song song hóa nhằm nâng cao hiệu năng; Thuật tốn tốn nhiều lần qt liệu có độ phức tạp dạng hàm mũ Chính vậy, Apriori thuật toán nhiều nhà nghiên cứu cải tiến áp dụng khai phá nhiều loại liệu khác nhau: Chuỗi [4], định lượng [5], đồ thị [6], thuộc tính có trọng số [7],… Hai hướng tiếp cận nghiên cứu liên quan đến cải tiến thuật toán Apriori: - Định dạng liệu theo chiều ngang: Đây định dạng theo thuật toán Apriori gốc Các thuật toán cải tiến Apriori thường sử dụng chiến lược rút gọn giao dịch rút gọn không gian sinh ứng viên tiềm k-itemset Tuy nhiên, vấn đề tính độ phổ biến k-itemset chưa thật hiệu Một số thuật toán cải tiến Apriori áp dụng định dạng liệu theo chiều ngang: SOT-Apriori [10], MBAT [11], CBTRA [12], LOT-Apriori [13], NOV-Apriori [15]… - Định dạng liệu theo chiều dọc: Định dạng này, giúp tính độ phổ biến dễ dàng hạn chế DLGD có mật độ cao Một số thuật tốn cải tiến Apriori áp dụng định dạng liệu theo chiều dọc: Parition [8], IApriori [9], MDApriori [14]… Quá trình khảo sát, tác giả thấy rằng: DLGD thực tế có tần số trùng lặp giao dịch trước sau loại bỏ item không thỏa ngưỡng minsup tương đối cao Vì vậy, tác giả đề xuất tiếp cận cải tiến hiệu thuật toán Apriori dựa giao dịch trùng lặp Các vấn đề liên quan 2.1 Khai thác tập phổ biến Cho I = {i1, i2, , im} tập gồm m thuộc tính, thuộc tính gọi item Với X  I, X ={i1, i2, , ik}, ij  I (1 j  k) gọi itemset, itemset có k item gọi k-itemset Dữ liệu giao dịch gồm n ghi phân biệt gọi tập giao dịch Ƭ = {t1, t2, , tn}, giao dịch tk ={ik1, ik2, , ikm}, ikj  I (1 kjm) Định nghĩa 1: Độ phổ biến (support) itemset X  I, ký hiệu sup(X) - tỷ lệ số giao dịch có chứa itemset X n giao dịch sup( X ) = t  T | X  t n Vietnam National University Ho Chi Minh City - University of Science (Huan Phan) ISSN 1859-1531 - TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ - ĐẠI HỌC ĐÀ NẴNG, VOL 20, NO 11.2, 2022 Định nghĩa 2: Cho X  I, X gọi itemset phổ biến sup(X) ≥ minsup, minsup ngưỡng phổ biến tối thiểu (do người dùng định) Ký hiệu FI tập hợp itemset phổ biến Các tính chất bao đóng giảm khai thác tập phổ biến DLGD: Tính chất 1: X  Y: sup(X)  sup(Y); Tính chất 2: XY,sup(Y)≥minsup: sup(X)≥minsup; Tính chất 3: XY,sup(X) gom giao dịch trùng lặp; … 11 c.sup += t[i].dup/n … Mơ tả thuật tốn DUP-Apriori Thuật toán DUP-Apriori cải tiến từ NOVApriori, chi tiết cải tiến: Dòng – gồm giao dịch trùng lặp từ liệu T, giao dịch có thêm trường thông tin min, max, |t| dup; Ở dịng 11 – tính nhanh độ phổ biến itemset tiềm thông qua trường thông tin dup (tần số trùng lặp giao dịch) dòng giao dịch 3.2 Minh họa thuật toán DUP-Apriori Trong phần này, tác giả minh họa thuật toán DUP- ISSN 1859-1531 - TẠP CHÍ KHOA HỌC VÀ CƠNG NGHỆ - ĐẠI HỌC ĐÀ NẴNG, VOL 20, NO 11.2, 2022 Apriori khai thác tập phổ biến DLGD, cho thấy thuật toán cải tiến hiệu so sánh thông qua không gian duyệt giao dịch bước sinh itemset phổ biến Ví dụ 3: Cho tập giao dịch Ƭ Bảng 1, ngưỡng minsup = 0,50 Bảng Dữ liệu T gom theo giao dịch trùng lặp TID A t2 A B C C t4 A C t5,t9,t10 A C t8 A C E F Ƭ3 ={t5} – loại {t2, t4, t1}; C4: Tập ứng viên tiềm 4-itemset E D L3: Tập 3-itemset phổ biến G t3,t6 Bước lặp k = 3: Tính sup cho ứng viên C3; Trùng lặp Items t1,t7 53 H E G E G D Bước lặp k = 4: Tính sup cho ứng viên C4; L4: Tập 4-itemset phổ biến Tổng số giao dịch duyệt bước lặp: + + = 10, so với tổng số giao dịch duyệt theo thuật tốn NOVApriori 44,44% (tương ứng 8/18) Hình Minh họa giao dịch trùng lặp liệu Ví dụ Hình 1, cho thấy DLGD T sau thực thuật tốn 1: có giao dịch tần số xuất lần giao dịch {t2}, {t4}, {t8}, giao dịch có tần số xuất lần giao dịch {t1, t7}, {t3, t6} giao dịch có tần số xuất lần giao dịch {t5, t9, t10} Bảng Dữ liệu T rút gọn gom theo giao dịch TID G E A C max |t| dup t2 1 1 t4 1 1 t5 (t9, t10) 1 1 4 t3 (t6) 0 2 t1 (t7) 1 t8 0 1 Dữ liệu Ƭ1 xếp theo min, max Ƭ1 ={t2, t4, t5, t1, t8} – loại {t3}; C2: Tập ứng viên tiềm 2-itemset Kết thực nghiệm Thực nghiệm máy tính Core i7-3540M 3.0 GHz, 4GB RAM, thuật tốn cài đặt MSVC# 2015 4.1 Mô tả liệu thực nghiệm Nghiên cứu thực nghiệm nhóm liệu - Nhóm liệu thực: Từ kho liệu học máy UCI trường Đại học California gồm Kosarak Retail - Nhóm liệu giả lập: Dùng phần mềm phát sinh liệu giả lập trung tâm nghiên cứu IBM Almaden gồm T10I4D100K T40I10D100K Bảng Dữ liệu thực nghiệm Dữ liệu Số item Kosarak 41.270 Retail Số lượng Mật độ Trùng lặp giao dịch (%) (%) 990.002 0,02 38,71 16.470 88.162 0,06 5,30 T10I4D100K 870 100.000 1,16 10,87 T40I10D100K 942 100.000 4,20 0,07 Bảng 6, mô tả tập liệu sử dụng thực nghiệm, gồm thông số số lượng item, số lượng giao dịch, mật độ tập liệu mức độ trùng lặp giao dịch tập liệu Bước lặp k = 2: Tính sup cho ứng viên C2; L2: Tập 2-itemset phổ biến Ƭ2 ={t2, t4, t5, t1} – loại {t8}; C3: Tập ứng viên tiềm 3-itemset Hình Minh họa giao dịch trùng lặp Kosarak Phan Thành Huấn 54 Hình cho thấy, liệu Kosarak gom theo tần số trùng lặp; Kosarak chứa 990.002 giao dịch có 383.232 giao dịch trùng lặp, xấp xỉ 38,71% liệu Cả hai thuật toán cho kết ngưỡng minsup khác Hình Thời gian thực nhớ sử dụng Kosarak Hình Minh họa giao dịch trùng lặp Retail Hình 3, cho thấy liệu Retail gom theo tần số trùng lặp; Retail chứa 88.162 giao dịch có 4.672 giao dịch trùng lặp, xấp xỉ 5,30% giao dịch liệu Hình Thời gian thực nhớ sử dụng Retail Hình kết thực nghiệm nhóm liệu thực, cho thấy thuật tốn DUP-Apriori có thời gian thực nhanh nhớ sử dụng ngưỡng minsup với thuật tốn NOV-Apriori Hình Minh họa giao dịch trùng lặp T10I4D100K Hình 4, cho thấy liệu T10I4D100K gom theo tần số trùng lặp; T10I4D100K chứa 100.000 giao dịch có 10.865 giao dịch trùng lặp, xấp xỉ 10,87% liệu Hình Thời gian thực nhớ sử dụng T10I4D100K Hình kết thực nghiệm nhóm liệu giả lập T10I4D100K, cho thấy thuật toán DUP-Apriori có thời gian thực nhanh nhớ sử dụng với thuật tốn NOV-Apriori Hình Minh họa giao dịch trùng lặp T40I10D100K Hình 5, cho thấy liệu T40I10D100K gom theo tần số trùng lặp; T40I10D100K chứa 100.000 giao dịch có 69 giao dịch trùng lặp, xấp xỉ 0,07% liệu 4.2 Thực nghiệm Để đánh giá mức độ hiệu thuật toán DUPApriori, tác giả so sánh thuật toán DUP-Apriori khai thác tập phổ biến DLGD với thuật toán NOV-Apriori [15] hướng tiếp cận chiến lược tìm kiếm theo chiều rộng Hình Thời gian thực nhớ sử dụng liệu T40I10D100K Hình kết thực nghiệm nhóm liệu giả lập T40I10D100K cho thấy, thuật toán DUP-Apriori chưa thực hiệu so với thuật toán NOV-Apriori thực liệu có tỷ lệ giao dịch trùng lặp thấp Kết thực nghiệm cho thấy, thuật toán cải tiến DUP- ISSN 1859-1531 - TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ - ĐẠI HỌC ĐÀ NẴNG, VOL 20, NO 11.2, 2022 Apriori hiệu thuật toán NOV-Apriori mức độ hiệu phụ thuộc vào tỷ lệ trùng lặp giao dịch tập liệu Ngoài ra, thuật toán cần thực nghiệm so sánh thêm với thuật toán theo hướng tiếp cận theo chiều sâu (Depth First Search - DFS), với nhiều tập liệu có mật độ cao khác Kết luận hướng phát triển Trong viết này, tác giả đề xuất phương pháp gom giao dịch trùng lặp, giúp thuật tốn tính nhanh độ phổ biến itemset bước sinh k-itemset tiềm giảm số lần duyệt giao dịch Phần thực nghiệm, cho thấy tính hiệu thuật toán DUP-Apriori mặt thời gian thực nhớ sử dụng so với thuật toán cải tiến gần Tuy nhiên, hiệu suất thuật toán phụ thuộc vào tỷ lệ trùng lặp giao dịch (tỷ lệ thuận), trước sau loại bỏ item không thỏa minsup Nghiên cứu thời gian tới tác giả nghiên cứu đề xuất kỹ thuật hiệu tính nhanh độ phổ biến item, mở rộng thuật toán khai thác tập phổ biến hiệu cho liệu lớn dựa tảng điện toán phân tán Hadoop, Spark, TÀI LIỆU THAM KHẢO [1] R Agrawal, T Imilienski, A Swami, Mining association rules between sets of large databases, Proc of the ACM SIGMOD Int Conf on Management of Data, Washington, DC, 1993, pp 207-216 [2] R Agrawal, R Srikant, Fast Algorithms for Mining Association Rules in Large Databases, VLDB 1994, pp 487-499 [3] P Huan, L Bac, A Novel Algorithm for Frequent Itemsets Mining in Transactional Databases, PAKDD 2018 LNCS, 11154, Springer Cham, 2018, pp 243–255 55 [4] R Agrawal, R Srikant, Mining sequential patterns, Proc of the 11th Inter Conf on Data Engineering, 1995, pp 3-14 [5] C.L Carter, H.J Hamilton, N Cercone, Share Based Measures for Itemsets, PKDD1997, 1997, pp 14-24 [6] A Inokuchi, T Washio, H Motoda, An Apriori-Based Algorithm for Mining Frequent Substructures from Graph Data, PKDD’00, 1910, 2000, pp 13-23 [7] G C Lan, T P Hong, H Y Lee, and C W Lin, Mining Weighted Frequent Itemsets, Proc of the 30th workshop on Combinatorial Mathematics and Computation Theory (Alg’30), 2013, pp 85-89 [8] A Savasere, E Omiecinski, S.B Navathe, An Efficient Algorithm for Mining Association Rules in Large Databases, VLDB1995, 1995, pp 432-444 [9] Y Guo, Z Wang, A vertical format algorithm for mining frequent itemsets, 2nd International Conference on Advanced Computer Control, 4, 2010, pp 11-13 [10] J Singh, H Ram, “Improving Efficiency of Apriori Algorithm Using Transaction Reduction”, Int Journal of Scientific and Research Publications, 3(1), 2013, pp.1-4 [11] H Singh, R Dhir, “A New Efficient Matrix Based Frequent Itemset Mining Algorithm with Tags”, Int Journal of Future Computer and Communication, 2013, pp 355-358 [12] V Vijayalakshmi, A Pethalakshmi, “An Efficient Count Based Transaction Reduction Approach for Mining Frequent Patterns”, Procedia Computer Science, 47, 2015, pp 52-61 [13] S Aditya, M Hemanth, C.K Lakshmikanth, K Suneetha, Effective algorithm for frequent pattern mining, 2017 Inter Conf on Energy, Communication, Data Analytics and Soft Computing (ICECDS), 2017, pp 704-708 [14] L Xu, L Qiao, F Zhao, B Yang, Q Wang, P Ding, L Li, Improvement and Application of Apriori Algorithm Based on Equalization, IEEE Fourth International Conference on Data Science in Cyberspace (DSC), 2019, pp 635-641 [15] Phan Thành Huấn, Lê Hoài Bắc, Tiếp cận cải tiến hiệu thuật toán Apriori cho khai thác luật kết hợp, Hội thảo Quốc gia lần thứ XXIV - Một số vấn đề chọn lọc CNTT Truyền thông, 2021, pp 478-483 ... 100.000 giao dịch có 69 giao dịch trùng lặp, xấp xỉ 0,07% liệu 4.2 Thực nghiệm Để đánh giá mức độ hiệu thuật toán DUPApriori, tác giả so sánh thuật toán DUP- Apriori khai thác tập phổ biến DLGD với thuật. .. liệu giao dịch tồn nhiều giao dịch trùng lặp Vì vậy, tác giả đề xuất phương pháp tính nhanh độ phổ biến k-itemset dựa vào tần số trùng lặp giao dịch liệu - Ƭk: Tập giao dịch biểu diễn dạng bit, giao. .. gom giao dịch trùng lặp; … 11 c.sup += t[i] .dup/ n … Mơ tả thuật tốn DUP- Apriori Thuật tốn DUP- Apriori cải tiến từ NOVApriori, chi tiết cải tiến: Dòng – gồm giao dịch trùng lặp từ liệu T, giao dịch

Ngày đăng: 24/12/2022, 16:14

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w