Khai thác tập phổ biến có trọng số dựa trên cấu trúc N-LIST

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	8
Dung lượng	832,54 KB

Nội dung

Bài viết đề xuất một cấu trúc mở rộng của N-list là WN-list (Weighted N-list) để giải quyết bài toán khai thác tập phổ biến có trọng số trên CSDL trọng số. Đầu tiên, một số định lý được phát triển để tính toán độ phổ biến trọng số của itemset, sau đó thuật toán NFWI được đề xuất trên cơ sở các định lý đó để khai thác nhanh tập phổ biến có trọng số. Các thử nghiệm trên nhiều loại cơ sở dữ liệu (thưa và dày) cho thấy phương pháp đề xuất hiệu quả hơn so với các phương pháp khai thác tập phổ biến có trọng số hiện có, đặc biệt là khi ngưỡng phổ biến nhỏ.

Kỷ yếu Hội nghị Khoa học Quốc gia lần thứ IX “Nghiên cứu ứng dụng Công nghệ thông tin (FAIR'9)”; Cần Thơ, ngày 4-5/8/2016 DOI: 10.15625/vap.2016.00031 KHAI THÁC TẬP PHỔ BIẾN CÓ TRỌNG SỐ DỰA TRÊN CẤU TRÚC N-LIST Bùi Danh Hường 1, Võ Đình Bảy2, Nguyễn Duy Hàm3 Trung tâm Ngoại ngữ - Tin học, Đại học An ninh Nhân dân Khoa công nghệ thơng tin, Đại học Cơng nghệ TP Hồ Chí Minh Bộ mơn Tốn – Tin học, Đại học An ninh Nhân dân buidanhhuong@gmail.com, vd.bay@hutech.edu.vn, duyham@gmail.com TÓM TẮT— Khai thác tập phổ biến toán quan trọng khai thác liệu Đã có nhiều phương pháp khác đề xuất để giải toán Trong đó, cấu trúc N-list đề xuất Deng với việc sử dụng hướng tiếp cận lai FP liệt kê đạt hiệu đáng khích lệ Tuy nhiên phương pháp khai thác sở liệu (CSDL) nhị phân truyền thống Trong báo này, đề xuất cấu trúc mở rộng N-list WN-list (Weighted N-list) để giải toán khai thác tập phổ biến có trọng số CSDL trọng số Đầu tiên, số định lý phát triển để tính tốn độ phổ biến trọng số itemset, sau thuật tốn NFWI đề xuất sở định lý để khai thác nhanh tập phổ biến có trọng số Các thử nghiệm nhiều loại sở liệu (thưa dày) cho thấy phương pháp đề xuất hiệu so với phương pháp khai thác tập phổ biến có trọng số có, đặc biệt ngưỡng phổ biến nhỏ Từ khóa— Khai thác liệu, khai thác tập phổ biến, tập phổ biến có trọng số, WN-list I GIỚI THIỆU Từ đề xuất Agrawal đồng [1], khai thác tập phổ biến (FI) trở thành chủ đề nghiên cứu quan trọng lĩnh vực khai thác liệu Nhiều phương pháp khác đề xuất để giải tốn này, góp phần nâng cao hiệu khai thác FI Các phương pháp có chia làm nhóm sau:  Các phương pháp theo hướng tiếp cận Apriori: Hướng tiếp cận Apriori [2] đặc trưng việc sinh kiểm tra ứng viên cấp k+1 từ ứng viên cấp k thông qua việc quét CSDL Nhược điểm phương pháp tốn thời gian nhớ phải quét CSDL nhiều lần  Các phương pháp theo hướng tiếp cận sử dụng FP (Frequent Pattern - tree): Đại diện thuật toán FP-Growth [3] FP-Growth* [4], tiếp cận theo hướng nén CSDL khai thác FI FP [3] Đầu tiên phương pháp nén toàn CSDL lên FP, sau duyệt để khai thác tập phổ biến Ưu điểm phương pháp tiết kiệm nhớ nén CSDL FP, nhiên lại tốn thời gian duyệt FP để khai thác FI, đặc biệt số nút nhiều  Các phương pháp theo hướng tiếp cận sử dụng IT (Itemset Tid-set tree): Đại diện điển hình thuật toán Eclat [5], dEclat [6] DBV-FI [7], tiếp cận theo hướng khai thác FI IT [5], cấu trúc lưu trữ sở liệu theo chiều dọc, item biểu diễn tương ứng với Tid-set (set of transaction ID - tập tất giao dịch có chứa item đó) Ưu điểm phương pháp loại cần quét CSDL lần, đồng thời tính nhanh độ phổ biến thông qua xác định giao Tid-set Tuy nhiên phương pháp loại tốn nhớ để lưu trữ Tid-set, điều dẫn đến thời gian khai thác FI chưa tối ưu  Các phương pháp lai: Đại diện điển hình thuật tốn PrePost [8], NSFI [9] PrePost+ [10] tiếp cận theo hướng nén CSDL PPC (Pre-Post Code) từ biểu diễn CSDL khai thác FI cấu trúc Nlist [8] Phương pháp vừa có ưu điểm phương pháp theo họ FP - khả nén CSDL PPC, vừa có ưu điểm phương pháp theo họ IT - tính nhanh độ phổ biến dựa vào giao N-list Do phương pháp lai ghép PrePost, NSFI hay PrePost+ thể hiệu vượt trội khai thác FI CSDL trọng số (Weighted Database - WD) loại CSDL có nhiều ứng dụng thực tế hệ thống thông minh Khai thác tập phổ biến có trọng số (Frequent Weighted Itemsets - FWI) WD quan tâm từ sớm [11,12] quan tâm nhiều thời gian gần [13,14,15] Trong [14] đề xuất WIT (Weighted Itemset Tid-set tree) mở rộng IT theo tiếp cận Eclat, phương pháp tốn thời gian nhớ sử dụng chưa tối ưu Một cải tiến gần cấu trúc IWS (Interval word segment) đề xuất [15], tiếp cận theo hướng Bit-vector việc cắt bỏ đoạn byte liên tiếp biểu diễn Tid-set itemset Bit-vector biểu diễn dạng word (2 byte) Tuy nhiên tiếp cận không hiệu CSDL dày Trong báo này, chúng tơi đề xuất thuật tốn NFWI dựa cấu trúc WN-list, mở rộng cấu trúc Nlist, để giải toán khai thác FWI WD Kết thực nghiệm nhiều loại CSDL cho thấy thuật toán NFWI hiệu thuật toán khai thác FWI có, đặc biệt thể rõ ngưỡng phổ biến nhỏ 248 KHAI THÁC TẬP PHỔ BIẾN CÓ TRỌNG SỐ DỰA TRÊN CẤU TRÚC N-LIST Phần cịn lại báo trình bày sau: Phần trình bày nghiên cứu liên quan Phần trình bày cấu trúc WN-list, khái niệm, định nghĩa liên quan Phần đưa thuật toán NFWI để khai thác FWI CSDL có trọng số Phần thử nghiệm nhiều loại CSDL khác để đánh giá hiệu thuật toán đề xuất Và cuối kết luận hướng nghiên cứu tương lai trình bày phần II NGHIÊN CỨU LIÊN QUAN Định nghĩa Một CSDL trọng số (WD) định nghĩa ba T, I, W, T = {t1, t2, , tm} tập giao dịch, I = {i1, i2, , in} tập item, W = {w1, w2, …, wn} tập trọng số item tập I Ví dụ Trong Bảng thể sở liệu có trọng số Tập giao dịch T = {t1, t2, t3, t4, t5, t6} (Bảng 1A) Tập item I = {A, B, C, D, E, F } Tập trọng số item W ={0.8, 0.1, 0.5, 0.9, 0.2, 0.3} (Bảng 1B) Bảng Ví dụ WD A Transaction Database ID Items A, B, D, E B, E, F A, B, F A, B, C, E A, B, C, D, E B, C, D, E, F Item A B C D E F B Item weight Weight 0.8 0.1 0.5 0.9 0.2 0.3 Định nghĩa Trọng số giao dịch (tw) giao dịch tk định nghĩa sau: ∑ (1) Trong đó: - wj trọng số item ij - |tk| số lượng item xuất giao dịch tk Định nghĩa Độ hỗ trợ trọng số (ws) itemset X định nghĩa sau: ∑ ∑ (2) Trong đó: t(X) tập giao dịch có chứa itemset X Định nghĩa Cho ngưỡng cho trước minws Một itemset có ws thỏa mãn ngưỡng minws gọi FWI theo ngưỡng minws Bài tốn khai thác FWI từ WD tốn tìm tất FWI thỏa mãn ngưỡng minws cho trước Bài toán khai thác FWI đề xuất lần Ramkumar đồng [11], nghiên cứu này, tác giả đưa mơ hình mơ tả khái niệm luật kết hợp có trọng số, đề xuất thuật tốn WIS để khai thác FWI Tiếp theo nghiên cứu Tao đồng [13] dựa độ đo tw tính trung bình cộng trọng số item giao dịch, ws itemset xác định thương tổng tw giao dịch có chứa itemset chia cho tổng tw tất giao dịch Theo cách tiếp cận giá trị ws itemset vừa phản ánh mức độ xuất itemset giao dịch, vừa thể mức độ quan trọng khác giao dịch, đồng thời thỏa mãn tính chất bao đóng giảm cách tự nhiên Tuy nhiên, thuật toán Tao đồng đề xuất dựa vào việc sinh ứng viên theo kiểu Apriori nên cần đọc CSDL nhiều lần, dẫn đến tốn thời gian xử lý Sau đó, Võ đồng [14] đề xuất cách thức lưu trữ trọng số WIT, mở rộng IT Do phải đọc CSDL lần, với áp dụng chiến lược Diffset để khai thác FWI WIT, nên phương pháp tỏ hiệu phương pháp theo hướng tiếp cận Apriori trước Hạn chế phương pháp chỗ tốn nhớ để lưu trữ Tid-set Gần đây, Nguyen đồng [15] với tiếp cận Eclat đề xuất cải tiến để giảm bớt nhớ lưu trữ Tid-set cấu trúc IWS IWS loại bỏ đoạn word "0" (2 byte) biểu diễn bit Tid-set dựa tiếp cận Bitvector Tuy nhiên, thuật tốn có hiệu sở liệu thưa, không hiệu CSDL dày Cấu trúc N-list đề xuất Deng đồng [8] để biểu diễn CSDL truyền thống khai thác FI thơng qua thuật tốn Prepost với hai bước sau: Bước 1, CSDL loại bỏ item không thỏa ngưỡng xếp lại item giao dịch theo tăng dần độ phổ biến Từng giao dịch xếp đọc nén vào cấu trúc PPC Mỗi nút PPC gồm giá trị (item-name, count, child-list, pre-order, post-order), item-name count tên số lần item đăng ký nút đó, child-list danh sách nút con, pre-order post-order thứ tự nút duyệt PPC theo hướng trên-xuống-trái-sang trên-xuống-phải-sang Một PP-code nút N giá trị (pre-order, post-order, count) Quan hệ tổ tiên hai nút N1 N2 xác định thơng qua việc so sánh PP-code Bùi Danh Hường, Võ Đình Bảy, Nguyễn Duy Hàm 249 chúng: N1 tổ tiên N2 (N1.pre-order < N2.pre-order) (N1.post-order>N2.post-order) Vì vậy, PP-code nút phản ánh tồn cấu trúc PPC, từ phản ánh toàn CSDL Bước 2, N-list 1-itemset khởi tạo, danh sách PP-code 1-itemset PPC Độ phổ biến 1-itemset tổng giá trị count PP-code N-list N-list kitemset xác định cách giao N-list hai (k-1)-itemset tương ứng Thuật tốn giao hai N-list có độ phức tạp O(m+n), m n số phần tử hai N-list tương ứng Độ phổ biến k-itemset tính tổng giá trị count PP-code N-list Danh sách N-list 1-itemset sử dụng để tạo danh sách N-list 2-itemset thế, theo cách việc khai thác FI diễn Trong báo này, áp dụng cấu trúc WN-list, mở rộng cấu trúc N-list, để biểu diễn giải toán khai thác FWI WD III CẤU TRÚC WN-LIST BIỂU DIỄN WD Định nghĩa (WN-Tree) Cây WN cấu trúc bao gồm nút cha "null" nút con, nút item-name, child-list, pre, pos, weight: - item-name tên nút, tên item đại diện cho nút - child-list danh sách nút nút - pre thứ tự nút duyệt từ xuống trái sang - pos thứ tự nút duyệt từ xuống phải sang - weight khối lượng nút, xác định thông qua tổng tw giao dịch qua nút Dựa vào Định nghĩa 4, Thuật toán (Construction_WN_Tree) xây dựng WN tiến hành sau:  Đọc CSDL lần đầu để tính tw giao dịch, tổng trọng số (sumtw) giao dịch ws 1itemset Gọi I1 tập 1-itemset có ws minws, xếp I1 theo chiều giảm dần theo giá trị ws 1itemset  Đọc CSDL lần hai xây dựng WN cách sau:   Khởi tạo nút cha “null” cho WN Với giao dịch đọc từ CSDL, loại bỏ item khơng thuộc I1 xếp item cịn lại theo thứ tự I1 Sau đọc item giao dịch chèn vào từ gốc theo cách thức sau: kiểm tra xem item có nút nút xét hay khơng, có chuyển nút xét sang nút cộng giá trị tw giao dịch vào weight nút đó, khơng tạo nút có weight nhận giá trị tw giao dịch chuyển nút xét sang nút tạo, thực cho hết item có giao dịch Ví dụ Với CSDL Bảng ngưỡng minws =0.5 sau quét CSDL lần đầu, ta có CSDL với giao dịch loại bỏ bớt item có ws nhỏ minws xếp theo thứ tự giảm dần ws Bảng Sau áp dụng Thuật toán 1, ta xây dựng WN Hình Bảng CSDL Bảng với ngưỡng minws=0.5 A Sorted transaction database Transaction Items tw B, E, A, D 0.50 B, E 0.20 B, A 0.40 B, E, A, C 0.40 B, E, A, D, C 0.50 B, E, D, C 0.40 Sum of tw values (sumtw) 2.40 B I1 Item B E A D C ws 0.83 0.75 0.58 0.54 Hình Cây WN CSDL Bảng Định nghĩa (WN-code) Một WN-code nút WN ba giá trị (pre, pos, weight) nút Định lý [8] Cho hai WN-code C1(x1, y1, w1) C2(x2, y2, w2), C1 tổ tiên C2 x1 x2 y1 y2 Định nghĩa (WN-list item) Cho WN, WN-list item dãy có thứ tự WN-code nút đại diện cho item WN, WN-code dãy xếp tăng dần theo giá trị pre chúng 250 KHAI THÁC TẬP PHỔ BIẾN CÓ TRỌNG SỐ DỰA TRÊN CẤU TRÚC N-LIST Định nghĩa (WN-list k-itemset) Cho XA XB hai (k-1)-itemset có phần tiền tố X, A xếp sau B theo thứ tự I1 WL(XA) WL(XB) hai WN-list tương ứng XA XB Ta có WL(XAB) WN-list k-itemset XAB xác định sau: Với cặp Ci(xi, yi, wi) WL(XA) Cj(xj, yj, wj) WL(XB), Cj tổ tiên Ci ta thêm (xj, yj, wi) vào WL(XAB) Duyệt WL(XAB) tổ hợp WN-code có (pre, post) thành WN-code có trọng số tổng giá trị trọng số WN-code xét Dựa vào Định nghĩa ta dễ dàng xây dựng Thuật toán (WL_Intersection) thực phép giao hai WN-list với độ phức tạp tuyến tính Định lý Cho X itemset với WN-list X WL(X) = phổ biến trọng số X tính sau: ∑ ∑ Độ (3) Chứng minh: Khơng tính tổng qt, ta giả sử itemset X = A1A2 Am, Ai đứng sau Ai+1 theo thứ tự I1 Theo cách xác định WN-list định nghĩa 7, ta có: (a) Với WN-code Ci(xi, yi, wi) WL(X), tồn nút WN có item-name = Am, pre = xi pos = yi tương ứng với (xi, yi) (b) wi tổng weight nút có item-name = A1 thuộc WN có gốc Am (a) Gọi Ti tập giao dịch chứa X qua có gốc Am(pre = xi, pos = yi), lúc Ti tương ứng với WN-code (xi, yi, wi) theo (a) (b) ta có: (c) ∑ (d) ⋃ Theo công thức (2), (c) (d) ta có: ∑ ∑ ∑ ∑ ∑ ∑ ∑ Định lý chứng minh IV THUẬT TOÁN NFWI KHAI THÁC FWI TRÊN WD Chúng sử dụng liệt kê (set-enumeration tree) [16] để đơn giản hóa q trình duyệt khai thác FWI Cụ thể, với CSDL ví dụ Bảng 2, ta có liệt kê Hình Hình Cây liệt kê CSDL Bảng Vận dụng định nghĩa định lý trình bày phần trước, chúng tơi đề xuất thuật tốn NFWI để khai thác FWI WD Hình Thuật tốn 3: Thuật tốn NFWI Input: CSDL có trọng số WD ngưỡng minws Output: FWI, tập tất tập phổ biến có trọng số Method name: NFWI_Algorithm(WD, minws) Call Construction_WN_Tree(WD, minws) to generate Tree and I1 Scan Tree to generate WN-lists of items in I1 Let FWI I1 Call Find_FWI(I1, ) return FWI Bùi Danh Hường, Võ Đình Bảy, Nguyễn Duy Hàm 251 Procedure Find_FWI(Lk,Prek) Prenext = Prek for i = Lk.size downto Prenext i Lnext = 10 for j = i-1 downto 11 WLij = WL_Intersection(WLi, WLj) 12 if ws(WLij) minws then 13 FWI {Prek {Li} {Lj}} 14 Inext Li 15 if Lnext then Find_FWI(Lnext, Prenext) 16 remove last item of Prenext Hình Thuật tốn NFWI Thuật tốn NFWI hoạt động sau: xây dựng WN phát sinh WN-list 1-FWI Tiếp duyệt theo liệt kê áp dụng thuật toán giao hai WN-list để xác định WN-list k-itemset từ WN-list hai (k-1)-itemset tương ứng Trong q trình tính tốn WN-list, áp dụng định lý để tìm cập nhật tập FWI Chi tiết thuật toán NFWI thể Thuật toán Sau xây dựng WN phát sinh tập 1-FWI I1, gọi hàm Find_FWI(Lk, Prek) để bắt đầu tiến trình xử lý khai thác FWI Ở đây, Lk tập item cuối Prek tập tiền tố giống itemset thuộc lớp Dòng thể thời điểm gọi hàm Find_FWI lần đầu tiên, Lk = I1 Prek = Dòng 6, 8, 9, 14 16 nơi khai báo tính tốn biến Lnext Prenext, biến sử dụng làm tham số để gọi hàm đệ quy cho lớp tìm kiếm (Dịng 15) Ở dịng 7-14, thuật tốn thực phép giao cặp WN-lists k-itemset có Ik, sau so sánh giá trị ws (k+1)-itemset thu với ngưỡng, phụ thuộc vào kết so sánh để cập nhật tập FWI Lnext (Dịng 13-14) Ví dụ Chúng ta minh họa hoạt động thuật toán NFWI với CSDL ví dụ Bảng Sau gọi hàm Construction_WN_Tree ta thu kết WN Hình với tập I1 = {B, E, A, D, C}, minws = 0.5, sumtw = 2.4 Từ WN I1 ta sinh WN-list cho 1-FWI sau: WL(C) = {(5, 0, 0.5), (6, 2, 0.4), (8, 4, 0.4)} WL(D) = {(4, 1, 1), (7, 5, 0.4)} WL(A) = {(3, 3, 1.4), (9, 7, 0.4)} WL(E) = {(2, 6, 2)} WL(B) = {(1, 8, 2.4)} Cập nhật 1-FWI vào tập FWI: FWI = {B, E, A, D, C} Duyệt theo nhánh liệt kê (Hình 2) từ trái qua phải, ta khai thác FWI theo tiến trình sau: Khởi đầu với L1 = {B, E, A, D, C}, Pre1 = , S1 =  Đi theo nhánh C: Pre2 = {C} WL(CD) = {(4, 1, 0.5), (7, 5, 0.4)} WL(CA) = {(3, 3, 0.5), (3, 3, 0.4)} = {(3, 3, 0.9)} WL(CE) = {(2, 6, 0.5), (2, 6, 0.4), (2, 6, 0.4)} = {(2, 6, 1.3)} WL(CB) = {(1, 8, 0.5), (1, 8, 0.4), (1, 8, 0.4)} = {(1, 8, 1.3)} Do ws(CD) = (0.5+0.4)/2.4 = 0.9/2.4 0.5 nên cập nhật FWI L2 = {E, B}: FWI = {B, E, A, D, C, CE, CB} o Bởi L2 = {E, B} nên gọi đệ quy đến hàm Find_FWI(L2 = {E, B}, Pre2 = {C}) WL(CEB) = {(1, 8, 1.3)} Bởi ws(CEB) = 1.3/2.4 > 0.5 nên cập nhật FWI: 252 KHAI THÁC TẬP PHỔ BIẾN CÓ TRỌNG SỐ DỰA TRÊN CẤU TRÚC N-LIST FWI = {B, E, A, D, C, CE, CB, CEB} Thực tương tự với nhánh D, A E, ta nhận kết cuối sau: FWI = {B, E, A, D, C, CE, CB, CEB, DE, DB, DEB, AE, AB, AEB, EB} V THỰC NGHIỆM VÀ ĐÁNH GIÁ Tất thử nghiệm phần tiến hành hệ thống CPU Intel Core i5 2.5 GHz, nhớ Ram 8GBs, chạy hệ điều hành Windows 7, sử dụng ngơn ngữ lập trình Visual C# 2012 Chúng thực nghiệm CSDL Accidents, Connect, Retail BMS-POS, download từ http://fimi.cs.helsinki.fi/data/ biến đổi cách thêm bảng lưu trữ trọng số item (ngẫu nhiên khoảng đến 10) Chúng so sánh thuật toán NFWI với thuật toán khai thác FWI WIT-FWIs-Diff [14] IWS [15], WIT-FWIs-Diff đánh giá hiệu CSDL dày, cịn IWS hiệu CSDL thưa Bảng Một số thông số CSDL dùng thử nghiệm Số lượng items 468 130 16,470 1,657 CSDL Accidents Connect Retail BMS-POS Số lượng giao dịch 340,183 67,557 88,162 515,597 Độ dài trung bình giao dịch 33.8 43 10.3 6.5 Ghi Modified Modified Modified Modified Do mức độ chênh lệch thời gian chạy thuật toán xếp cuối lớn so với hai thuật tốn cịn lại, nên để chung hình khơng thể rõ chênh lệch hai thuật toán xếp thứ thứ hai Vì chúng tơi tách hình đồ thị so sánh mặt thời gian chạy thành hình a hình b để dễ theo dõi so sánh Trong đó, hình a thể so sánh thuật tốn xếp thứ nhì với thuật tốn xếp thứ ba thuật tốn NFWI, WITFWIs-Diff IWS Hình b thể so sánh thuật toán xếp thứ với thuật toán xếp thứ hai WIT-FWIs-Diff NFWI IWS 250 4000 200 a 3000 Time(s) Time(s) WIT-FWIs-Diff 2000 100 1000 50 0 60 50 40 30 25 b 150 60 20 50 40 30 25 20 minws(%) minws(%) Hình So sánh thời gian chạy CSDL Accidents WIT-FWIs-Diff NFWI IWS 80 2500 2000 a 1500 Time(s) Time(s) WIT-FWIs-Diff 1000 b 60 40 20 500 0 98 94 90 85 80 75 98 94 minws(%) Hình So sánh thời gian chạy CSDL Connect 90 85 minws(%) 80 75 Bùi Danh Hường, Võ Đình Bảy, Nguyễn Duy Hàm WIT-FWIs-Diff IWS NFWI a 100 Time(s) Time(s) 150 253 50 0.4 0.2 80 60 40 20 0.1 IWS b minws(%) 0.4 0.2 0.1 minws(%) Hình So sánh thời gian chạy CSDL Retail WIT-FWIs-Diff IWS NFWI 800 a 2000 Time(s) Time(s) 3000 1000 IWS b 600 400 200 0 0.8 0.4 0.2 0.08 0.04 0.02 0.8 0.4 0.2 0.08 0.04 0.02 minws(%) minws(%) Hình So sánh thời gian chạy CSDL BMS-POS Hình 4a-7a cho thấy CSDL dày Accidents Connect thuật tốn WIT-FWIs-Diff hiệu IWS, ngược lại CSDL thưa Retail BMS-POS IWS hiệu WIT-FWIs-Diff Hình 4b-6b cho thấy thuật toán NFWI chạy nhanh WIT-FWIs-Diff CSDL dày, đồng thời nhanh IWS CSDL thưa Như thực nghiệm cho thấy NFWI chạy nhanh tất loại CSDL (dày thưa), đặc biệt ngưỡng nhỏ NFWI chiếm ưu so với WIT-FWIs-Diff IWS Hình 4b minh họa CSDL dày Accidents: với ngưỡng minws= 50% thời gian chạy NFWI 15.1s chậm so với thời gian chạy WIT-FWIs-Diff 10s, ngưỡng minws =40% thời gian NFWI 16.2s nhanh so với thời gian WIT-FWIs-Diff 17s Tiếp ngưỡng minws = 30% thời gian NFWI 17.4s so với WIT-FWIs-Diff 45.5s Trong bước này, thời gian NFWI tăng 1.2s (tăng 7.41%) thời gian WIT-FWIs-Diff tăng tới 28.5s (tăng 167.65%) Và với ngưỡng nhỏ mức độ chênh lệch tăng lên nhiều lần Hình 6b minh họa CSDL thưa Retails: với ngưỡng minws = 0.4% thời gian chạy NFWI 1.9s, IWS 5.5s Khi ngưỡng minws = 0.2% thời gian NFWI 2.8s (tăng 47.37%) cịn IWS 22.6s (tăng 310.91%) Tiếp theo ngưỡng minws = 0.1% thời gian NFWI 3.6s (tăng 28.57%) IWS 124.4s (tăng 450.44%) Và mức độ chênh lệch tiếp tục tăng lên ngưỡng nhỏ Phần lớn chi phí NFWI dùng để xây dựng WN ban đầu, chi phí tính giao WN-list phía sau nhỏ, lí giải thích cho việc NFWI chạy chậm ngưỡng lớn, ngưỡng nhỏ NFWI tỏ hiệu so với WIT-FWIs-Diff IWS VI KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Trong báo phát triển cấu trúc WN-list, mở rộng cấu trúc N-lists [8], để biểu diễn CSDL có trọng số Từ chúng tơi xây dựng thuật tốn NFWI để khai thác nhanh tập phổ biến có trọng số Sự hiệu thuật toán NFWI thu nhờ ưu điểm cấu trúc WN-list thừa kế từ cấu trúc N-list Các ưu điểm là: khả nén liệu cao khiến kích thước WN-list nhỏ, dễ dàng tính độ phổ biến trọng số thơng qua qt WN-list thuật tốn giao hai WN-list có độ phức tạp tuyến tính Các thực nghiệm nhiều loại CSDL cho thấy NFWI hoạt động hiệu thuật tốn khai thác FWI có Trong tương lai, tập trung vào việc áp dụng cấu trúc N-list số toán khai thác liệu khác khai thác tập phổ biến tiện ích cao hay khai thác tập phổ biến CSDL tăng trưởng 254 KHAI THÁC TẬP PHỔ BIẾN CÓ TRỌNG SỐ DỰA TRÊN CẤU TRÚC N-LIST TÀI LIỆU THAM KHẢO [1] R Agrawal, T Imielinski, and A Swami, "Mining association rules between sets of items in large databases," in SIGMOD '93 Proceedings of the 1993 ACM SIGMOD international conference on Management of data, 1993, pp 207-216 [2] R Agrawal, H Mannila, R Srikant, H Toivonen, and I A Verkamo, "Fast discovery of association rules," in Advances in knowledge discovery and data mining American Association for Artificial Intelligence Menlo Park, 1996, pp 307-328 [3] J Han, J Pei, and Y Yin, "Mining frequent patterns without candidate generation," in SIGMOD '00 Proceedings of the 2000 ACM SIGMOD international conference on Management of data, 2000, pp 1-12 [4] G Grahne and J Zhu, "Fast algorithms for frequent itemset mining using FP-trees," IEEE Transactions on Knowledge and Data Engineering, vol 17, no 10, pp 1347-1362, 2005 [5] M J Zaki, "Scalable algorithms for association mining," IEEE Transactions on Knowledge and Data Engineering, vol 12, no 3, pp 372-390, 2000 [6] M J Zaki and K Gouda, "Fast vertical mining using diffsets," in KDD '03 Proceedings of the ninth ACM SIGKDD international conference on Knowledge discovery and data mining, 2003, pp 326-335 [7] B Vo, L Hong, and B Le, "DBV-Miner: A Dynamic Bit-Vector approach for fast mining frequent closed itemsets," Expert Systems with Applications, vol 39, no 8, pp 7196-7206, 2012 [8] Z Deng, Z Wang, and J Jiang, "A new algorithm for fast mining frequent itemsets using N-lists," Science China Information Sciences, vol 55, no 9, pp 2008-2030, 2012 [9] B Vo, T Le, F Coenen, and T.-P Hong, "Mining frequent itemsets using the N-list and subsume concepts," International Journal of Machine Learning and Cybernetics, pp 1-13, 2014 [10] Z Deng and S Lv, "PrePost+: An efficient N-list-based algorithm for mining frequent itemsets via Children-Parent Equivalence pruning," Expert Systems with Applications, vol 42, no 13, pp 5424-5432, 2015 [11] G D Ramkumar, S Ranka, and S Tsur, "Weighted Association Rules: Model and Algorithm," in Proc Fourth ACM Int’l Conf Knowledge Discovery and Data Mining, 1998, pp 01-13 [12] C H Cai, A W C Fu, C H Cheng, and W W Kwong, "Mining association rules with weighted items," in Database Engineering and Applications Symposium, 1998 Proceedings IDEAS'98 International, 1998, pp 68-77 [13] F Tao, F Murtagh, and M Farid, "Weighted Association Rule Mining Using Weighted Support and Significance Framework," in KDD '03 Proceedings of the ninth ACM SIGKDD international conference on Knowledge discovery and data mining, 2003, pp 661-666 [14] B Vo, F Coenen, and B Le, "A new method for mining Frequent Weighted Itemsets based on WIT-trees," Expert Systems with Applications, vol 40, no 4, pp 1256-1264, 2013 [15] H D Nguyen, B Vo, M H T Nguyen, and T.-P Hong, "An Improved Algorithm for Mining Frequent Weighted Itemsets," in Systems, Man, and Cybernetics (SMC), 2015 IEEE International Conference on, 2015, pp 2579-2584 [16] R Rymon, "Search through systematic set enumeration," in In Proc Int'l Conf principles of knowledge representation and reasoning, 1992, pp 539-550 A WEIGHTED N-LIST-BASED METHOD FOR MINING FREQUENT WEIGHTED ITEMSETS Bui Danh Huong, Vo Dinh Bay, Nguyen Duy Ham ABSTRACT— Mining frequent itemsets plays an important role in data mining There have been many different methods proposed to solve this problem In particular, the N-list structure proposed by Deng et al (Deng, Wang, & Jiang, 2012) that use a hybrid approach between the FP-tree and enumerate-tree achieved encouraging efficiency However, this method operates only on binary databases In this paper, we proposed the WN-list (Weighted N-list) structure, an extension of the N-list structure, to solve the problem of mining frequent weighted itemsets from weighted database First, some theorems are developed to calculate the weight support of an itemset, and then, an algorithm is built based on these theorems for fast mining frequent weighted itemsets Experimental results on a variety of databases (sparse and dense) show that the proposed method outperforms existing methods, especially with the small threshold ... thuật toán khai thác FWI có Trong tương lai, chúng tơi tập trung vào việc áp dụng cấu trúc N-list số toán khai thác liệu khác khai thác tập phổ biến tiện ích cao hay khai thác tập phổ biến CSDL... rộng cấu trúc N-lists [8], để biểu diễn CSDL có trọng số Từ chúng tơi xây dựng thuật toán NFWI để khai thác nhanh tập phổ biến có trọng số Sự hiệu thuật tốn NFWI thu nhờ ưu điểm cấu trúc WN-list...248 KHAI THÁC TẬP PHỔ BIẾN CÓ TRỌNG SỐ DỰA TRÊN CẤU TRÚC N-LIST Phần lại báo trình bày sau: Phần trình bày nghiên cứu liên quan Phần trình bày cấu trúc WN-list, khái niệm, định

Ngày đăng: 26/11/2020, 00:23