Khai phá hiệu quả tập mục thường xuyên với trọng số thích nghi trên dòng dữ liệu

12 57 0
Khai phá hiệu quả tập mục thường xuyên với trọng số thích nghi trên dòng dữ liệu

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Bài viết trình bày việc xem xét lại mô hình khai phá tập mục thường xuyên với trọng số thích nghi trong cơ sở dữ liệu tĩnh và mô hình khai phá tập mục thường xuyên với trọng số trên dòng dữ liệu bằng cách sử dụng một độ đo mới để tỉa cây SAWFI-tree và các cây điều kiện hiệu quả hơn, và mở rộng việc khai phá TMTX với trọng số thích nghi hơn trên dòng dữ liệu.

JOURNAL OF SCIENCE OF HNUE Educational Sci., 2015, Vol 60, No 7A, pp 145-156 This paper is available online at http://stdb.hnue.edu.vn DOI: 10.18173/2354-1075.2015-0062 KHAI PHÁ HIỆU QUẢ TẬP MỤC THƯỜNG XUN VỚI TRỌNG SỐ THÍCH NGHI TRÊN DỊNG DỮ LIỆU Nguyễn Hưng Long, Nguyễn Thị Thu Thủy Khoa Hệ thống Thơng tin Kinh tế, Trường Đại học Thương mại Tóm tắt Bài báo đề xuất thuật toán SWFI-miner cho toán khai phá tập mục thường xuyên với trọng số thích nghi dòng liệu Trong báo này, chúng tơi xem xét lại mơ hình khai phá tập mục thường xuyên với trọng số thích nghi sở liệu tĩnh mơ hình khai phá tập mục thường xuyên với trọng số dòng liệu cách sử dụng độ đo để tỉa SAWFI-tree điều kiện hiệu hơn, mở rộng việc khai phá TMTX với trọng số thích nghi dòng liệu Qua phân tích đánh giá cho thấy thuật toán SWFI-miner thật hiệu khai phá tập mục thường xuyên với trọng số thích nghi dòng liệu Từ khóa: Khai phá liệu, tập mục thường xuyên, trọng số, trọng số thích nghi, dòng liệu Mở đầu Trong năm gần đây, khai phá liệu ngày trở nên cấp thiết với xuất ứng dụng thực tiễn Ở liệu xử lí khơng liệu tĩnh, mà liệu động, liên tục coi vơ hạn (khơng bị chặn) [1,3,4,6,9-12,14,15] Các liệu đến tạo thành dòng liệu (data stream) Một số ứng dụng thực tế sử dụng dòng liệu như: phân tích lưu lượng mạng (network traffic analysis), phát xâm nhập mạng (network intrusion detection), hay phân tích giao dịch trực tuyến (on-line transaction analysis), Có ba thách thức khai phá dòng liệu: Thứ nhất, để phát tập mục thường xuyên (TMTX) cần phải tìm kiếm khơng gian hàm mũ Thứ hai, liệu cập nhật liên tục không bị chặn dẫn đến hạn chế cho không gian nhớ để sử dụng Thứ ba, cần phải có thuật tốn khai phá hiệu để xử lí liệu nhanh tốt, đồng thời thuật toán phép quét liệu lần dòng liệu Gần đây, [5], Chowdhury F A cộng đề cập đến vấn đề trọng số thay đổi theo thời gian (trọng số thích nghi) sở liệu (CSDL) tĩnh Các tác giả cơng trình đề xuất mơ hình thuật tốn AWFPM (Adaptive Weighted Frequent Patterns Mining) khai phá TMTX với trọng số thích nghi CSDL, theo nghĩa trọng số mục thay đổi theo thời gian, từ lơ giao tác sang lô giao tác khác CSDL Tập mục gọi thường xuyên với trọng Ngày nhận bài: 7/7/2015 Ngày nhận đăng: 15/11/2015 Liên hệ: Nguyễn Hưng Long, e-mail: ntthlong@gmail.com 145 Nguyễn Hưng Long, Nguyễn Thị Thu Thủy số thích nghi có tổng độ hỗ trợ với trọng số lô lớn ngưỡng cho AWFPM sử dụng cấu trúc FP-tree (Frequency Pattern) để lưu trữ thông tin nén giao tác CSDL lên Việc tỉa thực cách sử dụng trọng số cực đại toàn cục trọng số cực đại địa phương Trong đó, trọng số cực đại toàn cục trọng số lớn tất mục CSDL khai phá, trọng số cực đại địa phương trọng số lớn mục CSDL điều kiện Tuy nhiên, việc sử dụng trọng số cực đại toàn cục trọng số cực đại địa phương để tỉa chưa thật hiệu Bởi vì, lần tính trọng số cực đại phải xét tới toàn giao tác CSDL cần khai phá hay CSDL điều kiện Trong [13], Tsai P S M đã đề xuất quy trình cho việc khai phá dòng liệu gọi mơ hình cửa sổ trượt với trọng số (Weighted sliding window model) Mô hình cho phép người sử dụng ấn định số cửa sổ cần khai phá kích thước chúng Tuy nhiên, tất mục lô lại gán cho trọng số Tsai P S M đề xuất hai thuật toán WSW WSW-Imp Hạn chế hai thuật toán WSW WSW-Imp xây dựng theo kiểu Apriori [2], sử dụng tính bao đóng xuống (downward closure property) TMTX: "Nếu tập mục TMTX tập TMTX") Như vậy, thuật toán phải quét CSDL nhiều lần để sinh tỉa tập mục ứng viên chứa tập TMTX Trong báo này, chúng tơi xem xét lại mơ hình khai phá TMTX với trọng số thích nghi CSDL tĩnh Chowdhury F A cộng [5] Chúng xem xét phát triển mơ hình khai phá TMTX với trọng số dòng liệu sử dụng cửa sổ trượt Tsai P S M [13] theo nghĩa trọng số tập mục thích nghi theo lơ dòng liệu đề xuất thuật tốn cải tiến SWFI-miner Thuật tốn SWFI-miner có số đóng góp sau: Thứ nhất, sử dụng độ đo cho phép tỉa SAWFI-tree điều kiện hiệu hơn, chúng tơi tính trọng số lớn mục theo lô xét Thứ hai, mở rộng việc khai phá TMTX với trọng số thích nghi (trọng số thay đổi theo thời gian) dòng liệu hiệu hơn, nhằm đáp ứng ứng dụng thực tiễn 2.1 Nội dung nghiên cứu Mơ hình tốn khai phá tập mục thường xuyên với trọng số thích nghi dòng liệu Sau chúng tơi dựa cách tiếp cận mơ hình khai phá TMTX với trọng số thích nghi CSDL tĩnh Chowdhury F A cộng [5], mơ hình khai phá TMTX với trọng số dòng liệu Tsai P S M [13] để phát triển, đề xuất toán khai phá TMTX với trọng số thích nghi dòng liệu Cho I tập mục, I = {i1 , i2 , , ik } Một tập mục X ⊆ I, gồm k mục phân biệt gọi k-tập mục hay tập mục độ dài k Để đơn giản, thay viết {i1 , i2 , , ir }đôi ta viết i1 i2 ir ; chẳng hạn, tập mục {a, b, c}được viết ngắn gọn abc Mỗi giao tác t = (T ID, X) T ID định danh X tập mục Một dòng liệu giao tác (CSDL giao tác) DS dãy giao tác, DS = {ti1 , ti2 , , tim , }, tij , i = 1, 2, ; j = 1, 2, giao tác đến thời điểm thứ i Một lô giao tác (hay lô) tập giao tác nhằm phản ánh thực tế quản lí (tùy thuộc ngữ cảnh) theo đơn vị thời gian (ngày, tháng, quý, năm, ) 146 Khai phá hiệu tập mục thường xun với trọng số thích nghi dòng liệu Một cửa sổ W dòng liệu giao tác xem tập lô xét thời điểm Giả sử thời điểm Ti (i = 1, 2, ), cửa sổ trượt W chia thành K lô Bij (i = 1, ; j = 1, 2, , K) mục lô gán trọng số riêng biệt, số thực không âm Định nghĩa Độ hỗ trợ với trọng số thích nghi tập mục X đại lượng AW supp(X), xác định K AW supp(X) = j=1 W(X, j) × F (X, j) (2.1) Trong W (X, j) trọng số X lơ thứ j tính trọng số trung bình mục lơ thuộc X, F (X, j) tần số xuất X lô thứ j thời điểm Ti Định nghĩa Độ hỗ trợ với trọng số tối thiểu dòng liệu DS, thời điểm Ti , xác định bởi: K ξ = minsupp × j=1 |Bij | × Wij (2.2) Trong |Bij | số giao tác Wij trọng số lô thứ j thời điểm Ti , minsupp độ hỗ trợ tối thiểu cho dòng liệu DS Định nghĩa Tập mục X gọi tập mục thường xun với trọng số thích nghi dòng liệu DS độ hỗ trợ với trọng số thích nghi X không nhỏ ngưỡng độ hỗ trợ với trọng số tối thiểu ξ, nghĩa là: AWsupp(X) ≥ ξ (2.3) Khi ta nói tập mục X thỏa ξ, trường hợp ngược lại tập mục X không thỏa ξ Định nghĩa Khai phá TMTX với trọng số thích nghi dòng liệu DS sử dụng mơ hình cửa sổ trượt tìm tập AWFI chứa tất TMTX với trọng số, tức tìm tập: AWFI = {X/X ⊆ I, AWsupp(X) ≥ ξ} (2.4) Giả sử T1 , có 12 giao tác, lơ B11 , B12 , B13 với trọng số mục lô Bảng độ hỗ trợ tối thiểu minsupp 30% Tại thời điểm T1 : Độ hỗ trợ với trọng số tối thiểu dòng liệu là: W 11 = 0.6; W 12 = 0.7; W 13 = 0.6; Nên ta được: K ξ = minsupp × j=1 |Bij | × W ij = 30% (0.6 × + 0.7 × + 0.6 × 5) = 2.25 Độ hỗ trợ với trọng số thích nghi tập mục "e" là: 147 Nguyễn Hưng Long, Nguyễn Thị Thu Thủy Bảng Dòng liệu thời điểm T1 Bảng Trọng số mục theo lô thời điểm T1 AW supp(e) = 0.3 × + 0.4 × + 0.4 × = 2.2; Vì AW supp(e) = 2.2 < ξ = 2.25, nên tập mục "e" không TMTX với trọng số thích nghi dòng liệu, hay nói cách khác "e" khơng thỏa ξ Độ hỗ trợ với trọng số thích nghi tập mục "de" là: AW supp(de) = 0.8 + 0.4 0.5 + 0.4 0.7 + 0.3 ×1+ ×2+ × = 2.6; 2 Vì AW supp(de) = 2.6 > ξ = 2.25, nên tập mục "de" TMTX với trọng số thích nghi dòng liệu, hay nói cách khác "de" thỏa ξ Nhận xét, qua ví dụ ta thấy TMTX với trọng số thích nghi dòng liệu định nghĩa khơng thỏa mãn tính chất Apriori Bởi lẽ, "e" khơng TMTX với trọng số thích nghi dòng liệu tập cha "de" lại TMTX với trọng số thích nghi dòng liệu Để có tính chất Apriori, đưa khái niệm TMTX với trọng số thích nghi cực đại tập mục TMTX với trọng số trước hết chúng phải TMTX với trọng số thích nghi cực đại Định nghĩa Tại thời điểm Ti , cho dòng liệu DS gồm K lơ X tập mục Khi đó, số đo 148 Khai phá hiệu tập mục thường xuyên với trọng số thích nghi dòng liệu K MAXAWsupp(X) = j=1 M AXW (j) × F (X, j) (2.5) gọi độ hỗ trợ với trọng số thích nghi cực đại X dòng liệu DS Với giá trị trọng số lớn mục X lơ thứ j Ví dụ: Xét dòng liệu thời điểm T1 Bảng trọng số mục theo lơ Bảng Ta có, K = 3, M AXW (1) = 0.8, M AXW (2) = 0.9, M AXW (3) = 0.8; tần số xuất "bd" lô 1, 2, Nên MAXAWsupp(bd) = 0.8 × + 0.9 × + 0.8 × = 4.1; Định nghĩa Tại thời điểm Ti , cho dòng liệu DS gồm K lơ X tập mục Với ngưỡng ξ tính (2), X gọi TMTX với trọng số thích nghi cực đại (2.6) MAXAWsupp(X) ≥ ξ Mệnh đề TMTX với trọng số thích nghi cực đại có tính chất Apriori, nghĩa X TMTX với trọng số thích nghi cực đại tập TMTX với trọng số thích nghi cực đại dòng liệu DS Chứng minh Tại thời điểm Ti ∀Y ⊆ X, ta có F (Y, j) ≥ F (X, j), j = 1, , K Suy K K j=1 MAXW(j) × F (Y, j) ≥ j=1 M AXW (j) × F (X, j) Hay M AXAW supp(Y ) ≥ M AXAW supp(X) Do đó, M AXAW supp(X) ≥ ξ Thì ta có M AXAW supp(Y ) ≥ ξ Mệnh đề Tại thời điểm Ti , cho dòng liệu DS X tập mục Nếu X TMTX với trọng số thích nghi X phải TMTX với trọng số thích nghi cực đại dòng liệu DS Chứng minh Tại thời điểm Ti ∀X ⊆ I, ta ln có M AXW (j) ≥ W (X, j) ∀ j = 1, , K Do đó, K j=1 W (X, j) × F (X, j) ≥ ξ có K j=1 M AXW (j) × F (X, j) ≥ ξ Các Mệnh đề Mệnh đề cho thấy TMTX với trọng số thích nghi cực đại có tính chất Apriori chúng ứng viên cho TMTX với trọng số thích nghi dòng liệu Do đó, để khai phá TMTX với trọng số thích nghi dòng liệu, thuật tốn SWFI-miner gồm hai cơng đoạn chính: Thứ nhất, tìm tất TMTX với trọng số thích nghi cực đại dòng liệu Thứ hai, từ tập TMTX với trọng số thích nghi cực đại, áp dụng (1) để xác định tập TMTX với trọng số thích nghi dòng liệu 149 Nguyễn Hưng Long, Nguyễn Thị Thu Thủy 2.2 Khai phá tập mục thường xuyên với trọng số thích nghi dòng liệu 2.2.1 Xây dựng cấu trúc SAWFI-tree Sử dụng kiểu xây dựng cấu trúc FP-tree [7,8], SAWFI-tree bao gồm bảng đầu mục Để xây dựng cấu trúc SAWFI-tree thuật tốn cần qt tồn dòng liệu lần Cây SAWFI-tree Gồm nút gốc gọi nút "null" (kí hiệu ) tập tiền tố nút gốc Các giao tác lô CSDL chèn lên theo thứ tự từ điển mục Ngoại trừ nút gốc, nút SAWFI-tree ghi lại tên mục mà đại diện, thông tin tần số xuất nút lơ đường từ gốc đến trỏ trỏ đến nút cha, nút con, nút tên Khi nút tạo việc chèn giao tác từ lô thứ k cửa sổ gồm K lơ, danh sách gồm K giá trị tần số K lô khởi tạo với giá trị vị trí thứ k, giá trị tất vị trí lại Ví dụ, cửa sổ gồm lô “b” nút xuất lần chèn giao tác từ lơ thứ hai, cấu trúc nút “b” b:0,1,0 Bảng đầu mục Bảng đầu mục lưu trữ mục theo thứ tự từ điển, thông tin trọng số, tần số mục trỏ trỏ đến nút tên SAWFI-tree Hình biểu diễn SAWFI-tree bảng đầu mục (để đơn giản hình chúng tơi khơng vẽ trỏ) Ta dễ dàng phát giao tác lô tần số xuất mục lô dòng liệu Chẳng hạn, giao tác {b, c, d, e} xuất lần lô thứ ba (B13 ) giao tác {b, c, d} xuất hai lần: lần lô thứ hai (B12 ) lần lô thứ ba (B13 ) (nằm nhánh thứ tư từ phải sang) Ta có số đếm hỗ trợ mục cửa sổ khai phá a:4, b:7, c:8, d:9 e:6 Hình Cây SAWFI-tree(d), điều kiện "e" 2.2.2 Thuật toán khai phá SWFI-miner Dưới số tính chất quan trọng SAWFI-tree chúng tơi sử dụng trình khai phá TMTX với trọng số thích nghi dòng liệu theo kiểu FP-growth [7,8] Tính chất Cấp cao SAWFP-tree độ dài giao tác dài dòng liệu 150 Khai phá hiệu tập mục thường xuyên với trọng số thích nghi dòng liệu Tính chất Tổng giá trị tần số lơ nút lớn tổng giá trị tần số nút Tính chất Tần số xuất lô mục tổng tần số tương ứng nút tên Tính chất Phân bố tần số lơ đường phân bố tần số nút hậu tố Tính chất Cây điều kiện mục cao theo thứ tự từ điển rỗng Sử dụng cách tiếp cận FP-growth [7,8], thủ tục SWFI-miner khai phá TMTX với trọng số thích nghi dòng liệu từ SAWFP-tree sau: Algorithm SWFI-miner; Input: (1) Ti thời điểm cần khai phá (2) Cây SAWFI-tree (3) Bảng trọng số mục theo lô (4) minsupp - độ hỗ trợ tối thiểu Output: L - Tập TMTX với trọng số thích nghi dòng liệu; Method: Tại thời điểm Ti Tính độ hỗ trợ với trọng số tối thiểu ξ theo (2); L = ∅; Từ Bảng đầu mục, xác định tập C1 tập 1-tập mục ứng viên thỏa ξ; L = C1 ; For each (mục σ Bảng đầu mục, theo thứ tự từ điển từ lên) Begin 6.1 Tạo có điều kiện cho mục σ tương ứng; 6.2 Thiết lập tập ứng viên; 6.3 Loại bỏ tập ứng viên có số đếm hỗ trợ không thỏa ξ; 6.4 Nhập tập ứng viên thỏa ξ vào L; 6.5 Xóa tất nút σ xét điều kiện; End; Tính độ hỗ trợ thực tế tập ứng viên theo (1) Theo (3), ta thu L tập TMTX thỏa ξ dòng liệu thời điểm Ti Return L Ví dụ: Cho dòng liệu Bảng 1, thời điểm T1 ,có 12 giao tác, lơ B11 , B12 , B13 với trọng số mục lô Bảng độ hỗ trợ tối thiểu minsupp 30% Tại thời điểm T1 Xây dựng SAWFI-tree, ta thu Hình Tính độ hỗ trợ với trọng số tối thiểu ξ: ξ = minsupp × K j=1 |Bij | × Wij = 2.25; Từ bảng đầu mục, ta có: M AXW (1) = 0.8; M AXW (2) = 0.9; M AXW (3) = 0.8; 151 Nguyễn Hưng Long, Nguyễn Thị Thu Thủy MAXAWsupp(a) = 0.8 × + 0.9 × + 0.8 × = 4.1; MAXAWsupp(b) = 5.7; MAXAWsupp(c) = 6.6; MAXAWsupp(d) = 7.5; MAXAWsupp(e) = 5.0; Tất mục đơn có giá trị M AXAW supp lớn ξ = 2.25, nên chúng không bị tỉa ứng viên đơn Vậy ta có L = {a, b, c, d, e} Xây dựng khai phá điều kiện mục theo thứ tự lên bảng đầu mục a) Xây dựng khai phá điều kiện "e" CSDL điều kiện mục "e" gồm nhánh tiền tố {ad : 1, 0, 0; a : 0, 0, 1; bcd : 0, 0, 1; bd : 1, 0, 0; cd : 0, 1, 0; d : 0, 1, 0} Từ CSDL điều kiện ta có SAWFI-tree(e) Hình 2(a) Vì CSDL điều kiện "e" có đầy đủ mục CSDL ban đầu nên M AXW (1) = 0.8, M AXW (2) = 0.9, M AXW (3) = 0.8 Từ bảng đầu mục ta có tần số xuất với "e" mục lô < a : 1, 0, 1; b : 1, 0, 1; c : 0, 1, 1; d : 2, 2, > Hình Cây SAWFI-tree, điều kiện "e" Sử dụng (5), ta tính độ hỗ trợ với trọng số thích nghi cực đại mục a : 1.6; b : 1.6; c : 1.7; d : 4.2 Với ξ = 2.25, có mục "d" khơng bị loại khỏi SAWFI-tree(e) Sau loại bỏ mục không thỏa ξ, giữ lại mục "d" ta có điều kiện mục "e" Hình 2(b) Từ điều kiện với bảng đầu mục, đồng thời sử dụng (5), ta thu 2-tập mục "de" độ hỗ trợ với trọng số thích nghi cực đại de : 4.2 , thỏa ξ Khai phá tiếp điều kiện "de", thu rỗng Vậy ta có tập ứng viên L = {a, b, c, d, e, de} b) Xây dựng khai phá điều kiện "d" CSDL điều kiện mục "d" bao gồm nhánh tiền tố {abc : 1, 0, 0; a : 1, 0, 0; bc : 0, 1, 2; b : 1, 0, 0; c : 0, 1, 1} Từ CSDL điều kiện ta có SAWFI-tree(d) Hình 3(a) Vì CSDL điều kiện "d" có mục "a", "b" "c" CSDL ban đầu nên M AXW (1) = 0.8, M AXW (2) = 0.9, M AXW (3) = 0.8 Từ bảng đầu mục ta có tần số xuất với "d" mục lô a : 2, 0, 0; b : 2, 1, 2; c : 1, 2, 152 Khai phá hiệu tập mục thường xuyên với trọng số thích nghi dòng liệu Hình Cây SAWFI-tree(d), điều kiện "d" "cd" Sử dụng (5), ta tính độ hỗ trợ với trọng số thích nghi cực đại mục a : 1.6; b : 4.1; c : 5.0 Với ξ = 2.25, mục "a" bị loại khỏi SAWFI-tree(d), ta thu điều kiện mục "d" Hình 3(b) Từ điều kiện này, đồng thời sử dụng (5), ta thu hai 2-tập mục ứng viên "bd" "cd" Tần số xuất 2-tập mục lô bd : 2, 1, 2; cd : 1, 2, độ hỗ trợ với trọng số thích nghi cực đại tương bd : 4.1; cd : 5.0 Các 2-tập mục thỏa ξ Vậy ta có, L = {a, b, c, d, e, de, bd, cd} Tiếp tục khai phá điều kiện "bd" rỗng khai phá điều kiện "cd" ta thu điều kiện Hình 3(c), với 3-tập mục "bcd" tần số xuất lô bcd : 1, 1, độ hỗ trợ với trọng số thích nghi cực đại bcd : 3.3 Vậy ta có, L = {a, b, c, d, e, de, bd, cd, bcd} c) Xây dựng khai phá điều kiện "c" CSDL điều kiện mục "c" có nhánh tiền tố {ab : 1, 0, 1; b : 1, 1, 2} Từ CSDL điều kiện ta có SAWFI-tree(c) Hình 4(a) Hình Cây SAWFI-tree(c), điều kiện "c" Vì CSDL điều kiện "c" có mục "a", "b" CSDL ban đầu nên M AXW (1) = 0.8, M AXW (2) = 0.9, M AXW (3) = 0.8; Từ bảng đầu mục ta có tần số xuất với "c" mục lô a : 1, 0, 1; b : 2, 1, Sử dụng (5), ta tính độ hỗ trợ với trọng số thích nghi cực đại mục a : 1.6; b : 4.9 Với ξ = 2.25, mục "a" bị loại khỏi 153 Nguyễn Hưng Long, Nguyễn Thị Thu Thủy SAWFI-tree(c), ta thu điều kiện mục "c" Hình 4(b) Từ điều kiện này, đồng thời sử dụng (5), ta thu 2-tập mục ứng viên "bc" Tần số xuất 2-tập mục lô bc : 2, 1, độ hỗ trợ với trọng số thích nghi cực đại bc : 4.9 , thỏa ξ Nên L = {a, b, c, d, e, de, bd, cd, bcd, bc} Tiếp tục khai phá điều kiện "bc" thu rỗng Vậy ta có, L = {a, b, c, d, e, de, bd, cd, bcd, bc} d) Xây dựng khai phá điều kiện "b" CSDL điều kiện mục "b" có nhánh tiền tố {a : 1, 0, 1} Từ CSDL điều kiện ta SAWFI-tree(b) có nút a:1,0,1 từ bảng đầu mục ta có tần số xuất với "b" mục lô a : 1, 0, độ hỗ trợ với trọng số thích nghi cực đại mục "a" a : 1.6 , với ξ = 2.25, mục "a" bị loại khỏi Vậy ta có, L = {a, b, c, d, e, de, bd, cd, bcd, bc} e) Xây dựng khai phá điều kiện "a" Theo Tính chất 5, ta thu rỗng Tính độ hỗ trợ thực tế tập ứng viên theo (1), loại bỏ tập khơng thỏa ξ Kết khai phá dòng liệu thời điểm T1 thu tập TMTX với trọng số thích nghi với độ hỗ trợ: 8.a : 2.6, b : 5.2, c : 5.2, d : 4.0, de : 2.6, L = 9.bd : 3.45, cd : 4.15, bcd : 2.8, bc : 4.2510 2.2.3 Thủ tục cập nhật SAWFI-tree Theo trình bày mục 3.1, việc tổ chức lưu trữ liệu dòng giao tác dạng cấu trúc SAWFI-tree cho phép ta dễ dàng cập nhật thơng tin (xóa giao tác lơ cũ nhất, bổ sung giao tác cho lô nhất), đáp ứng biến đổi nhanh dòng liệu thời điểm Để xóa thông tin lô cũ SAWFI-tree, ta cần thực sau: Trong danh sách giá trị tần số xuất nút, ví trí thứ j (1 < j ≤ K) giá trị tần số vị trí thứ j − thay giá trị vị trí thứ Tỉa tất nút mà giá trị tần số Các giao tác lô chèn lên thường lệ sau xóa bỏ thơng tin lơ cũ 2.3 Một số phân tích đánh giá Thuật tốn đề xuất có ưu điểm sau: Bước xây dựng SAWFI-tree cần duyệt lần toàn dòng liệu Đặc biệt, bước cập nhật duyệt lần lô để chèn giao tác lên Việc xây dựng cấu trúc cần duyệt dòng liệu lần Cây SAWFI-tree có cấu trúc giống FP-tree, dễ dàng xây dựng xử lí khai phá Bản chất cấu trúc SAWFI-tree(x) kết phép chiếu SAWFI-tree cho mục liệu x Như vậy, với cách làm "chia để trị" toán lớn thành nhiều toán nhỏ đơn giản với xử lí tương tự Dễ thấy, chi phí chèn giao tác T lên O(|T ∩ C|), với C tập mục có khả TMTX với trọng số cực đại 154 Khai phá hiệu tập mục thường xuyên với trọng số thích nghi dòng liệu Khơng kể nút gốc, chiều cao SAWFI-tree có cận (Với N = |I| số mục dòng liệu) Vì thơng thường giao tác chèn lên tương ứng với nhánh cây, giao tác có phần tiền tố giống có đường chung cây, chiều cao số mục có độ dài lớn mà TMTX với trọng số thích nghi cực đại, tức M ax {|T ∩ C|} ≤ N T ∈DS T ∈DS T ∈DS |T ∩ C| ≤ N × M Khơng kể nút gốc, kích thước (số nút) có cận |T ∩ C| ≤ N × M với M = |DS| số giao tác dòng liệu Lí là: (1) Trường hợp tốt nhất, tất M ax {|T ∩ C|} ≤ N giao tác có chung mục (nghĩa tất giao T ∈DS tác dòng liệu tập giao tác có độ dài lớn nhất), SAWFI-tree có nhánh, số nút số nút nhánh (2) Trường hợp xấu nhất, giao tác khơng chứa chung tập mục nào, số nút tối đa của tổng sô mục xuất giao tác Cũng giao tác thường chia sẻ với số nút cây, nên kích thước SAWFI-tree thường nhỏ kích thước dòng liệu Dòng liệu dày kích thước SAWFI-tree nhỏ Đồng thời, SAWFI-tree(x) có kích thước khơng lớn kích thước SAWFI-tree Cây SAWFI-tree xây dựng có cấu trúc giống FP-tree [7,8], nên việc khai phá TMTX với trọng số thích nghi cực đại, trọng số thích nghi dòng liệu khả thi hiệu Thuật toán AWFI-miner phát triển dựa phương pháp khai phá thuật toán FP-growth [7,8] nên chắn đảm bảo tính dừng hiệu Kết luận Bài báo đề xuất độ đo độ (độ hỗ trợ với trọng số thích nghi cực đại) (5) cho phép tỉa SAWFI-tree điều kiện hiệu đề xuất bởi Chowdhudy F A cộng [5] Bài báo mở rộng việc khai phá TMTX với trọng số thích nghi cho dòng liệu Trong [13], Tsai P S M đề xuất gán trọng số cho lơ (có nghĩa tất các tập mục giao tác lơ gán trọng số nhau), đề xuất mục lô gán trọng số khác nhau, trọng số tập mục tính trung bình trọng số tham gia tập mục Với phân tích, đánh giá nói thuật toán SWFI-miner thuật toán hiệu để khai phá TMTX với trọng số thích nghi dòng liệu TÀI LIỆU THAM KHẢO [1] Aggarwal C (Ed.), 2007 Data Streams: Models and algorithms Springer [2] Agrawal R., Srikant, R., 1994 Fast Algorithms for Mining Association Rules In: 20th Int Conf on Very Large Data Bases (VLDB), pp 487-499 [3] Aneri P., Chaudhari M B., 2014 Frequent pattern mining of continuous data over data streams Int Jour for Technology Research Engineering, Vol 1, Issue 9, pp 935-940 [4] Chi Y., Wang H., Yu P S., Muntz R R., 2006 Catch the moment: Maintaining closed frequent itemsets over a data stream sliding window Knowledge and Information Systems, 155 Nguyễn Hưng Long, Nguyễn Thị Thu Thủy Vol 10, No 3, pp 265-294 [5] Chowdhury F A., Syed K T., Byeong-Soo J., Young-Koo L., 2008 Mining Weighted Frequent Patterns Using Adaptive Weights In: Fyfe et al (Eds.): IDEAL 2008, LNCS 5326, 2008, 258-265 [6] Fan W., Huang Y., Wang H., Yu, P S., 2004 Active mining of data streams In: Proceedings of the Fourth SIAM Int Conf on Data Mining, pp 457-461 [7] Han J., Kamber M., 2000 Data Mining: Concepts and Techniques Morgan Kanufmann [8] Han J., Pei J., Yin Y., Mao R., 2004 Mining frequent patterns without candidate generation: a frequent-pattern tree approach Data Mining and Knowledge Discovery 8, pp 53-87 [9] Kuen-Fang J., Chao-Wei L., 2010 A sliding-window based adaptive approximating method to discover recent frequent itemsets from data streams Proc of the Int Multiconference of Engineering and Computer Scientists (IMECS 2010), Vol I, March 17-19, Hong Kong [10] Li Su, Hong-yan Liu, 2011 A new classfication algorithm for data stream Int Jour Modern Education and Computer Science, Vol 3, No 4, pp, 32-39 [11] Reshma Yusuf B., Chenna Reddy B., Mining data stream using option trees, Int Jour Network and Information Security, Vol 4, No 8, pp 49-54, (2012) [12] Shaik H., Murthy J V R., Anuradha Y., Chandra M., 2012 Mining frequent patterns from data streams using dynamic DP-tree Int Jour of Computer Applications, Vol 52, No 19, pp 23-27 [13] Tsai P S M., 2009 Mining frequent itemsets in data streams using the weighted sliding window model Expert Systems with Applications, pp 11617-11625 [14] Wang J., Zeng Y., 2012 SWFP-Miner: An efficient algorithm for mining weight frequent pattern over data streams High Technology Letters, Vol 3, No 3, pp 289-294 [15] Younghee K., Wonyoung K., Ungmo K., 2010 Mining frequent itemsets with normalized weight in continuous data streams Journal of Information Processing Systems, Vol 6, No 1, pp 79-90 ABSTRACT Eficient Mining frequent itemsets with adaptive weights over data streams The SWFI-miner algorithm has been proposed for mining the frequent index itemsets with adaptive weights over data streams In this paper, we have proposed a new measurement unit to prune the SAWFI-tree and conditional trees We also expand the algorithm from mining frequent itemsets with adaptive weights in a static database to the one over data streams These are based on the models derived from Chowdhury F A et al [5] and Tsai P S M [13] By analysis and evaluation of samples, the proposed algorithm of the SWFI-miner shows better performance in mining frequent itemsets with adaptive weights over data streams Keywords: Data Mining, frequent itemsets, weights, adaptive weights, data stream 156 ... TMTX với trọng số thích nghi dòng liệu tập cha "de" lại TMTX với trọng số thích nghi dòng liệu Để có tính chất Apriori, chúng tơi đưa khái niệm TMTX với trọng số thích nghi cực đại tập mục TMTX với. .. trình khai phá TMTX với trọng số thích nghi dòng liệu theo kiểu FP-growth [7,8] Tính chất Cấp cao SAWFP-tree độ dài giao tác dài dòng liệu 150 Khai phá hiệu tập mục thường xuyên với trọng số thích. .. hình khai phá TMTX với trọng số thích nghi CSDL tĩnh Chowdhury F A cộng [5], mơ hình khai phá TMTX với trọng số dòng liệu Tsai P S M [13] để phát triển, đề xuất toán khai phá TMTX với trọng số thích

Ngày đăng: 13/01/2020, 02:35

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan