Cải tiến hiệu suất của thuật toán khai thác mẫu tuần tự với ràng buộc trọng số khai thác top k mẫu tuần tự p3

10 5 0
Cải tiến hiệu suất của thuật toán khai thác mẫu tuần tự với ràng buộc trọng số khai thác top k mẫu tuần tự p3

Đang tải... (xem toàn văn)

Thông tin tài liệu

MẪU 14KHCN 18 CHƯƠNG 3 KHAI THÁC TOP K CHUỖI TUẦN TỰ ĐÓNG Bài toán khai thác các mẫu tuần tự đóng (CSP – Closed Sequential Pattern) là một nhiệm vụ thiết yếu trong khai thác dữ liệu, với nhiều ứng dụng khác nhau Nó được đề xuất sử dụng để giải quyết các khó khăn trong bài toán khai thác mẫu tuần tự từ CSDL chuỗi rất lớn hoặc ngưỡng minsup thấp Tuy nhiên, để tạo ra đúng số lượng CSP mà người dùng mong muốn là rất khó và điều này cần nhiều thời gian để tùy chỉnh các giá trị minsup cho phù hợp Để.

CHƯƠNG KHAI THÁC TOP-K CHUỖI TUẦN TỰ ĐÓNG Bài tốn khai thác mẫu đóng (CSP – Closed Sequential Pattern) nhiệm vụ thiết yếu khai thác liệu, với nhiều ứng dụng khác Nó đề xuất sử dụng để giải khó khăn tốn khai thác mẫu từ CSDL chuỗi lớn ngưỡng minsup thấp Tuy nhiên, để tạo số lượng CSP mà người dùng mong muốn khó điều cần nhiều thời gian để tùy chỉnh giá trị minsup cho phù hợp Để khắc phục vấn đề này, toán khai thác top-k CSP đề xuất k số lượng CSP mà người dùng mong muốn (k CSP có giá trị hỗ trợ cao CSDL chuỗi) 3.1 Giới thiệu Quá trình khai thác CSPs tạo số CSP thường nhỏ số lượng mẫu tuần tự, đó, làm giảm đáng kể số lượng mẫu tạo trình khai thác mà không làm thông tin Vì dựa tính chất tập đóng tìm thấy tập đầy đủ mẫu từ tập CSP Một số nhà nghiên cứu đề xuất thuật toán để khai thác CSP [17, 27, 28, 32, 36, 37] Năm 2003, Yan et al giới thiệu thuật toán CloSpan [37], tương tự CLOSET [26] CHARM [42], đồng thời thuật toán áp dụng phương pháp kiểm tra trì ứng viên để kiểm tra xem mẫu tìm thấy có phải mẫu đóng hay khơng Tuy nhiên, có nhiều CSP khai thác, CloSpan cần nhiều nhớ để kiểm tra đóng mẫu lượng lớn khơng gian tìm kiếm để trì tập hợp ứng cử viên chuỗi đóng lịch sử Năm 2004, Wang et al đề xuất thuật toán BIDE [36] để khai thác CSP Thuật toán áp dụng lược đồ có tên BI-Directional Extension để kiểm tra chuỗi đóng phương pháp cắt bỏ BackScan để giảm không gian tìm kiếm, bên cạnh kỹ thuật tối ưu hóa ScanSkip sử dụng để tạo tập tất CSP mà khơng cần trì ứng viên Tuy nhiên, thuật toán BIDE tiêu tốn nhiều thời gian để quét CSDL chiếu Thuật toán FCSM-PD [17] đề xuất Huang cộng sự; thuật toán sử dụng vị trí liệu để bảo tồn thơng tin vị trí mục chuỗi liệu Việc mở rộng vị trí chuỗi tiền tố kiểm tra trực tiếp thơng tin vị trí tất chuỗi tiền tố ghi lại trình tăng trưởng mẫu Tuy nhiên, q trình tăng trưởng mẫu, thuật tốn FCSM-PD u cầu nhiều nhớ để lưu tất thông tin vị trí chuỗi tiền tố Năm 2016, Pham et al [28] đề xuất phương pháp khai thác CSP từ CSDL chuỗi Phương pháp thêm trường IsCSP vào nút tiền tố áp dụng định nghĩa mẫu đóng để kiểm tra xem mẫu có phải mẫu đóng hay khơng Bên cạnh đó, để giảm thời gian cần thiết trình tìm chuỗi ứng viên kiểm tra tần suất cho ứng viên, cách tiếp cận sử dụng phương pháp mã hóa khối nguyên tố Huynh cộng [19] đề xuất thuật tốn pDBV-FCSP để tìm CSP cách áp dụng phương pháp tiếp cận 18 véctơ bit động song song Phương pháp sử dụng kiến trúc xử lý đa lõi cấu trúc liệu DBV để khai thác CSP từ CSDL lớn Năm 2017, Le et al [21] giới thiệu thuật toán gọi FCloSM để khai thác CSP Thuật toán dựa điều kiện loại bỏ sớm mở rộng sử dụng kỹ thuật cắt bỏ sớm để xóa mẫu CSP mà không cần thực kiểm tra quan hệ cha-con mức thứ hai tiền tố Các thuật toán để khai thác CSP từ CSDL chuỗi đề cập yêu cầu ngưỡng hỗ trợ tối thiểu minsup người dùng định nghĩa Tuy nhiên, ứng dụng thực tế, người dùng khó chọn lựa giá trị minsup thích hợp để tạo số lượng CSP mà người dùng mong muốn Nếu không, thuật tốn tạo số lượng q mẫu có ý nghĩa hay q nhiều mẫu vơ nghĩa, điều quan trọng tài nguyên lưu trữ xử lý có giới hạn Để giải vấn đề này, thuật toán khai thác theo hướng top-k mẫu đóng nghiên cứu đề xuất; đó, k số mẫu đóng có độ hỗ trợ cao mà người dùng mong muốn thuật tốn tìm kiếm trả mà khơng cần tính tốn để xác định minsup Giải pháp không để khai thác top-k mẫu [9, 5] top-k CSP [33], mà hiệu nhiều lĩnh vực khai thác liệu khác khai thác top-k luật kết hợp [ 3, 24], top-k luật [7] top-k tập phổ biến [22] Năm 2005, Tzvetkov, cộng [33] đề xuất thuật toán TSP (Mining TopK Closed Sequential Patterns) để khai thác top-k mẫu phổ biến đóng mà khơng u cầu người dùng ngưỡng hỗ trợ tối thiểu minsup thuật toán xây dựng theo hướng tiếp cận phát triển mẫu dựa thuật toán PrefixSpan [25], nghĩa thuật toán thực duyệt CSDL để tìm mẫu chứa phần tử, xét chuỗi tiền tố chiếu chuỗi hậu tố tương ứng chúng vào CSDL chiếu Lợi ích hướng tiếp cận CSDL chiếu (projection-based) xem xét mẫu xuất CSDL mà không thực việc kiểm tra phát sinh mẫu [9] Đây thuật toán tốt đề xuất cho toán khai thác top-k CSP Tuy nhiên, thuật toán TSP dùng phương pháp lặp lặp lại việc duyệt/ chiếu CSDL nhiều lần nên phải tốn chi phí chi phí cao CSDL dày đặc có nhiều phép chiếu thực Thuật toán TKS [9] Fournier-Viger đề xuất năm 2013 sử dụng CSDL bitmap dọc để biểu diễn liệu sử dụng thủ tục thuật toán SPAM [2] để tạo ứng viên ban đầu; tiến hành tìm mở rộng mẫu, đồng thời áp dụng vài chiến lược để tăng hiệu khai thác k mẫu phổ biến Hiện nay, xem thuật toán đại diện tốt cho hướng tiếp cận khai thác Top-k mẫu phổ biến Để nâng cao hiệu suất toán khai thác top-k CSP đề xuất Tzvetkov, cộng [33], đề tài đề xuất sử dụng biểu diễn CSDL bitmap dọc thay 19 cho CSDL chiếu, mục phần vectơ có độ dài cố định tổng số tập mục CSDL Bên cạnh đó, để giảm khơng gian tìm kiếm tăng hiệu khai thác top-k CSP, đề tài đề xuất áp dụng số chiến lược hiệu như: - Ln lấy mẫu có độ hỗ trợ lớn để mở rộng tạo mẫu ứng viên - Sử dụng danh sách để lưu trữ mẫu xếp theo giá trị hỗ trợ tăng dần - Tăng giá trị minsup giá trị hỗ trợ mẫu danh sách top-k CSP có giá trị hỗ trợ nhỏ 3.2 Định nghĩa • CSDL bitmap dọc Cho CSDL chuỗi D chứa q item m chuỗi (sequence), size(i) số itemset chuỗi thứ i CSDL bitmap dọc D, ký hiệu V(D) định nghĩa tập q bit vec-tơ có kích thước - , cho: Mỗi item x có bit vec-tơ tương ứng bv(x) Nếu item x xuất itemset thứ p chuỗi thứ t D bit thứ bit vec-tơ bv(x) gán 1, ngược lại • Cấu trúc PMAP (Precedence Map): - Item i trình bày danh sách ba theo mẫu với m số chuỗi chứa i, j j xuất sau i CSDL x-extension (x  {i, s}) - Item i xuất sau item j chuỗi 〈A1, A2, …, An〉 s-extension j Ax i Ay với x, y số nguyên ≤ x < y ≤ n - Item i xuất sau item j chuỗi 〈A1, A2, …, An〉 i-extension i, j Ax với x số nguyên, ≤ x ≤ n i lớn j theo thứ tự từ điển 3.3 Thuật toán khai thác top-k mẫu đóng Trong hình 3.1 mơ tả thuật toán đề tài đề xuất để khai thác top-k CSP gọi TKCS (Top-K Closed Sequences) Thuật toán sử dụng CSDL biểu diễn theo dạng bitmap dọc [2, 9] sử dụng thủ tục tạo ứng viên thuật toán SPAM [2] để mở rộng mẫu Thuật toán áp dụng định nghĩa mẫu đóng để kiểm tra xem mẫu ứng viên có đóng hay khơng Bên cạnh đó, thuật toán áp dụng số chiến lược để tăng hiệu khai thác quy trình mẫu khép kín topk, chẳng hạn như: - Ln lấy mẫu có hỗ trợ lớn mở rộng trước tiên để tạo mẫu ứng viên, mở rộng mẫu có hỗ trợ lớn tạo mẫu thường có giá trị hỗ trợ cao 20 - Đặt minsup giá trị hỗ trợ mẫu có giá trị hỗ trợ thấp danh sách top-k CSP Chiến lược tăng giá trị minsup nhanh cắt bớt không gian tìm kiếm Input: Sequence database as SD, k value Output: L: Set of top-k closed sequential patterns TKCS(SD,k) R := Ø L := Ø minsup := Scan sequence database SD to create V(SD) Set Sinit be the list of items in V(SD) FOR each item s ∈ Sinit, IF s is frequent according to bv(s) THEN SAVE_CSP (s, L, k, minsup) R := R U {} WHILE ∃ ∈ R AND sup(r) ≥ minsup DO Select the tuple that has the pattern r with the maximum support value in R EXTENSION_PAT(r, S1, S2, L, R, k, minsup) Remove from R Remove all tuples ∈ R | sup(r) < minsup from R RETURN L // The candidate generation procedure EXTENSION_PAT(pat, Sn, In, L, R, k, minsup) Stemp := Itemp := Ø FOR each i ∈ Sn, IF (pat, {i}) is frequent THEN Stemp := Stemp U {i} FOR each i∈ Stemp, SAVE_CSP ((pat,{i}), L, k, minsup) R := R U {} FOR each j ∈ In, IF (pat U {j}) is frequent THEN Itemp := Itemp U {j} FOR each j ∈ Itemp, SAVE_CSP((pat U {j}), L, k, minsup) R := R U {} //The save a closed sequential pattern procedure SAVE_CSP(r, L, k, minsup) IF |L| < k AND sup(r)  minsup THEN FOR each sequential s ∈ L IF (sup(s) = sup(r) AND s r) THEN Remove s from L L := L U {r} IF (sup(s)  sup(r)) THEN L := L U {r} IF |L|  k AND sup(r)  minsup THEN WHILE |L| > k AND ∃s ∈ L | sup(s) = minsup Remove s from L FOR each sequential s ∈ L IF (sup(s) = sup(r) AND s r) THEN Remove s from L L := L U {r} IF (sup(s)  sup(r)) THEN L := L U {r} Set minsup equal to the support of sequential pattern in L that have the minimum support value Hình 3.1 Thuật tốn TKCS 21 3.4 Đánh giá kết thực nghiệm Kết thực nghiệm thuật toán TKCS để khai thác top-k mẫu đóng mà đề tài đề xuất so sánh với thuật toán TSP [33] Các kết thực nghiệm thực máy tính Intel (R), Core (TM) i3-2370M CPU 2.40 GHz, 4Gb RAM hệ điều hành Windows 10 với ngơn ngữ lập trình Java CSDL sử dụng thực nghiệm liệu chuẩn tải trực tiếp từ trang http://fimi.ua.ac.be/data/ Đây địa chứa tập liệu tin cậy cộng đồng nghiên cứu khai thác mẫu sử dụng để kiểm chứng thực nghiệm thuật toán đề xuất Đặc điểm liệu sử dụng thực nghiệm trình bày bảng 3.2 Bảng 3.3 Bộ CSDL chạy thực nghiệm thuộc tính liên quan Kết thực nghiệm thuật toán TKCS TSP với liệu bảng 3.3 k = 50, 100 , 200, 300, 400 thể bảng 3.4 hình từ hình 3.2 đến hình 3.7 22 Bảng 3.4 Sử dụng nhớ TKCS TSP Sequence database Sign Leviathan Bible FIFA BmsWebView1 BmsWebView2 Number of k patterns Memory usage (MB) TKCS TSP (1) (2) Ratio (1)/(2) % 50 109 281 39 100 163 285 57 200 240 290 83 300 250 293 85 400 260 300 87 50 250 318 79 100 320 384 83 200 435 522 83 300 590 668 88 400 680 906 75 50 363 574 63 100 399 695 57 200 450 872 52 300 550 895 61 400 661 950 70 50 278 560 50 100 429 743 58 200 556 789 70 300 630 851 74 400 759 935 81 50 72 183 39 100 129 298 43 200 178 319 56 300 219 368 60 400 293 422 69 50 206 273 75 100 253 336 75 200 350 411 85 300 412 493 84 400 550 583 94 23 Hình 3.2 Thời gian thực thi TKCS TSP CSDL Sign Hình 3.3 Thời gian thực thi TKCS TSP CSDL Leviathan 24 Hình 3.4 Thời gian thực thi TKCS TSP CSDL Bible Hình 3.5 Thời gian thực thi TKCS TSP CSDL FIFA 25 Hình 3.6 Thời gian thực thi TKCS TSP CSDL BmsWebView1 Hình 3.7 Thời gian thực thi TKCS TSP CSDL BmsWebView2 26 • Sử dụng nhớ: Việc sử dụng nhớ thuật toán TKCS TSP tập liệu Sign, Leviathan, Bible, FIFA, BmsWebView1, BmsWebView2 trình bày Bảng 3.4 cho giá trị k Các kết thử nghiệm cho thấy việc sử dụng nhớ thuật tốn TKCS ln thấp nhiều so với thuật toán TSP tất CSDL có số lượng k-CSP khác Ví dụ, CSDL Bible, k = 200, mức sử dụng nhớ TKCS TSP 450 MB 872 MB, tỷ lệ TKCS TSP 52% • Thời gian thực thi Với kết chạy thực nghiệm trong hình từ hình 3.2 đến 3.7 cho thấy thời gian thực thi thuật toán TKCS nhanh nhiều so với thuật toán TSP tất CSDL với số lượng k-CSP khác nhau, đặc biệt người dùng chọn số lượng k mẫu cần tìm lớn thời gian thực thi TKCS nhanh so với TSP nhiều Ví dụ, với CSDL Sign k = 50 ta thấy thời gian thực thi TKCS nhanh gấp 1.7 lần so với TSP, đặc biệt tăng k=400 điều thể rõ thời gian chạy, cụ thể TKCS nhanh gấp 2.3 lần so với TSP Với CSDL khác độ chênh lệch thời gian khác Đối với CSDL lớn có nhiều item thời gian thực thi TSP chậm so với liệu có item Ví dụ, hình 3.3 với mẫu k = 50 TSP có thời gian chạy lâu gấp 3.9 so với TKCS, với k = 400 gấp 6.1 lần Như dựa kết thực nghiệm cho ta thấy thực thi CSDL lớn có số lượng item nhiều thời gian thực thi thuật toán TKCS tốt nhiều so với TSP 27 ... chiến lược để tăng hiệu khai thác k mẫu phổ biến Hiện nay, xem thuật toán đại diện tốt cho hướng tiếp cận khai thác Top-k mẫu phổ biến Để nâng cao hiệu suất toán khai thác top-k CSP đề xuất Tzvetkov,... minsup Giải pháp không để khai thác top-k mẫu [9, 5] top-k CSP [33], mà hiệu nhiều lĩnh vực khai thác liệu khác khai thác top-k luật kết hợp [ 3, 24], top-k luật [7] top-k tập phổ biến [22] Năm... i-extension i, j Ax với x số nguyên, ≤ x ≤ n i lớn j theo thứ tự từ điển 3.3 Thuật tốn khai thác top-k mẫu đóng Trong hình 3.1 mơ tả thuật tốn đề tài đề xuất để khai thác top-k CSP gọi TKCS (Top-K Closed

Ngày đăng: 18/06/2022, 14:58

Tài liệu cùng người dùng

Tài liệu liên quan