Cải tiến thuật toán khai phá dữ liệu tuần tự CMSPAM cho trường hợp dữ liệu thưa

9 64 0
Cải tiến thuật toán khai phá dữ liệu tuần tự CMSPAM cho trường hợp dữ liệu thưa

Đang tải... (xem toàn văn)

Thông tin tài liệu

Bài viết sẽ phân tích ưu nhược điểm của các thuật toán và đề xuất một cải tiến cho thuật toán CMSPAM. Thuật toán cải tiến được đặt tên là CMSPAME cho hiệu quả tốt hơn đối với trường hợp dữ liệu thưa và vẫn giữ nguyên được hiệu năng như thuật toán CMSPAM trong các trường hợp khác.

CẢI TIẾN THUẬT TOÁN KHAI PHÁ DỮ LIỆU TUẦN TỰ CMSPAM CHO TRƯỜNG HỢP DỮ LIỆU THƯA Nguyễn Mạnh Sơn *, Đặng Ngọc Hùng+ * Khoa CNTT1 – Học Viện Cơng Nghệ Bưu Chính Viễn Thơng Email: sonnm@ptit.edu.vn + Khoa CNTT1 – Học Viện Cơng Nghệ Bưu Chính Viễn Thơng Email: hungdn@ptit.edu.vn Abstract — Khai phá mẫu (SPM) ứng dụng rộng rãi toán thương mại điện tử định Các thuật toán SPM tiêu biểu áp dụng nhiều hệ thống tư vấn, dự báo … GSP, SPAM, CMSPAM Bài báo phân tích ưu nhược điểm thuật toán đề xuất cải tiến cho thuật toán CMSPAM Thuật toán cải tiến đặt tên CMSPAME cho hiệu tốt trường hợp liệu thưa giữ nguyên hiệu thuật toán CMSPAM trường hợp khác Keywords— Khai phá liệu tuần tự, SPM, cải tiến CMSPAM, thuật toán CMSPAME I GIỚI THIỆU Bài toán khai phá mẫu (Sequential Pattern Mining - SPM) R Agrawal R Srikant giới thiệu vào năm 1995 [1] Cho tập dãy tuần tự, dãy bao gồm tập giao dịch, giao dịch bao gồm tập phần tử, ngưỡng phổ biến (minsup), khai phá mẫu tìm tất chuỗi (subsequence) phổ biến, dãy xuất tập liệu với tần số không nhỏ ngưỡng phổ biến SPM ngày sử dụng rộng rãi thương mại điện tử (phân tích, dự báo xu hướng mua sắm, quản lý kho hàng, …) ứng dụng hiệu cho Số 02 & 03 (CS.01) 2017 nhiều lĩnh vực khác phân tích DNA, tư vấn điều trị bệnh, dự báo thiên tai, phân tích mẫu truy cập website … Phần lớn thuật toán ban đầu cho toán khai phá mẫu dựa tính chất Apriori sử dụng khai phá luật kết hợp ([1],[2],[3]) Tính chất cho rằng: mẫu (sub-pattern) mẫu phổ biến (frequent pattern) mẫu phổ biến Dựa tính chất này, nhiều thuật toán đề xuất như: AprioriAll, AprioriSome, DynamicSome (Agrawal Srikan 1995), GSP (Skrikant Agrawal 1996) với phương pháp định dạng nhớ theo chiều ngang (horizontal database format) ([2],[3]) Tuy nhiên CSDL ngày lớn, phương pháp định dạng nhớ theo chiều ngang tỏ thiếu hiệu [3] Các phương pháp định dạng nhớ theo chiều dọc (vertical database format) mà tiêu biểu thuật toán SPAM (Sequential PAttern Mining using A Bitmap Representation) [4] với ý tưởng sử dụng bitmap để lưu trữ CSDL đồng thời hỗ trợ tính tốn giá trị hỗ trợ mà quét lại CSDL Các thử nghiệm cho thấy SPAM tìm tồn kết trùng khớp với thuật toán GSP với tốc độ nhanh đáng kể [4] Các thuật toán sử dụng bitmap sau TẠP CHÍ KHOA HỌC CƠNG NGHỆ THƠNG TIN VÀ TRUYỀN THÔNG 71 CMSPAM(2014) CMSPADE(2014) dựa ý tưởng SPAM ([5],[6],[7]) Cơ sở liệu bitmap theo chiều dọc (Vertical Database Bitmap-VDB) hiểu đơn giản CSDL mà hàng đại diện cho item đưa danh sách thứ tự xuất item CSDL Thuật tốn SPAM có điểm đáng ý [4]: SPAM sử dụng bitmap để lưu trữ sở liệu theo chiều dọc: đặc điểm giúp tính tốn giá trị hỗ trợ cho item cách nhanh chóng mà khơng cần duyệt lại toàn sở liệu thuật toán sử dụng sở liệu theo chiều ngang Việc sử dụng bitmap để lưu trữ liệu giúp giảm kích thước nhớ tăng khả tính tốn cho phép cắt tỉa chuỗi thuật toán SPAM sử dụng phép mở rộng S-step, I-Step phép cắt tỉa S-Step Pruning, IStep Pruning để tăng tốc độ xử lý Phương pháp giúp cho thuật tốn sinh ứng cử viên đảm bảo tính xác SPAM kiểm tra ứng cử thỏa mãn giá trị minsup cách nhanh chóng thơng qua phép tốn dãy bit Tập ứng cử thuật toán SPAM chưa tối ưu Tuy giảm thiểu số lượng lớn ứng viên sinh sau bước nhờ phép mở rộng, tập ứng cử thuật toán SPAM chứa nhiều giá trị không phổ biến, không xuất CSDL Năm 2014 nhà khoa học P FournierViger, A Gomariz, M Campos Rincy Thomas đề xuất thuật tốn có tên CMSPAM, khắc phục nhược điểm thuật toán SPAM [5] Bài báo tập trung sâu phân tích thử nghiệm thuật tốn CMSPAM, sau đề xuất cải tiến thuật toán cho kết hiệu tốt trường hợp liệu thưa Vì trường hợp liệu thưa ngày quan tâm, toán tư vấn cho thương mại điện tử? Trong hệ thống thương mại điện tử nói chung, số lượng người dùng ngày lớn tiếp tục tăng nhanh thời gian tới Tuy nhiên, tỉ lệ người dùng thực nhiều giao dịch không lớn giao dịch Số 02 & 03 (CS.01) 2017 người dùng cách xa mặt thời gian Và vậy, nói chung hệ thống thương mại điện tử gặp phải trường hợp liệu thưa, tức số giao dịch trung bình người dùng số sản phẩm trung bình lần giao dịch khơng cao Thuật tốn cải tiến chúng tơi đặt tên CMSPAME đưa số thay đổi riêng cho trường hợp liệu thưa Các thử nghiệm thực liệu chuẩn P Fournier-Viger [8] cho kết tốt rõ ràng mặt hiệu (thời gian chạy thuật tốn) THUẬT TỐN KHAI PHÁ DỮ LIỆU CMSPAM Thuật tốn CMSPAM đưa với mục tiêu giảm bớt số lượng ứng cử sinh bước mà đảm bảo kết đắn Thay phải sinh tập ứng cử sau bước mở rộng thuật toán SPAM, CMSPAM sinh tập ứng cử cho item sau quét CSDL mà đảm bảo khơng bỏ sót ứng viên thích hợp Như CMSPAM làm giảm chi phí nhớ giảm thời gian thực thuật toán II Thuật toán CMSPAM Input Một sở liệu S giá trị ngưỡng phổ biến Output Tập đầy đủ mẫu F Pamameters: S: Tập liệu Minsup: Giá trị ngưỡng phổ biến Method: Nội dung hàm SPAM(minsup, S) // Bước1: Quét Cơ sở liệu SDB để tạo sở liệu theo chiều dọc VDB sid = tid = 0; FOR(each item s ∈ 𝑆𝐷𝐵){ IF(s is end of transation){ tid++ }ELSE IF(s is end of sequence){ sid++ tid = }ELSE{ bitmapItem = VDB.get[s] IF(bitmapItem = NULL){ VDB.add(s,new TẠP CHÍ KHOA HỌC CƠNG NGHỆ THƠNG TIN VÀ TRUYỀN THÔNG 72 bitmap()) } bitmapItem.registerBit(sid, tid); } } // Bước 2: Quét Cơ sở liệu chiều dọc VDB để loại bỏ item không phổ biến, tập F chứa danh sách item phổ biến FOR(each item s ∈ 𝑉𝐷𝐵){ IF(s is frequent) { F = F ∪ s }ELSE VDB remove s } // Bước : Thực khởi tạo CMAP CREATECMAP(SDB, F, minsup) // Bước : Thực mở rộng cắt tỉa chuỗi phổ biến FOR(each item s ∈ 𝐹) DFS-Pruning(, CMAP s [s],s) CMAP i [s], Bảng 1: Thuật toán CMSPAM CMPSPAM bổ sung khái niệm sở liệu đồng thời CMAP: cấu trúc ánh xạ item k ∈ I với tập item mở rộng k [5] Thuật toán định nghĩa hai CMAP CMAPi CMAPs - CMAP i ánh xạ item k với tập cm i (k) chứa tất item j ∈ I, j item mở rộng phép mở rộng i-step giá trị hỗ trợ không nhỏ minsup - CMAP s ánh xạ item k với tập cm s (k) chứa tất item j∈ I, j item mở rộng phép mở rộng s-step giá trị hỗ trợ khơng nhỏ minsup Thuật tốn CMSPAM ý nghĩa bước thuật tốn trình bày Bảng Trong bước thuật toán CMSPAM, hàm CREATECMAP gọi để tạo CSDL đồng thời CMAP Thủ tục trình bày Bảng Với item chuỗi giao dịch, thuật toán sử dụng phép mở rộng i-step s-step để bổ sung vào Số 02 & 03 (CS.01) 2017 CMAPi CMAPs Trong bước thuật toán, thủ tục cắt tỉa DFS-Pruning gọi đến Bảng trình bày thủ tục Bản chất thủ tục thao tác duyệt theo chiều sâu kiểu đệ quy có phân nhánh dựa việc xét phần tử thuộc hai tập S I xây dựng từ thủ tục CREATECMAP Hàm CREATECMAP(SDB, F) Input Một sở liệu SDB tập item phổ biến F Output Tập ứng cử CMAP i , CMAPs Pamameters: Ý nghĩa tham số SDB : tập sở liệu F: tập item phổ biến CREATECMAP() CMAP i = CMAPs= ∅ FOR transaction k ∈ VDB{ equalSet = ∅ FOR item i ∈ k { IF i ∉ equalSet equalSet add i IF i ∉ F Continue; FOR item j>i ∈ k{ IF j ∉ F Continue; IF i,j ∈ 𝑠𝑎𝑚𝑒 𝑖𝑡𝑒𝑚𝑠𝑒𝑡{ IF i≠ 𝑗 CMAP i [i] add j support++ equalSet add j } ELSE{ CMAPs[i] add j support++; } } } } Bảng 2: Hàm CREATECMAP Hàm DFS-Pruning(, S n , I n ,k) Input Chuỗi tiền tố s, tập ứng cử Sn, In Pamameters: Ý nghĩa tham số s: chuỗi tiền tố S n: Tập ứng cử theo phép mở rộng S-Step In : Tập ứng cử theo phép mở rộng I-Step k: item cuối chuỗi DFS-Pruning ((s ,s …, s k ),S n , I n ,k) TẠP CHÍ KHOA HỌC CƠNG NGHỆ THƠNG TIN VÀ TRUYỀN THÔNG 73 S temp I temp = = Data ∅ Số chuỗi Số sản phẩm Số sản phẩm TB chuỗi 36369 13905 21.6 KDDcup2000 77512 3340 4.62 6.07 MSNBC 31790 17 13.33 5.33 ∅ FOR (each i ∈ S n ) IF ((s , …, s k, {i}) is frequent & i ∈ CMAP s [k] & support(i) >= minsup) S temp = S temp ∪ {i} Bible FOR (each i ∈ S temp ) DFS-Pruning((s , …, s k, {i}) , S temp , S temp ) FOR (each i ∈ I n ) IF ((s , …, s k, {i}) is frequent & & i ∈ CMAP i [k]& support(i) >= minsup) I temp = I temp ∪ {i} FOR (each i ∈ I temp ) DFS-Pruning((s , …, s k, {i}) , S temp , I temp ) Bảng 3: Hàm DFS-Pruning Để đánh giá hiệu CMSPAM, thử nghiệm liệu SPMF [8] Cách thức thử nghiệm đánh giá tương tự [6] Tất tập liệu dùng để kiểm thử thuật toán tuân theo cấu trúc sau: ……. Trong : : Là giao dịch, item giao dịch phân cách dấu cách : Là chữ số dùng để phân biệt giao dịch với (trong liệu chọn số -1) : Là chữ số dùng để ký hiệu kết thúc chuỗi (trong liệu chọn số -2) Việc kiểm thử thuật toán sử dụng CSDL liệt kê Bảng Các thử nghiệm thực liệu thống kê thời gian chạy thuật toán thay đổi ngưỡng minsup Dựa kết quả, vẽ biểu đồ so sánh hiệu thuật tốn với trục hồnh ngưỡng minsup (giảm dần), trục tung thời gian Chúng tơi lựa chọn ba thuật tốn để so sánh gồm GSP, SPAM CMSPAM Số 02 & 03 (CS.01) 2017 Số sản phẩm TB khác chuỗi 17.84 Bảng 4: Thống kê tập liệu kiểm thử Thử nghiệm với CSDL BIBLE (Bảng Hình 1) cho thấy CSDL có đặc trưng có nhiều sản phẩm mà chuỗi gồm nhiều giao dịch, nhiều sản phẩm SPAM CMSPAM nhanh nhiều so với thuật tốn GSP khơng phải xử lý số lượng lớn mẫu sinh lần lặp đồng thời quét CSDL nhiều lần Giá trị minsup nhỏ tht tốn CMSPAM tỏ hiệu so với thuật toán SPAM hạn chế số ứng cử viên sinh sau lần lặp Minsup GSP SPAM CMSPAM Result Set 0.5 5421 3615 3531 0.25 7015 4025 3858 22 0.1 11114 5316 4831 174 0.05 57266 12330 7666 774 0.025 132568 32756 15529 3285 Bảng 5: Thử nghiệm CMSPAM với BIBLE Biểu đồ thời gian thực thi với CSDL BIBLE 200000 0.5 GSP 0.25 0.1 SPAM 0.05 0.025 CMSPAM Hình 1: Biểu đồ kết kiểm thử thuật toán GSP, SPAM, CMSPAM với liệu BIBLE Thử nghiệm KDDCUP 2000 với 77512 khách hàng, 3340 sản phẩm, khách hàng có trung bình 6.07 sản phẩm giao dịch với 4.62 sản phẩm khác Kết cho Bảng Hình tương đồng thử nghiệm với BIBLE CMSPAM cho kết tốt thời gian TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 74 Minsup GSP SPAM CMSPAM Result Set 0.5 3268 1025 958 0.25 4661 1241 971 0.1 6875 1446 987 0.05 12548 1552 1037 0.025 17230 1684 1124 10 Bảng 6: Kết kiểm thử CMSPAM với tập liệu KDDCUP 2000 Biểu đồ thời gian thực thi với CSDL KDDCUP 2000 20000 0.5 0.25 GSP 0.1 SPAM 0.05 0.025 CMSPAM Hình 2: Kiểm thử thuật tốn GSP, SPAM, CMSPAM với liệu KDDCUP2000 Thử nghiệm MSNBC với 31790 khách hàng, 17 sản phẩm, khách có trung bình 13.33 sản phẩm giao dịch với 5.33 sản phẩm khác Kết thử nghiệm Bảng Hình Minsup GSP SPAM CMSPAM Result Set 0.5 2523 1121 748 0.25 12053 1666 1361 44 0.1 26754 4038 3465 338 0.05 96054 9701 8972 1478 0.025 293921 22800 20047 6068 Bảng Kiểm thử với tập liệu MNSBC Biểu đồ thời gian thực thi với CSDL MNSBC 400000 200000 0.5 0.25 GSP 0.1 SPAM 0.05 0.025 CMSPAM Hình Kiểm thử thuật toán GSP, SPAM, CMSPAM với liệu MNSBC Các thử nghiệm cho thấy tốc độ SPAM CMSPAM nhanh nhiều so với thuật toán GSP hai trường hợp số chuỗi nhiều hay Và thuật tốn CMSPAM ln cho kết hiệu tốt SPAM Số 02 & 03 (CS.01) 2017 III THUẬT TOÁN CMSPAME Sau cài đặt thử nghiệm thuật tốn CMSPAM, chúng tơi nhận thấy bước thuật toán: quét sở liệu SDB để tạo sở liệu theo chiều dọc VDB, thuật tốn qt tồn CSDL để tính tốn giá trị hỗ trợ item Ngay sau bước thuật tốn loại bỏ item có giá trị hỗ trợ nhỏ minsup Những item lại item phổ biến Như bước việc qt tính tốn giá trị hỗ trợ item không phổ biến khơng hiệu bước item bị loại bỏ không sử dụng phần lại tht tốn Chúng tơi nhận định việc giảm thiểu phép duyệt tính toán giá trị hỗ trợ item cải thiện tốc độ xử lý thuật toán Đặc biệt với liệu thưa, tức CSDL chứa số lượng lớn item chuỗi số giao dịch trung bình với khách hàng thấp Câu hỏi đặt biết item item phổ biến, item không phổ biến chưa tính tốn giá trị hỗ trợ item Để giải câu hỏi này, chúng tơi đề xuất cải tiến cho thuật tốn CMSPAM dựa ý tưởng đánh giá cận đánh dấu để loại bỏ việc phải tính tốn lại với item cho giá trị tốt ngưỡng minsup Cụ thể: - Trong bước duyệt item từ lần qt CSDL đầu tiên, tính tốn giá trị hỗ trợ lớn item (giả sử item xuất tất chuỗi lại) - Nếu giá trị hỗ trợ tốt vượt giá trị minsup item chắn item khơng phổ biến việc tính tốn giá trị hỗ trợ thực tế item chuỗi lại khơng cần thiết - Gắn thêm thuộc tính đánh dấu (Flag) đối tượng item - Flag có giá trị false có nghĩa item khơng thể item phổ biến khơng tiếp tục tính tốn giá trị hỗ trợ - Flag có giá trị true nghĩa chưa thể xác định tính phổ TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 75 biến item tiếp tục tính tốn giá trị hỗ trợ Ví dụ minh họa với CSDL Bảng 8, minsup = 50% Customer Sequence Data ID Bảng 8: CSDL minh họa Xét chuỗi s = Với item i = {90} ta thấy dù i xuất chuỗi cuối giá trị hỗ trợ tối đa item i = {90} nhỏ giá trị minsup tốn Như việc dut tính tốn giá trị hỗ trợ item i chuỗi cuối theo cách thông thường không cần thiết Tương tự với item {70}, {80} Đối với CSDL nhỏ việc giảm thiểu phép toán khơng đáng kể với CSDL có số chuỗi lên tới hàng nghìn, trăm nghìn giảm thiểu số lượng lớn phép tốn Giả sử ta có CSDL có 1.000.000 ghi với giá trị minsup = 40%, có item j xuất ghi thứ 600.001 xuất toàn ghi sau (từ ghi 600.002 đến ghi 999.999) Vậy giá trị hỗ trợ tối đa item j 399.999 < minsup Trong thuật toán CMSPAM duyệt qua tính tốn giá trị hỗ trợ cho 399.998 lần xuất phía sau item j Việc gây lãng phí làm giảm tốc độ xử lý thuật tốn Vì nhóm chúng tơi tin thực cải tiến giúp tăng hiệu CMSPAM Thuật toán CMSPAME Input Một sở liệu S, giá trị ngưỡng minsup người sử dụng đặt Output Tập đầy đủ mẫu F Method Chương trình chính: Gọi hàm CMSPAME(minsup , S) Pamameters: Ý nghĩa tham số S:Tập liệu Minsup:Giá trị minsup Số 02 & 03 (CS.01) 2017 Method: Nội dung hàm CMSPAME(minsup , S) // Bước1:Quét Cơ sở liệu SDB để tạo sở liệu theo chiều dọc VDB sid = tid = 0; FOR(each item s ∈ 𝑆𝐷𝐵){ IF(s is end of transation){ tid++ }ELSE IF(s is end of sequence){ sid++ tid = }ELSE{ IF (s.flag = false) continue bitmapItem = VDB.get[s] IF(bitmapItem = NULL){ VDB.add(s,new bitmap()) } IF(bitmapItem.getSupport + (sequencesSize - sid ) < minsup){ s.flag = false continue } bitmapItem.registerBit(sid, tid); } } // Bước :Quét Cơ sở liệu chiều dọc VDB để loại bỏ item không phổ biến, tập F chứa danh sách item phổ biến FOR(each item s ∈ 𝑉𝐷𝐵){ IF(s is frequent) { F = F ∪ s }ELSE VDB remove s } // Bước : thực khởi tạo CMAP CREATECMAP(SDB,F,minsup) // Bước : Thực mở rộng cắt tỉa chuỗi FOR(each item s ∈ 𝐹) DFSPruning(,CMAP i [s],CMAP s [s]) Bảng 9: Thuật tốn CMSPAME Thuật tốn cải tiến chúng tơi đặt tên CMSPAME Bảng mơ tả thuật tốn, số hàm chương trình giữ nguyên CMSPAM trình bày mục II Cải tiến chúng tơi khơng thay đổi tính tốn CMSPAM nên đảm bảo tính xác CMSPAM Độ phức tạp tính tốn thuật tốn khơng tốt trường hợp xấu thuật tốn TẠP CHÍ KHOA HỌC CƠNG NGHỆ THƠNG TIN VÀ TRUYỀN THÔNG 76 phải quét hết item sở liệu SDB Tuy nhiên, với trường hợp liệu thưa phân tích, bước đánh dấu ước lượng cận giúp giảm không gian tính tốn tăng hiệu thuật tốn Các thử nghiệm phần IV minh chứng cho nhận định IV THỬ NGHIỆM VÀ ĐÁNH GIÁ CMSPAME Để so sánh hai thuật tốn CMSPAME CMSPAM, chúng tơi tiến hành thử nghiệm với liệu tương tự thực phần II Thử nghiệm với KDDCUP 2000 gồm 77512 khách hàng, 3340 sản phẩm, khách hàng có trung bình 6.07 sản phẩm giao dịch với 4.62 sản phẩm khác nhau, tổng cộng có 358278 lượt đọc item từ CSDL Kết thử nghiệm cho Bảng 10 Hình Minsup CMSPAM CMSPAME Kết Số lượt đọc item bỏ qua Tỉ lệ lượt đọc item bỏ qua(%) Thời gian chênh lệch Tỉ lệ thời gian giảm thiểu(%) 0.5 958 621 176319 0.25 971 638 86727 0.1 987 661 34241 0.05 1037 716 15178 0.025 1124 806 10 5554 49.21 24.27 9.55 4.23 1.55 337 333 326 321 318 35.17 34.29 33.03 30.95 28.29 Bảng 10: Kết kiểm thử thuật toán CMSPAM CMSPAME với liệu KDDCUP 2000 Biểu đồ thời gian thực thi với CSDL KDDCUP 2000 thời gian chạy thuật toán CMSPAME cải thiện rõ rệt so với CMSPAM, tất giá trị thời gian chạy CMSPAME nhỏ so với CMSPAM Thử nghiệm với BIBLE: gồm 36369 khách hàng, 13905 sản phẩm, khách hàng có trung bình 21.6 sản phẩm giao dịch với 17.84 sản phẩm khác nhau, tổng cộng có 787066 lượt đọc item từ CSDL Kết thử nghiệm cho Bảng 11 Hình Đối với CSDL có đặc trưng có nhiều sản phẩm mà chuỗi gồm nhiều giao dịch nhiều sản phẩm Tốc độ xử lý thuật toán CMSPAME cải thiện so với thuật toán CMSPAM nhiên chênh lệch khơng nhiều Giá trị minsup lớn thời gian xử lý chênh lệch thuật toán rõ Minsup CMSPAM CMSPAME Kết Số lượt item bỏ qua Tỉ lệ lượt đọc item bỏ qua(%) Thời gian chênh lệch Tỉ lệ thời gian giảm thiểu(%) 0.5 3531 2476 278112 0.25 3858 2847 22 112219 0.1 4831 3894 174 33823 0.05 7666 6808 774 12533 0.025 15529 14811 3285 4216 35.33 14.26 4.30 1.59 0.06 1055 1011 937 858 718 29.87 26.20 19.39 11.19 4.62 Bảng 11: Kết kiểm thử thuật toán CMSPAM CMSPAME với liệu BIBLE Biểu đồ thời gian thực thi với CSDL BIBLE 20000 15000 1500 10000 1000 5000 500 0 0.5 0.25 CMSPAM 0.1 0.05 0.025 CMSPAME Hình 4: Biểu đồ kết kiểm thử thuật toán CMSPAM CMSPAME với liệu KDDCUP 2000 Kết thử nghiệm cho thấy với liệu có đặc trưng thưa KDDCUP2000, Số 02 & 03 (CS.01) 2017 0.5 0.25 CMSPAM 0.1 0.05 0.025 CMSPAME Hình 5: Biểu đồ kết kiểm thử thuật toán CMSPAM CMSPAME với liệu BIBLE Thử nghiệm với MSNBC gồm 31790 khách hàng, 17 sản phẩm, khách hàng có trung bình 13.33 sản phẩm giao dịch với TẠP CHÍ KHOA HỌC CƠNG NGHỆ THƠNG TIN VÀ TRUYỀN THƠNG 77 5.33 sản phẩm khác nhau, tổng cộng có 423776 lượt đọc item từ CSDL Minsup CMSPAM CMSPAME Kết Số lượt item bỏ qua Tỉ lệ lượt đọc item bỏ qua(%) Thời gian chênh lệch(ms) 0.5 748 710 52744 12.44 0.25 1361 1291 44 6430 1.51 0.1 3465 3454 338 304 0.07 0.05 8972 8976 1478 44 0.01 0.025 20847 20939 6068 0.0017 38 70 11 -0.04 -92 Tỉ lệ thời gian giảm thiểu(%) 5.08 5.14 0.39 - - Bảng 12: Kết kiểm thử thuật toán CMSPAM CMSPAME với liệu MNSBC Biểu đồ thời gian thực thi với CSDL MNSBC 25000 20847 20939 20000 15000 8972 10000 5000 8976 3465 3454 748 710 1361 1291 0.5 0.25 CMSPAM 0.1 0.05 0.025 CMSPAME Hình 6: Biểu đồ kết kiểm thử thuật toán CMSPAM CMSPAME với liệu MNSBC Kết Bảng 12 Hình cho thấy với đặc trưng liệu có sản phẩm (chỉ có 17 giao dịch) khiến cho thuật tốn CMSPAME khơng cải thiện nhiều tốc độ xử lý so với thuật toán CMSPAM Đặc biệt với giá trị minsup 0.05 0.025 thời gian thực thi CMSPAME lớn so với thuật tốn CMSPAM Nguyên nhân số lượt đọc item bỏ qua nhỏ (44 7) không đáng kể so với toàn số lượt đọc item toàn CSDL V KẾT LUẬN Bài báo tìm hiểu khai phá dữ liệu (SPM) thuật tốn liên quan Chúng tơi sâu tìm hiểu thuật toán khai phá liệu CMSPAM tiến hành thử nghiệm để chứng tỏ ưu điểm thuật toán với thuật tốn trước Số 02 & 03 (CS.01) 2017 Dựa việc phân tích trường hợp CSDL lớn với nhiều người dùng số giao dịch số sản phẩm giao dịch lần không nhiều (trường hợp liệu thưa), đề xuất thuật toán cải tiến CMSPAME Các thử nghiệm cho thấy thuật tốn cải tiến có hiệu tốt so với CMSPAM toán có nhiều sản phẩm, số lượng giao dịch lớn đồng thời yêu cầu giá trị ngưỡng phổ biến (minsup) cao Nhóm tác giả tiếp tục phát triển thuật tốn để hướng tới việc áp dụng hệ thống thương mại điện tử có đặc trưng liệu thưa phân tích VI TÀI LIỆU THAM KHẢO [1] R Agrawal and R Srikant “Mining sequential patterns” In Proc 1995 Int Conf Data Engineering (ICDE’95), pages 3–14, Taipei, Taiwan, 1995 [2] Q Zhao and S S Bhowmick “Sequential Pattern Mining: A Survey”, Technical Report, CAIS, Nanyang Technological University, Singapore, No 2003118, 2003 [3] J Han, H Cheng, D Xin, X Yan: “Frequent pattern mining: current status and future directions” Springer Science+Business Media, LLC, 2007 [4] J Ayres, J Gehrke, T Yiu, and J Flannick “Sequential PAttern Mining using A Bitmap Representation”,SIGKDD, pp 429– 435, 2002 [5] P Fournier-Viger, A Gomariz, M Campos and R Thomas “Fast Vertical Mining of Sequential Patterns Using Co-occurrence Information”, 2014 [6] M Verma, D Meht “Sequential Pattern Mining: A Comparison between GSP, SPADE and Prefix SPAN”, IJEDR, Volume 2, Issue 3, 2014 [7] M J Zaki, “SPADE: An Efficient Algorithm for Mining Frequent Sequences”, In: Machine Learning Number 1/2 Vol 42, 2001 [8] P Fournier-Viger “An Open-Source Data Mining Library”, online at: TẠP CHÍ KHOA HỌC CƠNG NGHỆ THƠNG TIN VÀ TRUYỀN THƠNG 78 http://www.philippe-fournierviger.com/spmf/index.php?link=datase ts.php Nhóm tác giả: ThS Nguyễn Mạnh Sơn: giảng viên khoa CNTT1 – Học viện cơng nghệ Bưu Viễn thơng Các hướng nghiên cứu chính: Khai phá liệu từ mạng xã hội, học máy tư vấn, tối ưu hóa thuật tốn ThS Đặng Ngọc Hùng: giảng viên khoa CNTT1 – Học viện Cơng nghệ Bưu Viễn thơng Các hướng nghiên cứu chính: Khai phá liệu từ mạng xã hội, hệ thống thông tin Số 02 & 03 (CS.01) 2017 TẠP CHÍ KHOA HỌC CƠNG NGHỆ THƠNG TIN VÀ TRUYỀN THÔNG 79 ... điểm thuật toán SPAM [5] Bài báo tập trung sâu phân tích thử nghiệm thuật tốn CMSPAM, sau đề xuất cải tiến thuật tốn cho kết hiệu tốt trường hợp liệu thưa Vì trường hợp liệu thưa ngày quan tâm, toán. .. LUẬN Bài báo tìm hiểu khai phá dữ liệu (SPM) thuật toán liên quan Chúng tơi sâu tìm hiểu thuật tốn khai phá liệu CMSPAM tiến hành thử nghiệm để chứng tỏ ưu điểm thuật toán với thuật tốn trước Số... trường hợp CSDL lớn với nhiều người dùng số giao dịch số sản phẩm giao dịch lần không nhiều (trường hợp liệu thưa) , đề xuất thuật toán cải tiến CMSPAME Các thử nghiệm cho thấy thuật tốn cải tiến

Ngày đăng: 15/05/2020, 22:03

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan