Khai thác k mẫu tuần tự đóng

76 101 0
Khai thác k mẫu tuần tự đóng

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP HCM ĐỖ THANH TÙNG KHAI THÁC K MẪU TUẦN TỰ ĐÓNG LUẬN VĂN THẠC SĨ Chuyên ngành: Công Nghệ Thông Tin Mã ngành: 60480201 TP HỒ CHÍ MINH, Tháng 11 năm 2017 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP HCM ĐỖ THANH TÙNG KHAI THÁC K MẪU TUẦN TỰ ĐĨNG LUẬN VĂN THẠC SĨ Chun ngành: Cơng Nghệ Thông Tin Mã ngành: 60480201 CÁN BỘ HƯỚNG DẪN KHOA HỌC: TS PHẠM THỊ THIẾT TP HỒ CHÍ MINH, Tháng 11 năm 2017 CƠNG TRÌNH ĐƯỢC HỒN THÀNH TẠI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP HCM Cán hướng dẫn khoa học : TS PHẠM THỊ THIẾT Luận văn Thạc sĩ bảo vệ Trường Đại học Công nghệ TP HCM ngày 17 tháng 06 năm 2018 Thành phần Hội đồng đánh giá Luận văn Thạc sĩ gồm: (Ghi rõ họ, tên, học hàm, học vị Hội đồng chấm bảo vệ Luận văn Thạc sĩ) STT Họ tên Chức danh Hội đồng PGS.TS Quản Thành Thơ Chủ tịch PGS TS Võ Đình Bảy Phản biện TS Vũ Thanh Hiền Phản biện TS Văn Thiên Hoàng TS Nguyễn Thị Thúy Loan Ủy viên Ủy viên, Thư ký Xác nhận Chủ tịch Hội đồng đánh giá Luận sau Luận văn sửa chữa (nếu có) Chủ tịch Hội đồng đánh giá LV TRƯỜNG ĐH CÔNG NGHỆ TP.HCM VIỆN ĐÀO TẠO SAU ĐẠI HỌC CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập – Tự – Hạnh phúc TP.HCM, Ngày 28 Tháng 11 Năm 2017 NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên: Đỗ Thanh Tùng Giới tính: Nam Ngày tháng năm sinh: 10-06-1990 Nơi sinh: Khánh Hòa Chun ngành: Cơng Nghệ Thơng Tin MSHV: 1541860046 I – Tên đề tài: KHAI THÁC TOP K MẪU TUẦN TỰ ĐÓNG II – Nhiệm vụ nội dung:  Nghiên cứu toán khai thác Top- k mẫu đóng  Tìm hiểu khai thác mẫu mẫu đóng  Nghiên cứu Thuật toán SPAM,TSP,TKS  Nghiên cứu đề xuất phương pháp khai thác mẫu đóng dựa vào thuật tốn TKS  Xây dựng chương trình thực nghiệm đánh giá kết III – Ngày giao nhiệm vụ: Ngày 15 tháng 03 năm 2017 IV – Ngày hoàn thành nhiệm vụ: Ngày 28 tháng 11 năm 2017 V – Cán hướng dẫn: Tiến sĩ Phạm Thị Thiết CÁN BỘ HƯỚNG DẪN KHOA QUẢN LÝ CHUYÊN NGÀNH i LỜI CAM ĐOAN Tôi xin cam đoan công trình nghiên cứu riêng tơi Các số liệu, kết đánh giá, nhận xét đề xuất thuật toán nêu Luận văn trung thực chưa công bố cơng trình khác Tơi xin cam đoan giúp đỡ cho việc thực Luận văn trích dẫn hay tài liệu học thuật tham khảo cảm ơn đến tác giả hay ghi rõ ràng nguồn gốc thơng tin trích dẫn Luận văn Học viên thực Luận văn Đỗ Thanh Tùng ii LỜI CÁM ƠN Trước hết, cho gửi lời cảm ơn đến hướng dẫn giúp đỡ tận tình TS PHẠM THỊ THIẾT suốt thời gian nghiên cứu thực Luận văn Tôi xin cảm ơn quý Thầy Cô trường Đại Học Cơng Nghệ Tp.HCM nhiệt tình giảng dạy, truyền đạt cho chúng tơi kiến thức bổ ích qua mơn học chương trình cao học Tơi xin gởi lời cảm ơn đến gia đình, bạn bè người thân động viên, quan tâm giúp đỡ suốt thời gian học tập nghiên cứu hồn thành Luận văn Luận văn khơng thể tránh khỏi sai sót, mong nhận ý kiến đóng góp người cho Luận văn để Luận văn hồn thiện Tơi xin chân thành cảm ơn TP Hồ Chí Minh, tháng 11 năm 2017 ĐỖ THANH TÙNG iii TÓM TẮT Khai thác mẫu phần quan trọng khai thác liệu với ứng dụng rộng rãi Tuy nhiên, việc tùy chỉnh thông số minsup để phù hợp thuật toán khai thác mẫu nhằm tạo số mẫu mà người dùng mong muốn điều khó khăn tốn thời gian Để giải vấn đề này, thuật toán khai thác k mẫu đóng TSP [15] đưa phương án giới hạn lại số lượng k mẫu cần khai thác, thời gian thực nhớ sử dụng thuật tốn cao Vì thế, luận văn đề xuất thuật tốn TKCS tìm k mẫu đóng dựa thuật toán TKS[5] Với k mẫu nhập vào thuật tốn trả k mẫu có độ hỗ trợ cao CSDL Kết thực thi cho thấy, Thuật tốn TKCS có hiệu suất tốt nhiều so với thuật tốn TSP chi phí thời gian nhớ sử dụng Ngồi ta thuật tốn TKCS xử lý tốt CSDL khác nhau, đặc biệt CSDL mẫu lớn iv ABSTRACT Sequential pattern mining is a important part of data minning with wide applications However, it is very difficult and time-consuming to customize the minsup parameters to fit in sequential pattern mining algorithms to create the right number of samples desired by the user To solve this problem, the TSP[15] algorithm had proposed method to limit the number of sequential patterns to be mined but a running time and usage memory of this algorithm is high Therefore,thesis proposal TKCS algorithm find k closed sequence patterns based on the TKS[5] algorithm With input k patterns , the algorithm returns k patterns highest degree of support in the database The results show that TKCS algorithm is much better than TSP algorithm time cost as well as memory usage In addition, the TKCS algorithm handles well on various databases, especially large sample databases v MỤC LỤC TÓM TẮT iii ABSTRACT iv DANH MỤC CÁC TỪ VIẾT TẮT vii DANH MỤC BẢNG viii DANH MỤC HÌNH ix CHƯƠNG 1: GIỚI THIỆU 1.1 Đặt vấn đề 1.2 Mục tiêu đề tài: 1.3 Phạm vi nghiên cứu đề tài 1.4 Nôi dung nghiên cứu 1.5 Bố cục đề tài CHƯƠNG 2: CƠ SỞ LÝ THUYẾT 2.1 Giới thiệu 2.2 Các khái niệm chuỗi liệu 2.2.1 Cơ sở liệu chuỗi: 2.2.2 Độ hỗ trợ: 2.2.3 Mẫu 2.2.4 Mẫu 2.3 Khai thác mẫu 2.4 Các thuật toán khai thác mẫu 2.4.1 Thuật toán AprioriAll 2.4.2 Thuật toán GSP 2.4.3 Thuật toán SPADE 10 2.4.4 Thuật toán SPAM 11 vi 2.4.5 Thuật toán WAP-mine 13 2.4.6 Thuật toán FreeSpan, PrefixSpan 13 3.2.1.1 Thuật toán FreeSpan 14 3.2.1.2 Thuật toán PrefixSpan 14 2.4.7 Đánh giá 19 2.5 Mẫu đóng: 20 2.6 Thuật tốn khai thác mẫu đóng 20 2.6.1 Thuật toán CloSpan 20 2.6.2 Thuật toán BIDE 21 2.6.3 Giới thiệu thuật toán TSP 22 2.6.4 Cấu trúc PDB 23 2.6.5 Thuật toán TSP 24 2.6.6 Nhận xét: 29 CHƯƠNG 3: KHAI THÁC TOP K MẪU TUẦN TỰ ĐÓNG 30 3.1 Giới thiệu: 30 3.2 Thuật toán TKS 30 3.2.1 Cơ sở liệu bitmap dọc 31 3.2.2 Phương thức tạo ứng viên thuật toán SPAM 32 3.2.3 Các chiến lược tăng hiệu suất khai thác liệu TKS 36 3.2.4 Thuật toán TKS tìm tập phổ biến 42 3.2.5 Nhận xét: 45 3.3 THUẬT TOÁN TKCS 46 3.3.1 Thuật toán TKCS: 46 3.3.2 Nhận xét: 52 CHƯƠNG 4: KẾT QUẢ THỰC NGHIỆM VÀ ĐÁNH GIÁ 53 4.1 Môi trường thực nghiệm 53 48 Bảng 3.5 CSDL thuật toán TKCS Đầu tiên thuật toán khởi tạo tập rỗng R, L đặt mipsup =0 Duyệt CSDL D bảng 3.1 để tạo bit vecto đếm độ hỗ trợ item bit vecto Sau thuật tốn xét độ hỗ trợ item xem chúng có thỏa điều kiện minsup hay khơng Nếu thỏa lưu vào tập L xếp chúng tăng dần thi độ hỗ trợ danh sách từ điển Kế tiếp mở rộng item có độ hỗ trợ triển vọng ( cao nhất) Các item thỏa điểu kiện minsup gồm: d:4, e:4, f:4, a:5, b:5, c:5 Lúc thuật toán tìm mẫu phổ biến gán minsup độ hỗ trợ lớn item tập L với độ hỗ trợ Lưu item có độ hỗ trợ vào tập L R mở rộng chúng theo hướng s-extension iextension Lần lượt mở rộng với item đâu tiên (a) mở rộng theo s-extension ta có mẫu sau: {(a)(a)}:4,{(a),(b)}:4,{(a),(c)}:5, {(a),(d)}3, {(a),(e)}:2, {(a),(f)}:2 Ta item thỏa điều kiện minsup đề {(a),(c)} với độ hỗ trợ Lưu tập {(a),(c)} vào L lưu mẫu có độ hỗ trợ nhỏ minsup vào tập R Tiếp đến mở rộng (a) theo hướng i-extension với minsup =5 ta có tập kết sau: {(a,b)}2: , {(a,c)}:2 , {(a,d)}:2 , {(a,e)}:2 , {(a,f)}:1 Khơng có item thỏa điều kiện thỏa minsup dừng thuật toán mở rộng (a) theo i-extension Dựa vào kết đạt mở rộng (a) s-extension ta thu đươc item {(a),(c)} Và mở rộng chúng theo s-extension i-extension ta có kết sau: Mở rộng theo s-extension {(a),(c),(a)}:2, {(a),(c),(b)}:2, {(a),(c),(c)}:3 {(a),(c),(d)}:1, {(a),(c),(e)}:1, {(a),(c),(f)}:1 Khơng có tiem thỏa điều kiện thỏa minsup dừng thuật toán mở rộng {(a),(c)}, theo s-extension Tiếp đến mở rộng {(a),(c)} theo i-extension ta tập kết sau: 49 {(a),(ca)}:0, {(a),(cb)}:0 , {(a),(cd)}:0 , {(a),(ce)}:0 , {(a),(cf)}:1 Khơng có tiem thỏa điều kiện thỏa minsup dừng thuật toán mở rộng {(a),(c)} theo i-extension Tiếp tục mở rộng (b) theo s-extension i-extension với minsup =5 ta tập kết sau: Đối với mở rộng s-extension ta được: {(b)(a)}:3 , {(b)(b)}: 1, {(b)(c)} 5: , {(b)(d)}:3 , {(b)(e)}:2 , {(b)(f)}:2 Ta item thỏa điều kiện minsup đề {(b),(c)} với độ hỗ trợ Lưu mẫu có độ hỗ trợ nhỏ minsup vào tập R Vì chúng khơng thỏa điều kiện minsup Lưu tập item {(b),(c)} vào tập L Kế tiếp, mở rộng (b) theo hướng i-extension thu kết sau: {(ba)}:0 , {(bc)}: 1, {(bd)}:0 , {(be)}:0 , {(bf)}: Khơng có item thỏa điều kiện thỏa minsup dừng thuật toán mở rộng (b) theo i-extension Dựa vào kết đạt mở rộng (b) s-extension ta thu đươc item {(b),(c)} Và mở rộng chúng theo s-extension i-extension ta có kết sau: Đối với s-extension {(b),(c),(a)}:1, {(b),(c),(b)}:1, {(b),(c),(c)}:1, {(b),(c),(d)}:1, {(b),(c),(e)}:1, {(b),(c),(f)}:1 Khơng có tiem thỏa điều kiện thỏa minsup dừng thuật toán mở rộng {(b),(c)}, theo s-extension Tiếp đến mở rộng {(b),(c)} theo i-extension ta tập kết sau: {(b),(ca)}:0, {(b),(cb)}:0 , {(b),(cd)}:0 , {(b),(ce)}:0 , {(b),(cf)}:1 Khơng có tiem thỏa điều kiện thỏa minsup dừng thuật toán mở rộng{(b),(c)}, theo i-extension Cuối mở rộng item (c) theo s-extension i-extension với minsup =5 ta tập kết sau: Đối với mở rộng s-extension ta được: {(c)(a)}:3 , {(c)(b)}:3, {(c)(c)}4: , {(c)(d)}:2 , {(c)(e)}:2 , {(c)(f)}:2 Lưu mẫu có độ hỗ trợ nhỏ minsup vào tập R khơng có item thỏa điều kiện thỏa minsup dừng thuật toán mở rộng (c) theo sextension 50 Kế tiếp, mở rộng (c) theo hướng i-extension thu kết sau: {(c,a)}:0 , {(c,b)}: 1, {(c,d)}:0 , {(c,e)}:1 , {(c,f)}: Khơng có item thỏa điều kiện thỏa minsup dừng thuật toán mở rộng (c) theo i-extension Kết trả tập L chứa item có độ hỗ trợ lớp là {(a)}, {(b)}, {(c)}, {(a),(c)}, {(b),(c)} xét mấu đóng cho tập L có mẫu thỏa {(a),(c)}, {(b),(c)} loại {(a)},{(b)},{(c} chúng {(a),(c)}, {(b),(c)}và có độ hỗ trợ Lúc mẫu chưa thỏa k nhập vào, thuật toán đem mẫu có độ hỗ trợ lớn R mở rộng với minsup mở rộng mẫu Mẫu {(a)(a)} mở rộng theo s-extension cho kết quả: {(a),(a),(a)}:1,{(a),(a),(b)}:1,{(a),(a),(c)}:2,{(a),(a),(d)}:1,{(a),(a),(e)}:0,{(a),(a),(f) }:1, Khơng có item thỏa điều kiện thỏa minsup dừng thuật toán mở rộng {(a),(a)} theo s-extension Tiếp tục mở rộng {(a)(a)} theo i-extension thu kết quả: {(a),(ab}:1,{(a),(ac)}:2,{(a),(ad)}:0,{(a),(a),(ae)}:0,{(a),(af)}:1 Khơng có item thỏa điều kiện thỏa minsup dừng thuật toán mở rộng {(a),(a)} theo i-extension Đi mở rộng tiếp với mẫu {(a),(b)} mở rộng theo s-extension cho kết quả:{(a),(b),(a)}:2,{(a),(b),(b)}:0,{(a),(b),(c)}:0,{(a),(b),(d)}:1,{(a),(b),(e)}:1, {(a),(b),(f)}:1, Khơng có item thỏa điều kiện thỏa minsup dừng thuật toán mở rộng {(a),(b)} theo s-extension Tiếp tục mở rộng {(a)(b)} theo i-extension thu kết quả: {(a),(ba)}:0,{(a),(bc)}:1,{(a),(bd)}:0,{(a),(be)}:0,{(a),(bf)}:0 Khơng có item thỏa điều kiện thỏa minsup dừng thuật toán mở rộng {(a),(b)} theo i-extension Với mẫu mở rộng theo s-extension cho kết quả:{(c),(c),(a)}:1,{(c),(c),(b)}:0,{(c),(c),(c)}:0,{(c),(c),(d)}:1,{(c),(c),(e)}:1, {(c),(c),(f)}:1, Khơng có item thỏa điều kiện thỏa minsup dừng thuật toán mở rộng {(c),(c)} theo s-extension 51 Tiếp tục mở rộng {(c)(c)} theo i-extension thu kết quả: {(c),(ca)}:0,{(c),(cb)}:1,{(c),(cd)}:0,{(c),(ce)}:0,{(c),(cf)}:0 Khơng có item thỏa điều kiện thỏa minsup dừng thuật toán mở rộng {(c),(c)} theo i-extension Tiếp tục đem mẫu đơn (d),(e),(f) mở rộng theo s-extension iextension với độ hỗ trợ Mẫu (d) mở rộng theo s-extension thu kết sau: {(d),(a)}:2, {(d),(b)}:2, {(d),(c)}:4, {(d),(d)}:1, {(d),(e)}:2, {(d),(f)}:1 Ta item thỏa điều kiện minsup đề {(d),(c)} với độ hỗ trợ Lưu {(d),(c)} vào tập L Mẫu (d) mở rộng theo i-extension thu kết sau: {(da)}:0, {(db)}:0, {(dc)}:0, {(de)}:0, {(df)}:1 Với mẫu đạt mở rộng (d) s-extension ta thu đươc item {(d),(c)} Và mở rộng chúng theo s-extension i-extension ta có kết sau: Đối với s-extension {(d),(c),(a)}:1, {(d),(c),(b)}:0, {(d),(c),(c)}:1, {(d),(c),(d)}:0, {(d),(c),(e)}:1, {(d),(c),(f)}:0 Khơng có tiem thỏa điều kiện thỏa minsup dừng thuật toán mở rộng {(b),(c)}, theo s-extension Tiếp đến mở rộng {(d),(c)} theo i-extension ta tập kết sau: {(d),(ca)}:0, {(d),(cb)}:0 , {(d),(cd)}:0 , {(d),(ce)}:0 , {(d),(cf)}:1 Khơng có tiem thỏa điều kiện thỏa minsup dừng thuật toán mở rộng{(d),(c)}, theo i-extension Mở rộng mẫu (e) theo s-extension ta được: {(e)(a)}:3 , {(e)(b)}:3, {(e)(c)}3: , {(e)(d)}:2 , {(e)(e)}:1 , {(e)(f)}:3 Khơng có item thỏa điều kiện thỏa minsup dừng thuật toán mở rộng (e) theo s-extension Kế tiếp, mở rộng (e) theo hướng i-extension thu kết sau: {(ea)}:0 , {(eb)}: 0, {(ec)}:0 , {(ed)}:0 , {(ef)}: Không có item thỏa điều kiện thỏa minsup dừng thuật toán mở rộng (c) theo i-extension 52 Cuối mở rộng mẫu (f) theo s-extension ta được: {(f)(a)}:2 , {(f)(b)}:2, {(f)(c)}:3 , {(f)(d)}:2 , {(f)(e)}:1 , {(f)(f)}:1 Không có item thỏa điều kiện thỏa minsup dừng thuật toán mở rộng (e) theo s-extension Kế tiếp, mở rộng (f) theo hướng i-extension thu kết sau: {(fa)}:0 , {(fb)}: 0, {(fc)}:0 , {(fd)}:0 , {(fe)}:0 Khơng có item thỏa điều kiện thỏa minsup dừng thuật toán mở rộng (c) theo i-extension Đi mở rộng mẫu với độ hỗ trợ (minsup) ta thu tập đóng sau: :5, :5, :4, :4, :4, :4, :4, :4 Tập L = ứng với k mẫu nhập vào xuất kết quả: Vậy k =8, Tập L có mẫu đóng sau: Mẫu đóng Độ hỗ trợ Bảng 3.6 Kết mẫu đóng TKCS 3.3.2 Nhận xét: Thuật toán TKCS đạt hiệu cao TSP[15] mặt thời gian nhớ cách xếp item theo thứ tự tăng dần lấy item có độ hỗ trợ cao mở rộng Trong chương thực hiệu suất khai thác TKCS so với thuật toán TSP 53 CHƯƠNG 4: 4.1 KẾT QUẢ THỰC NGHIỆM VÀ ĐÁNH GIÁ Môi trường thực nghiệm Dữ liệu chuỗi loại liệu phổ biến nhiều lĩnh vực ứng dụng Do đó, luận văn tiến hành thực nghiệm CSDL lấy từ địa web: http://www.philippe-fournier-viger.com/spmf/index.php?link=download.php loại CSDL phổ biến đa dạng như: liệu sinh học, liệu web, liệu viết thực thi chương trình… Việc thực nghiệm tiến hành máy tính xách tay Sony Vaio có cấu hình CPU Intel core i5-M430, 8G RAM sử dụng hệ điều hành Microsoft Windows 10, cài đặt ngôn ngữ lập trình Java 4.2 Bộ liệu chạy thực nghiệm DATASET COUNT ITEM AVG SEQ TYPE OF SEQUENCE DISTINCT COUNT LENGTH (ITEMS) DATA Leviathan 5834 9025 33.81 book Bible 36369 13905 21.64 book Sign 800 267 51.99 sign language utterances FIFA 20450 2990 34.74 web click stream BmsWebView1 59601 497 2.42 web click stream BmsWebView2 77512 3340 4.62 web click stream Bảng 4.1 Bộ CSDL chạy thực nghiệm thuộc tính liên quan 54 4.3 Kết thực nghiệm TKCS TSP Chạy thực nghiệm thuật toán TKCS TSP với liệu Sign Leviathan, Bible, FIFA, BmsWebView1, BmsWebView2 cho mẫu k = 50, 100 , 200, 300, 400 ta thu bảng kết sau: Bộ nhớ sử dụng (MB) CSDL Sign Leviathan Bible Số lượng mẫu k TKCS TSP 50 109 281 100 163 285 200 240 290 300 250 293 400 260 300 50 250 318 100 320 384 200 435 522 300 590 668 400 680 906 50 363 574 100 399 695 200 450 872 300 550 895 400 661 950 55 FIFA BmsWebView1 BmsWebView2 50 278 560 100 429 743 200 556 789 300 630 851 400 759 935 50 72 183 100 129 298 200 178 319 300 219 368 400 293 422 50 206 273 100 253 336 200 350 411 300 412 493 400 550 583 Bảng 4.2 Kết chạy thực nghiệm TKCS TSP liệu 56 CSDL Sign TSP 4000 TKCS 3420 Thời gian chạy ( ms) 3500 3122 3000 2500 1974 2000 1500 1042 1000 1039 532 1438 1234 605 500 300 50 100 200 K 300 400 Hình 4.1 So sánh thời gian thực TKCS TSP CSDL Sign CSDL Leviathan TSP 70000 TKCS 65851 Thời gian chạy ( ms) 60000 54163 50000 40000 39216 30000 20000 10000 17538 4835 2185 3538 100 200 K 5946 7789 300 400 1354 50 Hình 4.2 So sánh thời gian thực TKCS TSP CSDL Leviathan 57 CSDL Bible TSP 110000 TKCS 101176 100000 Thời gian chạy ( ms) 90000 82218 80000 70000 60000 48784 50000 40000 24755 30000 20000 10000 11319 8519 4562 12787 16455 2874 50 100 200 K 300 400 Hình 4.3 So sánh thời gian thực TKCS TSP CSDL Bible CSDL FIFA TSP 110000 TKCS 97623 100000 Thời gian chạy ( ms) 90000 72025 80000 70000 53109 60000 50000 40000 23084 30000 20000 10000 10532 7181 11812 17326 21412 4354 50 100 200 K 300 400 Hình 4.4 So sánh thời gian thực TKCS TSP CSDL FIFA 58 TSP TKCS CSDL BmsWebView1 4500 3834 4000 Thời gian chạy ( ms) 3500 3118 3000 2443 2374 2500 1735 2000 1224 1500 1000 500 850 752 358 260 50 100 200 K 300 400 Hình 4.5 So sánh thời gian thực TKCS TSP CSDL BmsWebView1 CSDL BmsWebView2 TSP 5000 TKCS 4500 3848 4000 Thời gian chạy ( ms) 4698 3500 3069 3000 2500 2045 2051 2000 1500 1000 1579 1257 1216 773 591 500 50 100 200 K 300 400 Hình 4.6 So sánh thời gian thực TKCS TSP CSDL BmsWebView2 Với kết chạy thực nghiệm hình ( từ hình 4.1 đến 4.6) ta nhận thấy thuật tốn TKCS có thời gian thực thi nhanh hẳn so với TSP 59 Nhất người dùng ngưỡng k mẫu cần tìm lớn thời gian chạy TKCS TSP lớn Theo kết so sánh bảng 4.1 với CSDL Sign nhập k = 50 ta thấy gian chạy TKCS nhanh gấp 1.7 lần so với TSP tăng lên 400 điều thể rõ với thời gian chạy lúc TKCS gấp 2.3 lần TSP Với CSDL khác độ chênh lệch thời gian khác Đối với CSDL lớn có nhiều item thời gian thực thi TSP chậm so với liệu có item Như hình 4.3 với mẫu k = 50 TSP có thời gian chạy lâu gấp 3.9 TKCS với mẫu k = 400 gấp 6.1 lần Như thuật toán TKCS cho ta thấy thực thi CSDL lớn có số lượng item nhiều thời gian thực tốt nhiều so với TSP 60 CHƯƠNG 5: 5.1 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN KẾT LUẬN Luận văn tìm hiểu sở lý thuyết khai thác mẫu mẫu đóng Qua đó, thấy tầm quan trọng khai thác mẫu đóng Khai thác mẫu đóng tìm tất chuỗi cha loại chuỗi có độ hỗ trợ, ứng với k mẫu nhập vào Tìm mẫu có độ hỗ trợ cao loại bỏ trường hợp tìm mẫu bị trùng lắp Cho đến nay, nhiều thuật toán đưa có thuật tốn TSP giải vấn đề thực thi thuật tốn nhiều hạn chế tốc độ dung lượng lưu trữ Để giải khuyết điểm trên, luân văn đề xuất triển khai thuật toán TKCS Với ưu từ thuật toán gốc TKS mang lại, thêm vào thuật giải nên thuật tốn TKCS có bước tiến vượt trội so với TSP Kết thực nghiệm chứng minh thuật tốn TKCS khơng tiết kiệm nhớ sử dụng mà có thời gian thực thi nhanh hẳn so với TSP 5.2 HƯỚNG PHÁT TRIỂN Khai thác mẫu đóng hữu ích việc khai thác tri thức tiềm ẩn nguồn liệu dạng Tuy nhiên với phát triển nay, khối lượng liệu khai thác lớn, đòi hỏi khai thác cho hiệu với thời gian thực thi ngắn dung lượng sử dụng nhỏ Trong luận văn này, để tìm k mẫu đóng thuật tốn sử dụng tính giao bít vector làm tốn nhiều thời gian nhớ để xử lý Do đó, hướng phát triển khai thác thuật toán TKCS ta nên kết hợp thêm thuật tốn mã hóa khối ngun tố (Dynamic Bit-Vector)[18] để thời gian chạy nhanh dung lượng nhỏ 61 TÀI LIỆU THAM KHẢO [1].Agrawal and R Srikant (1995) “Mining sequential patterns,” Proc 11th Int Conf Data Eng., pp – 14 [2].Agrawal and R Srikant (1995) “Mining sequential patterns,” Proc 11th Int Conf Data Eng., pp – 14 [3].Agrawal, T Imieliński, and A Swami (1993) “Mining association rules between sets of items in large databases,” ACM SIGMOD Rec., vol 22, no 2, pp 207 – 216 [4].Ayres, J., Flannick, J., Gehrke, J., and Yiu, T (2002), Sequential pattern mining using a bitmap representation, In Proceedings of the 8th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining 429–435 [5].Fournier-Viger, A Gomariz, T Gueniche, E Mwamikazi, R Thomas International Conference on Advanced Data Mining and Applications, 109-120 (2013) [6].Guha, R Rastogi, and R K Shim (2009) “A robust clustering algorithm for categorical attributes,” In ICDE’99, pp 512 – 521 [7].Han, J., Pei, J., Mortazavi-Asl, B., Chen, Q., Dayal, U., and Hsu, M.C., (2000), Freespan: Frequent pattern-projected sequential pattern mining, in Proc 2000 Int Conf Knowledge Discovery and Data Mining (KDD’00), pp 355-359 [8].Jianyong Wang, Jiawei Han, (2007) “BIDE: efficient mining of frequent closed sequences”, Proceeding ICDE '04 Proceedings of the 20th International Conference on Data Engineering, 79–90 [9].Mannila, H Toivonen, and A Verkamo (1997) “Discovery of frequent episodes in event sequences,” Data Min Knowl …, vol 289, pp 259 –289 [10].Myra Spiliopoulou, (1999) “Managing Interesting Rules in Sequence Mining”, Proceedings of European Conference on Principles of Data Mining and Knowledge Discovery, 554–560 62 [11].Pei, J H J Han, B Mortazavi-Asl, H Pinto, Q C Q Chen, U Dayal, and M.C H M.-C Hsu (2001) “PrefixSpan,: mining sequential patterns efficiently by prefix-projected pattern growth,” Proc 17th Int Conf Data Eng [12].Pei, J., Han, J., Mortazavi-Asl, B., and Zhu, H (2000), Mining access patterns efficiently from web logs, In Knowledge Discovery and Data Mining Current Issues and New Applications Lecture Notes Computer Science, vol 1805, Springer, Berlin, 396–407 [13].Srikant and R Agrawal (1996) “Mining Sequential Patterns: Generalizations and Performance Improvements,” Proc 5th Int Conf Extending Database Technol Adv Database Technol., pp – 17 [14].Tseng et al (Eds.): PAKDD 2014, Part I, LNAI 8443, pp 40–52, 2014 [15].Tzvetkov, X Yan, and J Han (2005) “TSP: Mining top-k closed sequential patterns,” Knowl Inf Syst., vol 7, no 4, pp 438 – 457 [16].Yan, J Han, and R Afshar, “CloSpan: Mining closed sequential patterns in large databases,” Proc SIAM Int’l Conf Data Mining (SDM ’03), pp 166-177, May 2003 [17].Zaki (2001) “SPADE: An efficient algorithm for mining frequent sequences,” Mach Learn., vol 42, no – 2, pp 31 – 60, 2001 [18] Bay Vo, Tzung-Pei Hong, Bac Le (2012) DBV-Miner: A Dynamic Bit-Vector approach for fast mining frequent closed itemsets Expert Systems with Applications, Volume 39, Issue 8, 15 June 2012, Pages 7196-7206 [19] Fournier-Viger P., Gomariz A., Campos M., Thomas R (2014) Fast Vertical Mining of Sequential Patterns Using Co-occurrence Information In: Tseng V.S., Ho T.B., Zhou ZH., Chen A.L.P., Kao HY (eds) Advances in Knowledge Discovery and Data Mining PAKDD 2014 Lecture Notes in Computer Science, vol 8443 Springer, Cham ... Tên đề tài: KHAI THÁC TOP K MẪU TUẦN TỰ ĐÓNG II – Nhiệm vụ nội dung:  Nghiên cứu toán khai thác Top- k mẫu đóng  Tìm hiểu khai thác mẫu mẫu đóng  Nghiên cứu Thuật toán SPAM,TSP,TKS  Nghiên... khai thác mẫu mẫu đóng Từ đó, đề phương pháp tìm k mẫu đóng cho thuật tốn TKS ứng dụng để khai thác liệu, đặt biệt CSDL mẫu lớn 1.4 Nơi dung nghiên cứu  Nghiên cứu tốn khai thác Top- k mẫu đóng. .. phương pháp khai thác k mẫu phổ biến TKS[5], đề xuất phương pháp khai thác k mẫu tuần phổ biến TKS để tìm mẫu đóng với tên TKCS 3 Chương K t thực nghiệm đánh giá Trình bày k t thử nghiệm đánh

Ngày đăng: 24/10/2018, 10:53

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan