1. Trang chủ
  2. » Luận Văn - Báo Cáo

Khai thác k mẫu tuần tự đóng

76 137 2

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 76
Dung lượng 1,25 MB

Nội dung

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP HCM ĐỖ THANH TÙNG KHAI THÁC K MẪU TUẦN TỰ ĐÓNG LUẬN VĂN THẠC SĨ Chuyên ngành: Công Nghệ Thông Tin Mã ngành: 60480201 TP HỒ CHÍ MINH, Tháng 11 năm 2017 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP HCM ĐỖ THANH TÙNG KHAI THÁC K MẪU TUẦN TỰ ĐĨNG LUẬN VĂN THẠC SĨ Chun ngành: Cơng Nghệ Thông Tin Mã ngành: 60480201 CÁN BỘ HƯỚNG DẪN KHOA HỌC: TS PHẠM THỊ THIẾT TP HỒ CHÍ MINH, Tháng 11 năm 2017 CƠNG TRÌNH ĐƯỢC HỒN THÀNH TẠI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP HCM Cán hướng dẫn khoa học : TS PHẠM THỊ THIẾT Luận văn Thạc sĩ bảo vệ Trường Đại học Công nghệ TP HCM ngày 17 tháng 06 năm 2018 Thành phần Hội đồng đánh giá Luận văn Thạc sĩ gồm: (Ghi rõ họ, tên, học hàm, học vị Hội đồng chấm bảo vệ Luận văn Thạc sĩ) S T 1P G 2P G 3T S 4T S 5T S C h P bi P bi Ủ v Xác nhận Chủ tịch Hội đồng đánh giá Luận sau Luận văn sửa chữa (nếu có) Chủ tịch Hội đồng đánh giá LV TRƯỜNG ĐH CÔNG NGHỆ TP.HCM VIỆN ĐÀO TẠO SAU ĐẠI HỌC CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập – Tự – Hạnh phúc TP.HCM, Ngày 28 Tháng 11 Năm 2017 NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên: Đỗ Thanh Tùng Giới tính: Nam Ngày tháng năm sinh: 10-06-1990 Nơi sinh: Khánh Hòa Chun ngành: Cơng Nghệ Thơng Tin MSHV: 1541860046 I – Tên đề tài: KHAI THÁC TOP K MẪU TUẦN TỰ ĐÓNG II – Nhiệm vụ nội dung:  Nghiên cứu toán khai thác Top- k mẫu đóng  Tìm hiểu khai thác mẫu mẫu đóng  Nghiên cứu Thuật toán SPAM,TSP,TKS  Nghiên cứu đề xuất phương pháp khai thác mẫu đóng dựa vào thuật tốn TKS  Xây dựng chương trình thực nghiệm đánh giá kết III – Ngày giao nhiệm vụ: Ngày 15 tháng 03 năm 2017 IV – Ngày hoàn thành nhiệm vụ: Ngày 28 tháng 11 năm 2017 V – Cán hướng dẫn: Tiến sĩ Phạm Thị Thiết CÁN BỘ HƯỚNG DẪN KHOA QUẢN LÝ CHUYÊN NGÀNH i LỜI CAM ĐOAN Tôi xin cam đoan cơng trình nghiên cứu riêng tơi Các số liệu, kết đánh giá, nhận xét đề xuất thuật toán nêu Luận văn trung thực chưa công bố cơng trình khác Tơi xin cam đoan giúp đỡ cho việc thực Luận văn trích dẫn hay tài liệu học thuật tham khảo cảm ơn đến tác giả hay ghi rõ ràng nguồn gốc thơng tin trích dẫn Luận văn Học viên thực Luận văn Đỗ Thanh Tùng ii LỜI CÁM ƠN Trước hết, cho gửi lời cảm ơn đến hướng dẫn giúp đỡ tận tình TS PHẠM THỊ THIẾT suốt thời gian nghiên cứu thực Luận văn Tôi xin cảm ơn quý Thầy Cô trường Đại Học Cơng Nghệ Tp.HCM nhiệt tình giảng dạy, truyền đạt cho chúng tơi kiến thức bổ ích qua mơn học chương trình cao học Tơi xin gởi lời cảm ơn đến gia đình, bạn bè người thân động viên, quan tâm giúp đỡ suốt thời gian học tập nghiên cứu hoàn thành Luận văn Luận văn khơng thể tránh khỏi sai sót, mong nhận ý kiến đóng góp người cho Luận văn để Luận văn hồn thiện Tơi xin chân thành cảm ơn TP Hồ Chí Minh, tháng 11 năm 2017 ĐỖ THANH TÙNG TÓM TẮT Khai thác mẫu phần quan trọng khai thác liệu với ứng dụng rộng rãi Tuy nhiên, việc tùy chỉnh thông số minsup để phù hợp thuật toán khai thác mẫu nhằm tạo số mẫu mà người dùng mong muốn điều khó khăn tốn thời gian Để giải vấn đề này, thuật toán khai thác k mẫu đóng TSP [15] đưa phương án giới hạn lại số lượng k mẫu cần khai thác, thời gian thực nhớ sử dụng thuật tốn cao Vì thế, luận văn đề xuất thuật tốn TKCS tìm k mẫu đóng dựa thuật toán TKS[5] Với k mẫu nhập vào thuật tốn trả k mẫu có độ hỗ trợ cao CSDL Kết thực thi cho thấy, Thuật tốn TKCS có hiệu suất tốt nhiều so với thuật tốn TSP chi phí thời gian nhớ sử dụng Ngoài ta thuật tốn TKCS xử lý tốt CSDL khác nhau, đặc biệt CSDL mẫu lớn ABSTRACT Sequential pattern mining is a important part of data minning with wide applications However, it is very difficult and time-consuming to customize the minsup parameters to fit in sequential pattern mining algorithms to create the right number of samples desired by the user To solve this problem, the TSP[15] algorithm had proposed method to limit the number of sequential patterns to be mined but a running time and usage memory of this algorithm is high Therefore,thesis proposal TKCS algorithm find k closed sequence patterns based on the TKS[5] algorithm With input k patterns , the algorithm returns k patterns highest degree of support in the database The results show that TKCS algorithm is much better than TSP algorithm time cost as well as memory usage In addition, the TKCS algorithm handles well on various databases, especially large sample databases MỤC LỤC TÓM TẮT iii ABSTRACT iv DANH MỤC CÁC TỪ VIẾT TẮT vii DANH MỤC BẢNG viii DANH MỤC HÌNH ix CHƯƠNG 1: GIỚI THIỆU 1.1 Đặt vấn đề 1.2 Mục tiêu đề tài: 1.3 Phạm vi nghiên cứu đề tài 1.4 Nôi dung nghiên cứu 1.5 Bố cục đề tài CHƯƠNG 2: CƠ SỞ LÝ THUYẾT 2.1 Giới thiệu 2.2 Các khái niệm chuỗi liệu 2.2.1 Cơ sở liệu chuỗi: 2.2.2 Độ hỗ trợ: 2.2.3 Mẫu 2.2.4 Mẫu 2.3 Khai thác mẫu 2.4 Các thuật toán khai thác mẫu 2.4.1 Thuật toán AprioriAll 2.4.2 Thuật toán GSP 2.4.3 Thuật toán SPADE 10 2.4.4 Thuật toán SPAM 11 2.4.5 Thuật toán WAP-mine 13 2.4.6 Thuật toán FreeSpan, PrefixSpan 13 3.2.1.1 Thuật toán FreeSpan 14 3.2.1.2 Thuật toán PrefixSpan 14 2.4.7 Đánh giá 19 2.5 Mẫu đóng: 20 2.6 Thuật tốn khai thác mẫu đóng 20 2.6.1 Thuật toán CloSpan 20 2.6.2 Thuật toán BIDE 21 2.6.3 Giới thiệu thuật toán TSP 22 2.6.4 Cấu trúc PDB 23 2.6.5 Thuật toán TSP 24 2.6.6 Nhận xét: 29 CHƯƠNG 3: KHAI THÁC TOP K MẪU TUẦN TỰ ĐÓNG 30 3.1 Giới thiệu: 30 3.2 Thuật toán TKS 30 3.2.1 Cơ sở liệu bitmap dọc 31 3.2.2 Phương thức tạo ứng viên thuật toán SPAM 32 3.2.3 Các chiến lược tăng hiệu suất khai thác liệu TKS 36 3.2.4 Thuật tốn TKS tìm tập phổ biến 42 3.2.5 Nhận xét: 45 3.3 THUẬT TOÁN TKCS 46 3.3.1 Thuật toán TKCS: 46 3.3.2 Nhận xét: 52 CHƯƠNG 4: KẾT QUẢ THỰC NGHIỆM VÀ ĐÁNH GIÁ 53 4.1 Môi trường thực nghiệm 53 Bảng 3.5 CSDL thuật toán TKCS Đầu tiên thuật toán khởi tạo tập rỗng R, L đặt mipsup =0 Duyệt CSDL D bảng 3.1 để tạo bit vecto đếm độ hỗ trợ item bit vecto Sau thuật tốn xét độ hỗ trợ item xem chúng có thỏa điều kiện minsup hay khơng Nếu thỏa lưu vào tập L xếp chúng tăng dần thi độ hỗ trợ danh sách từ điển Kế tiếp mở rộng item có độ hỗ trợ triển vọng ( cao nhất) Các item thỏa điểu kiện minsup gồm: d:4, e:4, f:4, a:5, b:5, c:5 Lúc thuật toán tìm mẫu phổ biến gán minsup độ hỗ trợ lớn item tập L với độ hỗ trợ Lưu item có độ hỗ trợ vào tập L R mở rộng chúng theo hướng s-extension iextension Lần lượt mở rộng với item đâu tiên (a) mở rộng theo s-extension ta có mẫu sau: {(a)(a)}:4,{(a),(b)}:4,{(a),(c)}:5, {(a),(d)}3, {(a),(e)}:2, {(a),(f)}:2 Ta item thỏa điều kiện minsup đề {(a),(c)} với độ hỗ trợ Lưu tập {(a),(c)} vào L lưu mẫu có độ hỗ trợ nhỏ minsup vào tập R Tiếp đến mở rộng (a) theo hướng i-extension với minsup =5 ta có tập kết sau: {(a,b)}2: , {(a,c)}:2 , {(a,d)}:2 , {(a,e)}:2 , {(a,f)}:1 Khơng có item thỏa điều kiện thỏa minsup dừng thuật toán mở rộng (a) theo i-extension Dựa vào kết đạt mở rộng (a) s-extension ta thu đươc item {(a),(c)} Và mở rộng chúng theo s-extension i-extension ta có kết sau: Mở rộng theo s-extension {(a),(c),(a)}:2, {(a),(c),(b)}:2, {(a),(c),(c)}:3 {(a),(c),(d)}:1, {(a),(c),(e)}:1, {(a),(c),(f)}:1 Khơng có tiem thỏa điều kiện thỏa minsup dừng thuật toán mở rộng {(a),(c)}, theo s-extension Tiếp đến mở rộng {(a),(c)} theo i-extension ta tập kết sau: {(a),(ca)}:0, {(a),(cb)}:0 , {(a),(cd)}:0 , {(a),(ce)}:0 , {(a),(cf)}:1 Khơng có tiem thỏa điều kiện thỏa minsup dừng thuật toán mở rộng {(a),(c)} theo i-extension Tiếp tục mở rộng (b) theo s-extension i-extension với minsup =5 ta tập kết sau: Đối với mở rộng s-extension ta được: {(b)(a)}:3 , {(b)(b)}: 1, {(b)(c)} 5: , {(b)(d)}:3 , {(b)(e)}:2 , {(b)(f)}:2 Ta item thỏa điều kiện minsup đề {(b),(c)} với độ hỗ trợ Lưu mẫu có độ hỗ trợ nhỏ minsup vào tập R Vì chúng khơng thỏa điều kiện minsup Lưu tập item {(b),(c)} vào tập L Kế tiếp, mở rộng (b) theo hướng i-extension thu kết sau: {(ba)}:0 , {(bc)}: 1, {(bd)}:0 , {(be)}:0 , {(bf)}: Khơng có item thỏa điều kiện thỏa minsup dừng thuật toán mở rộng (b) theo i-extension Dựa vào kết đạt mở rộng (b) s-extension ta thu đươc item {(b),(c)} Và mở rộng chúng theo s-extension i-extension ta có kết sau: Đối với s-extension {(b),(c),(a)}:1, {(b),(c),(b)}:1, {(b),(c),(c)}:1, {(b),(c),(d)}:1, {(b),(c),(e)}:1, {(b),(c),(f)}:1 Khơng có tiem thỏa điều kiện thỏa minsup dừng thuật toán mở rộng {(b),(c)}, theo s-extension Tiếp đến mở rộng {(b),(c)} theo i-extension ta tập kết sau: {(b),(ca)}:0, {(b),(cb)}:0 , {(b),(cd)}:0 , {(b),(ce)}:0 , {(b),(cf)}:1 Khơng có tiem thỏa điều kiện thỏa minsup dừng thuật toán mở rộng{(b),(c)}, theo i-extension Cuối mở rộng item (c) theo s-extension i-extension với minsup =5 ta tập kết sau: Đối với mở rộng s-extension ta được: {(c)(a)}:3 , {(c)(b)}:3, {(c)(c)}4: , {(c)(d)}:2 , {(c)(e)}:2 , {(c)(f)}:2 Lưu mẫu có độ hỗ trợ nhỏ minsup vào tập R khơng có item thỏa điều kiện thỏa minsup dừng thuật toán mở rộng (c) theo sextension Kế tiếp, mở rộng (c) theo hướng i-extension thu kết sau: {(c,a)}:0 , {(c,b)}: 1, {(c,d)}:0 , {(c,e)}:1 , {(c,f)}: Khơng có item thỏa điều kiện thỏa minsup dừng thuật toán mở rộng (c) theo i-extension Kết trả tập L chứa item có độ hỗ trợ lớp là {(a)}, {(b)}, {(c)}, {(a),(c)}, {(b),(c)} xét mấu đóng cho tập L có mẫu thỏa {(a),(c)}, {(b),(c)} loại {(a)},{(b)},{(c} chúng {(a),(c)}, {(b),(c)}và có độ hỗ trợ Lúc mẫu chưa thỏa k nhập vào, thuật toán đem mẫu có độ hỗ trợ lớn R mở rộng với minsup mở rộng mẫu Mẫu {(a)(a)} mở rộng theo s-extension cho kết quả: {(a),(a),(a)}:1,{(a),(a),(b)}:1,{(a),(a),(c)}:2,{(a),(a),(d)}:1,{(a),(a),(e)}:0,{(a),(a),(f) }:1, Khơng có item thỏa điều kiện thỏa minsup dừng thuật toán mở rộng {(a),(a)} theo s-extension Tiếp tục mở rộng {(a)(a)} theo i-extension thu kết quả: {(a),(ab}:1,{(a),(ac)}:2,{(a),(ad)}:0,{(a),(a),(ae)}:0,{(a),(af)}:1 Khơng có item thỏa điều kiện thỏa minsup dừng thuật toán mở rộng {(a),(a)} theo i-extension Đi mở rộng tiếp với mẫu {(a),(b)} mở rộng theo s-extension cho kết quả:{(a),(b),(a)}:2,{(a),(b),(b)}:0,{(a),(b),(c)}:0,{(a),(b),(d)}:1,{(a),(b),(e)}:1, {(a),(b),(f)}:1, Khơng có item thỏa điều kiện thỏa minsup dừng thuật toán mở rộng {(a),(b)} theo s-extension Tiếp tục mở rộng {(a)(b)} theo i-extension thu kết quả: {(a),(ba)}:0,{(a),(bc)}:1,{(a),(bd)}:0,{(a),(be)}:0,{(a),(bf)}:0 Khơng có item thỏa điều kiện thỏa minsup dừng thuật toán mở rộng {(a),(b)} theo i-extension Với mẫu mở rộng theo s-extension cho kết quả:{(c),(c),(a)}:1,{(c),(c),(b)}:0,{(c),(c),(c)}:0,{(c),(c),(d)}:1,{(c),(c),(e)}:1, {(c),(c),(f)}:1, Khơng có item thỏa điều kiện thỏa minsup dừng thuật toán mở rộng {(c),(c)} theo s-extension Tiếp tục mở rộng {(c)(c)} theo i-extension thu kết quả: {(c),(ca)}:0,{(c),(cb)}:1,{(c),(cd)}:0,{(c),(ce)}:0,{(c),(cf)}:0 Khơng có item thỏa điều kiện thỏa minsup dừng thuật toán mở rộng {(c),(c)} theo i-extension Tiếp tục đem mẫu đơn (d),(e),(f) mở rộng theo s-extension iextension với độ hỗ trợ Mẫu (d) mở rộng theo s-extension thu kết sau: {(d),(a)}:2, {(d),(b)}:2, {(d),(c)}:4, {(d),(d)}:1, {(d),(e)}:2, {(d),(f)}:1 Ta item thỏa điều kiện minsup đề {(d),(c)} với độ hỗ trợ Lưu {(d),(c)} vào tập L Mẫu (d) mở rộng theo i-extension thu kết sau: {(da)}:0, {(db)}:0, {(dc)}:0, {(de)}:0, {(df)}:1 Với mẫu đạt mở rộng (d) s-extension ta thu đươc item {(d),(c)} Và mở rộng chúng theo s-extension i-extension ta có kết sau: Đối với s-extension {(d),(c),(a)}:1, {(d),(c),(b)}:0, {(d),(c),(c)}:1, {(d),(c),(d)}:0, {(d),(c),(e)}:1, {(d),(c),(f)}:0 Không có tiem thỏa điều kiện thỏa minsup dừng thuật toán mở rộng {(b),(c)}, theo s-extension Tiếp đến mở rộng {(d),(c)} theo i-extension ta tập kết sau: {(d),(ca)}:0, {(d),(cb)}:0 , {(d),(cd)}:0 , {(d),(ce)}:0 , {(d),(cf)}:1 Khơng có tiem thỏa điều kiện thỏa minsup dừng thuật toán mở rộng{(d),(c)}, theo i-extension Mở rộng mẫu (e) theo s-extension ta được: {(e)(a)}:3 , {(e)(b)}:3, {(e)(c)}3: , {(e)(d)}:2 , {(e)(e)}:1 , {(e)(f)}:3 Khơng có item thỏa điều kiện thỏa minsup dừng thuật toán mở rộng (e) theo s-extension Kế tiếp, mở rộng (e) theo hướng i-extension thu kết sau: {(ea)}:0 , {(eb)}: 0, {(ec)}:0 , {(ed)}:0 , {(ef)}: Khơng có item thỏa điều kiện thỏa minsup dừng thuật toán mở rộng (c) theo i-extension Cuối mở rộng mẫu (f) theo s-extension ta được: {(f)(a)}:2 , {(f)(b)}:2, {(f)(c)}:3 , {(f)(d)}:2 , {(f)(e)}:1 , {(f)(f)}:1 Khơng có item thỏa điều kiện thỏa minsup dừng thuật toán mở rộng (e) theo s-extension Kế tiếp, mở rộng (f) theo hướng i-extension thu kết sau: {(fa)}:0 , {(fb)}: 0, {(fc)}:0 , {(fd)}:0 , {(fe)}:0 Khơng có item thỏa điều kiện thỏa minsup dừng thuật toán mở rộng (c) theo i-extension Đi mở rộng mẫu với độ hỗ trợ (minsup) ta thu tập đóng sau: :5, :5, :4, :4, :4, :4, :4, :4 Tập L = ứng với k mẫu nhập vào xuất kết quả: Vậy k =8, Tập L có mẫu đóng sau: M Độ ẫ hỗ 5 4 4 4 Bảng 3.6 Kết mẫu đóng TKCS 3.3.2 Nhận xét: Thuật tốn TKCS đạt hiệu cao TSP[15] mặt thời gian nhớ cách xếp item theo thứ tự tăng dần lấy item có độ hỗ trợ cao mở rộng Trong chương thực hiệu suất khai thác TKCS so với thuật toán TSP CHƯƠNG 4: 4.1 KẾT QUẢ THỰC NGHIỆM VÀ ĐÁNH GIÁ Môi trường thực nghiệm Dữ liệu chuỗi loại liệu phổ biến nhiều lĩnh vực ứng dụng Do đó, luận văn tiến hành thực nghiệm CSDL lấy từ địa web: http://www.philippe-fournier-viger.com/spmf/index.php?link=download.php loại CSDL phổ biến đa dạng như: liệu sinh học, liệu web, liệu viết thực thi chương trình… Việc thực nghiệm tiến hành máy tính xách tay Sony Vaio có cấu hình CPU Intel core i5-M430, 8G RAM sử dụng hệ điều hành Microsoft Windows 10, cài đặt ngơn ngữ lập trình Java 4.2 Bộ liệu chạy thực nghiệm D C I A T AO T V Y TU E G L ev P Bi bl Si g n si g F I 2 n w eb B m 9 w eb B m 7 3 w eb Bảng 4.1 Bộ CSDL chạy thực nghiệm thuộc tính liên quan 4.3 Kết thực nghiệm TKCS TSP Chạy thực nghiệm thuật toán TKCS TSP với liệu Sign Leviathan, Bible, FIFA, BmsWebView1, BmsWebView2 cho mẫu k = 50, 100 , 200, 300, 400 ta thu bảng kết sau: S ố lư L iath an Bộ nh FIFA B m s W e b V B m s W e b V Bảng 4.2 Kết chạy thực nghiệm TKCS TSP liệu TSP 4000 3420 3500 Thời gian chạy ( ms) CSDL Sign TKCS 3122 3000 1974 2000 1042 1000 1039 532 1438 1234 605 500 300 50 100 200 K 300 400 Hình 4.1 So sánh thời gian thực TKCS TSP CSDL Sign TSP 70000 CSDL Leviathan TKCS 65851 Thời gian chạy ( ms) 60000 54163 50000 40000 39216 30000 20000 10000 17538 4835 2185 3538 100 200 K 5946 7789 1354 50 300 400 Hình 4.2 So sánh thời gian thực TKCS TSP CSDL Leviathan TSP 110000 101176 100000 90000 Thời gian chạy ( ms) CSDL Bible TKCS 82218 80000 70000 60000 48784 50000 40000 24755 30000 20000 10000 11319 8519 4562 12787 16455 2874 50 100 200 K 300 400 Hình 4.3 So sánh thời gian thực TKCS TSP CSDL Bible 110 000 100 TSP 97623 000 90 00 80 Thời gian chạy ( ms) CSDL FIFA TKCS 00 70 00 60 72025 00 50 00 40 53109 00 30 00 20 00 10000 23084 10532 7181 11812 17326 21412 4354 50 100 200 K 300 400 Hình 4.4 So sánh thời gian thực TKCS TSP CSDL FIFA TSP 4500 TKCS 3834 4000 Thời gian chạy ( ms) 3500 3118 3000 2443 2374 2500 1735 2000 1224 1500 1000 500 CSDL BmsWebView1 850 260 752 358 50 100 200 K 300 400 Hình 4.5 So sánh thời gian thực TKCS TSP CSDL BmsWebView1 TSP 5000 TKCS 3848 4000 Thời gian chạy ( ms) 4698 3500 3069 3000 2500 2045 2051 2000 1500 1000 500 1579 1257 1216 591 773 50 100 200 K 300 400 Hình 4.6 So sánh thời gian thực TKCS TSP CSDL BmsWebView2 Với kết chạy thực nghiệm hình ( từ hình 4.1 đến 4.6) ta nhận thấy thuật tốn TKCS có thời gian thực thi nhanh hẳn so với TSP Nhất người dùng ngưỡng k mẫu cần tìm lớn thời gian chạy TKCS TSP lớn Theo kết so sánh bảng 4.1 với CSDL Sign nhập k = 50 ta thấy gian chạy TKCS nhanh gấp 1.7 lần so với TSP tăng lên 400 điều thể rõ với thời gian chạy lúc TKCS gấp 2.3 lần TSP Với CSDL khác độ chênh lệch thời gian khác Đối với CSDL lớn có nhiều item thời gian thực thi TSP chậm so với liệu có item Như hình 4.3 với mẫu k = 50 TSP có thời gian chạy lâu gấp 3.9 TKCS với mẫu k = 400 gấp 6.1 lần Như thuật toán TKCS cho ta thấy thực thi CSDL lớn có số lượng item nhiều thời gian thực tốt nhiều so với TSP CHƯƠNG 5: 5.1 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN KẾT LUẬN Luận văn tìm hiểu sở lý thuyết khai thác mẫu mẫu đóng Qua đó, thấy tầm quan trọng khai thác mẫu đóng Khai thác mẫu đóng tìm tất chuỗi cha loại chuỗi có độ hỗ trợ, ứng với k mẫu nhập vào Tìm mẫu có độ hỗ trợ cao loại bỏ trường hợp tìm mẫu bị trùng lắp Cho đến nay, nhiều thuật tốn đưa có thuật tốn TSP giải vấn đề thực thi thuật tốn nhiều hạn chế tốc độ dung lượng lưu trữ Để giải khuyết điểm trên, luân văn đề xuất triển khai thuật toán TKCS Với ưu từ thuật toán gốc TKS mang lại, thêm vào thuật giải nên thuật tốn TKCS có bước tiến vượt trội so với TSP Kết thực nghiệm chứng minh thuật tốn TKCS khơng tiết kiệm nhớ sử dụng mà có thời gian thực thi nhanh hẳn so với TSP 5.2 HƯỚNG PHÁT TRIỂN Khai thác mẫu đóng hữu ích việc khai thác tri thức tiềm ẩn nguồn liệu dạng Tuy nhiên với phát triển nay, khối lượng liệu khai thác lớn, đòi hỏi khai thác cho hiệu với thời gian thực thi ngắn dung lượng sử dụng nhỏ Trong luận văn này, để tìm k mẫu đóng thuật tốn sử dụng tính giao bít vector làm tốn nhiều thời gian nhớ để xử lý Do đó, hướng phát triển khai thác thuật toán TKCS ta nên kết hợp thêm thuật tốn mã hóa khối nguyên tố (Dynamic Bit-Vector)[18] để thời gian chạy nhanh dung lượng nhỏ TÀI LIỆU THAM KHẢO [1].Agrawal and R Srikant (1995) “Mining sequential patterns,” Proc 11th Int Conf Data Eng., pp – 14 [2].Agrawal and R Srikant (1995) “Mining sequential patterns,” Proc 11th Int Conf Data Eng., pp – 14 [3].Agrawal, T Imieliński, and A Swami (1993) “Mining association rules between sets of items in large databases,” ACM SIGMOD Rec., vol 22, no 2, pp 207 – 216 [4].Ayres, J., Flannick, J., Gehrke, J., and Yiu, T (2002), Sequential pattern mining using a bitmap representation, In Proceedings of the 8th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining 429–435 [5].Fournier-Viger, A Gomariz, T Gueniche, E Mwamikazi, R Thomas International Conference on Advanced Data Mining and Applications, 109-120 (2013) [6].Guha, R Rastogi, and R K Shim (2009) “A robust clustering algorithm for categorical attributes,” In ICDE’99, pp 512 – 521 [7].Han, J., Pei, J., Mortazavi-Asl, B., Chen, Q., Dayal, U., and Hsu, M.C., (2000), Freespan: Frequent pattern-projected sequential pattern mining, in Proc 2000 Int Conf Knowledge Discovery and Data Mining (KDD’00), pp 355-359 [8].Jianyong Wang, Jiawei Han, (2007) “BIDE: efficient mining of frequent closed sequences”, Proceeding ICDE '04 Proceedings of the 20th International Conference on Data Engineering, 79–90 [9].Mannila, H Toivonen, and A Verkamo (1997) “Discovery of frequent episodes in event sequences,” Data Min Knowl …, vol 289, pp 259 –289 [10].Myra Spiliopoulou, (1999) “Managing Interesting Rules in Sequence Mining”, Proceedings of European Conference on Principles of Data Mining and Knowledge Discovery, 554–560 [11].Pei, J H J Han, B Mortazavi-Asl, H Pinto, Q C Q Chen, U Dayal, and M.C H M.-C Hsu (2001) “PrefixSpan,: mining sequential patterns efficiently by prefix-projected pattern growth,” Proc 17th Int Conf Data Eng [12].Pei, J., Han, J., Mortazavi-Asl, B., and Zhu, H (2000), Mining access patterns efficiently from web logs, In Knowledge Discovery and Data Mining Current Issues and New Applications Lecture Notes Computer Science, vol 1805, Springer, Berlin, 396–407 [13].Srikant and R Agrawal (1996) “Mining Sequential Patterns: Generalizations and Performance Improvements,” Proc 5th Int Conf Extending Database Technol Adv Database Technol., pp – 17 [14].Tseng et al (Eds.): PAKDD 2014, Part I, LNAI 8443, pp 40–52, 2014 [15].Tzvetkov, X Yan, and J Han (2005) “TSP: Mining top-k closed sequential patterns,” Knowl Inf Syst., vol 7, no 4, pp 438 – 457 [16].Yan, J Han, and R Afshar, “CloSpan: Mining closed sequential patterns in large databases,” Proc SIAM Int’l Conf Data Mining (SDM ’03), pp 166-177, May 2003 [17].Zaki (2001) “SPADE: An efficient algorithm for mining frequent sequences,” Mach Learn., vol 42, no – 2, pp 31 – 60, 2001 [18] Bay Vo, Tzung-Pei Hong, Bac Le (2012) DBV-Miner: A Dynamic Bit-Vector approach for fast mining frequent closed itemsets Expert Systems with Applications, Volume 39, Issue 8, 15 June 2012, Pages 7196-7206 [19] Fournier-Viger P., Gomariz A., Campos M., Thomas R (2014) Fast Vertical Mining of Sequential Patterns Using Co-occurrence Information In: Tseng V.S., Ho T.B., Zhou ZH., Chen A.L.P., Kao HY (eds) Advances in Knowledge Discovery and Data Mining PAKDD 2014 Lecture Notes in Computer Science, vol 8443 Springer, Cham ... Tên đề tài: KHAI THÁC TOP K MẪU TUẦN TỰ ĐÓNG II – Nhiệm vụ nội dung:  Nghiên cứu toán khai thác Top- k mẫu đóng  Tìm hiểu khai thác mẫu mẫu đóng  Nghiên cứu Thuật tốn SPAM,TSP,TKS  Nghiên... khai thác mẫu mẫu đóng Từ đó, đề phương pháp tìm k mẫu đóng cho thuật tốn TKS ứng dụng để khai thác liệu, đặt biệt CSDL mẫu lớn 1.4 Nôi dung nghiên cứu  Nghiên cứu tốn khai thác Top- k mẫu đóng. .. phương pháp khai thác k mẫu phổ biến TKS[5], đề xuất phương pháp khai thác k mẫu tuần phổ biến TKS để tìm mẫu đóng với tên TKCS 3 Chương K t thực nghiệm đánh giá Trình bày k t thử nghiệm đánh

Ngày đăng: 02/01/2019, 10:55

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[11].Pei, J. H. J. Han, B. Mortazavi-Asl, H. Pinto, Q. C. Q. Chen, U. Dayal, and M.- C. H. M.-C. Hsu (2001). “PrefixSpan,: mining sequential patterns efficiently by prefix-projected pattern growth,” Proc. 17th Int. Conf. Data Eng Sách, tạp chí
Tiêu đề: PrefixSpan,: mining sequential patterns efficiently byprefix-projected pattern growth,”
Tác giả: Pei, J. H. J. Han, B. Mortazavi-Asl, H. Pinto, Q. C. Q. Chen, U. Dayal, and M.- C. H. M.-C. Hsu
Năm: 2001
[12].Pei, J., Han, J., Mortazavi-Asl, B., and Zhu, H. (2000), Mining access patterns efficiently from web logs, In Knowledge Discovery and Data Mining. Current Issues and New Applications. Lecture Notes Computer Science, vol. 1805, Springer, Berlin, 396–407 Sách, tạp chí
Tiêu đề: Mining access patternsefficiently from web logs
Tác giả: Pei, J., Han, J., Mortazavi-Asl, B., and Zhu, H
Năm: 2000
[13].Srikant and R. Agrawal (1996). “Mining Sequential Patterns: Generalizations and Performance Improvements,” Proc. 5th Int. Conf. Extending Database Technol.Adv. Database Technol., pp. 3 – 17 Sách, tạp chí
Tiêu đề: Mining Sequential Patterns: Generalizationsand Performance Improvements,” "Proc. 5th Int. Conf. Extending Database Technol."Adv. Database Technol
Tác giả: Srikant and R. Agrawal
Năm: 1996
[15].Tzvetkov, X. Yan, and J. Han (2005). “TSP: Mining top-k closed sequential patterns,” Knowl. Inf. Syst., vol. 7, no. 4, pp. 438 – 457 Sách, tạp chí
Tiêu đề: TSP: Mining top-k closed sequentialpatterns
Tác giả: Tzvetkov, X. Yan, and J. Han
Năm: 2005
[16].Yan, J. Han, and R. Afshar, “CloSpan: Mining closed sequential patterns in large databases,” Proc. SIAM Int’l Conf. Data Mining (SDM ’03), pp. 166-177, May 2003 Sách, tạp chí
Tiêu đề: CloSpan: Mining closed sequential patterns inlarge databases
[17].Zaki (2001). “SPADE: An efficient algorithm for mining frequent sequences,”Mach. Learn., vol. 42, no. 1 – 2, pp. 31 – 60, 2001 Sách, tạp chí
Tiêu đề: SPADE: An efficient algorithm for mining frequent sequences,”"Mach. Learn
Tác giả: Zaki
Năm: 2001
[18] Bay Vo, Tzung-Pei Hong, Bac Le (2012) DBV-Miner: A Dynamic Bit-Vector approach for fast mining frequent closed itemsets Expert Systems with Applications, Volume 39, Issue 8, 15 June 2012, Pages 7196-7206 Khác
[19] Fournier-Viger P., Gomariz A., Campos M., Thomas R. (2014) Fast Vertical Mining of Sequential Patterns Using Co-occurrence Information. In: Tseng V.S., Ho T.B., Zhou ZH., Chen A.L.P., Kao HY. (eds) Advances in Knowledge Discovery and Data Mining. PAKDD 2014. Lecture Notes in Computer Science, vol 8443. Springer, Cham Khác

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w