1. Trang chủ
  2. » Luận Văn - Báo Cáo

Khai phá luật kết hợp trên dữ liệu dãy

65 474 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 65
Dung lượng 1,37 MB

Nội dung

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƢỜNG ĐẠI HỌC SƢ PHẠM HÀ NỘI ====== LÊ THỊ THU HÀ KHAI PHÁ LUẬT KẾT HỢP TRÊN DỮ LIỆU DÃY Chuyên ngành: Khoa học máy tính Mã số: 60 48 01 01 LUẬN VĂN THẠC SĨ MÁY TÍNH Ngƣời hƣớng dẫn khoa học: TS Nguyễn Long Giang HÀ NỘI, 2015 LỜI CẢM ƠN Bằng kính trọng lòng biết ơn sâu sắc, em xin trân thành cảm ơn T.S Nguyễn Long Giang, ngƣời tận tình hƣớng dẫn giúp đỡ em suốt trình nghiên cứu hoàn thành luận văn Em xin trân thành cảm ơn thầy cô khoa Công nghệ thông tin, phòng Sau đại học Trƣờng Đại học Sƣ phạm Hà Nội 2, thầy cô trực tiếp giảng dạy toàn khóa học truyền thụ kiến thức quý báu tạo điều kiện thuận lợi cho em suốt trình học tập nghiên cứu trƣờng Trong trình nghiên cứu, hoàn thiện luận văn khó tránh khỏi thiếu sót Rất mong nhận đƣợc góp ý Quý thầy cô bạn bè đồng nghiệp quan tâm đến luận văn Vĩnh Phúc, ngày 06 tháng 12 năm 2015 Học viên Lê Thị Thu Hà LỜI CAM ĐOAN Tôi xin cam đoan kết nghiên cứu dƣới hƣớng dẫn khoa học TS Nguyễn Long Giang Các số liệu, kết nêu luận văn trung thực chƣa đƣợc công bố công trình khác Học viên Lê Thị Thu Hà i MỤC LỤC LỜI CẢM ƠN LỜI CAM ĐOAN MỤC LỤC i DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT iii DANH MỤC CÁC BẢNG iv DANH MỤC CÁC HÌNH v MỞ ĐẦU .1 CHƢƠNG 1: TỔNG QUAN VỀ KHAI PHÁ TẬP MỤC THƢỜNG XUYÊN 1.1 Các khái niệm 1.1.1 Cơ sở liệu giao tác 1.1.2 Tập mục thƣờng xuyên luật kết hợp 1.1.3 Các tính chất tập mục thƣờng xuyên 1.1.4 Bài toán khai phá luật kết hợp 1.2 Thuật toán Apriori 1.3 Thuật toán FP-Growth 12 1.4 Tập mục thƣờng xuyên có trọng số sở liệu giao tác 19 1.5 Kết luận chƣơng 21 CHƢƠNG 2: KHAI PHÁ MẪU DÃY THƢỜNG XUYÊN CÓ TRỌNG SỐ .23 2.1 Bài toán khai phá mẫu dãy thƣờng xuyên với trọng số chuẩn hóa 24 2.1.1 Các khái niệm 24 2.1.2 Cơ sở toán học cho toán khai phá mẫu dãy thƣờng xuyên với trọng số chuẩn hóa 25 2.1.3 Ví dụ minh họa 28 ii 2.2 Thuật toán khai phá mẫu dãy thƣờng xuyên với trọng số chuẩn hóa (WprefixSpan) 35 2.2.1 Mô tả thuật toán WprefixSpan 35 2.2.2 Độ phức tạp thuật toán WprefixSpan 36 2.3 Kết luận chƣơng 37 CHƢƠNG 3: THỬ NGHIỆM VÀ ĐÁNH GIÁ CÁC THUẬT TOÁN 38 3.1 Công cụ thử nghiệm 38 3.2 Số liệu thử nghiệm 38 3.3 Môi trƣờng thử nghiệm 39 3.4 Kết thử nghiệm đánh giá thuật toán 39 3.4.1 So sánh thời gian thực thuật toán PrefixSpan WPrefixSpan 39 3.4.2 So sánh số mẫu dãy thƣờng xuyên thuật toán PrefixSpan WPrefixSpan 40 3.4.3 So sánh nhớ sử dụng thuật toán PrefixSpan WPrefixSpan 40 3.4.4 So sánh độ dài mẫu dãy thƣờng xuyên thuật toán PrefixSpan WPrefixSpan 41 3.5 Kết luận chƣơng 41 KẾT LUẬN .43 TÀI LIỆU THAM KHẢO 44 PHỤ LỤC iii DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT Ký hiệu, chữ viết tắt Diễn giải CSDL Cơ sở liệu TID Transction Identifcation W Tập trọng số mục L Tập tất mục thƣờng xuyên Ck Tập k-tập mục ứng viên Lk Tập k-tập mục thƣờng xuyên SC(X) Số đếm hỗ trợ tập mục X WFIk Tập k-tập mục thƣờng xuyên có trọng số WFI Tập tất tập mục thƣờng xuyên có trọng số MaxW Trọng số có giá trị lớn CSDL giao tác MinW Trọng số có giá trị nhỏ tập mục điều kiện min_weight Ngƣỡng trọng số tối thiểu min_sup Ngƣỡng hỗ trợ tối thiểu support Độ hỗ trợ tập mục conf Độ tin cậy minconf Độ tin cậy cực tiểu iv DANH MỤC CÁC BẢNG Bảng 1.1 Biểu diễn ngang sở liệu giao tác Bảng 1.2 Biểu diễn dọc sở liệu giao tác Bảng 1.3 Ma trận giao tác sở liệu bảng 1.1 .5 Bảng 1.4 CSDL giao tác minh họa thực thuật toán Apriori .10 Bảng 1.5 CSDL giao tác minh họa cho thuật toán FP- growth 13 Bảng 1.6 CSDL giao tác 21 Bảng 1.7 Trọng số mục .21 Bảng 2.1 Cơ sở liệu dãy S 28 Bảng 2.2 Giá trị trọng số mục liệu 28 Bảng 2.3 Cơ sở liệu điều kiện với tiền tố 31 Bảng 2.4 Cơ sở liệu điều kiện với tiền tố 32 Bảng 2.5 Cơ sở liệu điều kiện với tiền tố 33 v DANH MỤC CÁC HÌNH Hình 1.2 Cây FP-tree đƣợc xây dựng dần thêm giao tác ti, t2, t3 14 Hình 1.3 Cây FP-tree CSDL DB bảng 15 Hình 1.4 FP-tree phụ thuộc m 17 Hình 1.5 Các FP-tree phụ thuộc am, cm cam 18 Hình 3.1 Thời gian thực thuật toán PrefixSpan WprefixSpan .39 Hình 3.2 Số mẫu dãy thƣờng xuyên thuật toán PrefixSpan WprefixSpan 40 Hình 3.3 Bộ nhớ sử dụng thuật toán PrefixSpan WprefixSpan 40 Hình 3.4 Độ dài mẫu dãy thƣờng xuyên thuật toán PrefixSpan WprefixSpan 41 MỞ ĐẦU Lý chọn đề tài Khai phá luật kết hợp (Mining association rules) toán quan trọng lĩnh vực khai phá liệu Khai phá luật kết hợp đƣợc giới thiệu Agrawal [2] vào năm 1994 phân tích sở liệu bán hàng siêu thị, phân tích sở thích mua khách hàng cách tìm mặt hàng khác đƣợc khách hàng mua lần mua Những thông tin nhƣ giúp ngƣời quản lý kinh doanh tiếp thị chọn lọc thu xếp không gian bày hàng hợp lý hơn, giúp cho kinh doanh hiệu Bài toán khai phá luật kết hợp bao gồm hai toán Bài toán thứ tìm tập mục thƣờng xuyên (Frequent itemset) thỏa mãn ngƣỡng hỗ trợ tối thiểu cho trƣớc, toán thứ hai sinh luật kết hợp (Association rule) thỏa mãn ngƣỡng tin cậy cho trƣớc từ tập mục thƣờng xuyên tìm đƣợc Mọi khó khăn toán khai phá luật kết hợp tập trung toán thứ nhất, khai phá tất tập mục thƣờng xuyên thỏa mãn ngƣỡng độ hỗ trợ cho trƣớc, nghiên cứu khai phá luật kết hợp phần lớn tập trung vào toán khai phá tập mục thƣờng xuyên Bài toán khai phá tập mục thƣờng xuyên Agrawal cộng đề xuất [2] đƣợc gọi toán khai phá tập mục thƣờng xuyên nhị phân giá trị mục liệu giao tác 1, tức quan tâm mục liệu có xuất giao tác hay không Do đó, toán mang ngữ nghĩa thống kê, không phản ánh đƣợc vai trò khác thuộc tính nhƣ đặc tính liệu vốn có chúng sở liệu Để đáp ứng yêu cầu thực tiễn, toán khai phá tập mục thƣờng xuyên có nhiều cách thức mở rộng ứng dụng Một hƣớng mở rộng xem xét mức độ quan trọng khác mục liệu cách gán cho mục giá trị đƣợc gọi trọng số (số lƣợng giá trị tập mục) Khi đó, toán khai phá luật kết hợp kinh điển trở thành toán khai phá luật kết hợp có trọng số [3] Hƣớng mở rộng thu hút quan tâm nhà nghiên cứu khai phá luật kết hợp dãy liệu, gọi liệu dãy (sequence) Khi đó, toán khai phá tập mục thƣờng xuyên trở thành toán khai phá mẫu dãy thƣờng xuyên (Mining sequential patterns) toán khai phá luật kết hợp truyền thống trở thành toán khai phá luật kết hợp dãy [5, 6, 7, 8, 9] Khai phá luật kết hợp dãy có ứng dụng thực tiễn cao thực tế tồn phổ biến dãy liệu nhƣ: dãy liệu mua sắm khách hàng, dãy liệu mô tả nhật ký truy cập Website Nhƣ trình bày trên, hƣớng nghiên cứu mở rộng khai phá luật kết hợp liệu dãy có ý nghĩa khoa học thực tiễn cao Do đó, chọn đề tài “Khai phá luật kết hợp liệu dãy” Mục đích nghiên cứu Nắm bắt đƣợc kiến thức tổng quan toán khai phá luật luật kết hợp kinh điển hƣớng nghiên cứu mở rộng khai phá luật kết hợp có trọng số liệu dãy Trên sở cài đặt, thử nghiệm, đánh giá thuật toán số liệu mẫu 3.Nhiệm vụ nghiên cứu Nắm bắt đƣợc khái niệm thuật toán khai phá luật kết hợp kinh điển nhƣ Apriori, FP-Growth Tìm hiểu thử nghiệm thuật toán khai phá tập mục thƣờng xuyên có trọng số sở liệu dãy, gọi khai phá mẫu dãy thƣờng xuyên có trọng số Đối tƣợng phạm vi nghiên cứu - Đối tượng nghiên cứu: Là sở liệu dãy - Phạm vi nghiên cứu: Nghiên cứu hƣớng mở rộng toán khai phá tập mục thƣờng xuyên liệu dãy Phƣơng pháp nghiên cứu - Nghiên cứu lý thuyết: Tìm hiểu khái niệm, thuật toán công bố khai phá mẫu dẫy thƣờng xuyên có trọng số - Nghiên cứu thực nghiệm: Luận văn thực cài đặt thuật toán, chạy thử nghiệm đánh giá kết thực thuật toán Cấu trúc luận văn Luận văn gồm: Lời mở đầu, ba chƣơng nội dung, phần kết luận, tài liệu tham khảo phụ lục 43 KẾT LUẬN Những ết luận văn 1) Tìm hiểu nắm bắt khái niệm toán khai phá luật kết hợp Nắm bắt đƣợc thuật toán kinh điển Apriori thuật toán FP-Growth theo cấu trúc khai phá tập mục thƣờng xuyên 2) Xây dựng thuật toán khai mẫu dãy thƣờng xuyên với trọng số chuẩn hóa WprefixSpan dựa thuật toán khai phá mẫu dãy thƣờng xuyên PrefixSpan [5] đƣa vào trọng số tập mục 3) Thử nghiệm so sánh hai thuật toán PrefixSpan WprefixSpan dựa tiêu chí: thời gian thực hiện, số mẫu dãy thƣờng xuyên thu đƣợc, nhớ sử dụng độ dài mẫu dãy thƣờng xuyên Kết thử nghiệm cho thấy thuật toán WprefixSpan hiệu PrefixSpan bốn tiêu chí sử dụng Hƣớng nghiên cứu đề tài Áp dụng thuật toán khai phá mẫu dãy thƣờng xuyên có trọng số chuẩn hóa xây dựng phƣơng pháp khai phá luật kết hợp dãy có trọng số vào toán thực tiễn lĩnh vực kinh doanh, tài chính, ngân hàng… 44 TÀI LIỆU THAM KHẢO Tiếng Việt: Nguyễn Huy Đức, Khai phá tập mục cổ phần cao lợi ích cao sở liệu, Luận án tiến sĩ toán học, Viện Công nghệ thông tin, 2010 Tiếng Anh: Agrawal R And Srikant R., “Fast algorithms for mining association rules”, in proceedings of 20th International Conference on Very Large Databases, Santiago, Chile, 1994 C.H.Cai, A.W.Chee Fu, C.H.Cheng, and W.W.Kwong “Mining Association Rules with Weighted Items”, IDEAS '98 Proceedings of the 1998 International Symposium on Database Engineering & Applications, pp.68-77, 1998 J.Han, J.Pei, and Y.Yin, “Mining Frequent Patterns without Candidate Generation,” Proceedings of the 2000 ACM SIGMOD International Conference on Management of Data, pp 1-12 J.Pei, J.Han, B.M.Asi, and H.Pino PrefixSpan: Mining Sequential Patterns Efficiently by Prefix-Projected Patte Growth Proceedings of the Seventeenth International Conference on Data Engineering:2\5-224, 2001 Zhuo Zhang, Lu Zhang, Shaochun Zhong, Jiwen Guan, A New Algorithm for Mining Sequential Pattern, FSKD 2008:625-629, 2008 Floriana Esposito, Nicola Di Mauro, Teresa Maria Altomare Basile, Stefano Ferilli, Multi-Dimensional Relatio Sequence Mining, Fundam Inform 89, 2008, pp 23-43 Yu Ning, Hongbin Yang, Sequence Mining for User Behavior Patterns in Mobile Commerce, CMECG ’08 Proceedin of the 2008 International Conference on Management of e-Commerce and e-Government: 2008, pp 6164 Ming-Yen Lin, Sue-Chen Hsueh, Ming-Hong Chen, Hong-Yang Hsu, Mining Sequential Patterns for Ima Classification in Ubiquitous Multimedia Systems, 45 Intelligent Information Hiding and Multimedia Signal Proccessi 2009(IIHMSP’09), 2009, pp 303-306 10 The UCI machine learning repository, PHỤ LỤC Một số giao diện chƣơng trình thử nghiệm Giao diện hình Nạp liệu 2.1 Nạp tệp liệu dãy 2.2 Nạp tệp liệu trọng số Thực thuật toán PrefixSpan W PrefixSpan Kết thực thuật toán WprefixSpan số liệu mẫu Kết thực thuật toán WPrefixSpan số liệu mẫu BMS-WebView1 địa http://www.philippe-fournier-viger.com/spmf/datasets/BMS1_spmf với giá trị trọng số mục khoảng 0,3≤ wj ≤ 0,9 nhƣ sau: FREQUENT SEQUENTIAL PATTERNS L0 L1 pattern 1: (12559 ) NWsupport : : 1099 (1,84393 %) pattern 2: (12355 ) NWsupport : : 1089 (1,82715 %) pattern 3: (12675 ) NWsupport : 553 (0,92784 %) pattern 4: (12819 ) NWsupport : : 1113 (1,86742 %) pattern 5: (12875 ) NWsupport : : 1355 (2,27345 %) pattern 6: (12299 ) NWsupport : 562 (0,94294 %) pattern 7: (47953 ) NWsupport : 561 (0,94126 %) pattern 8: (12667 ) NWsupport : 570 (0,95636 %) pattern 9: (32209 ) NWsupport : 516 (0,86576 %) pattern 10: (47949 ) NWsupport : : 512 (0,85905 %) pattern 11: (12411 ) NWsupport : : 797 (1,33723 %) pattern 12: (12463 ) NWsupport : : 797 (1,33723 %) pattern 13: (12551 ) NWsupport : : 527 (0,88421 %) pattern 14: (12779 ) NWsupport : : 794 (1,33219 %) pattern 15: (12711 ) NWsupport : : 521 (0,87415 %) - 1.099 (1,84393 %): Support 1.089 (1,82715 %): Support 553 (0,92784 %): Support : 1.113 (1,86742 %): Support 1.355 (2,27345 %): Support 562 (0,94294 %): Support : 561 (0,94126 %): Support : 570 (0,95636 %): Support : 516 (0,86576 %): Support : 512 (0,85905 %): Support 797 (1,33723 %): Support 797 (1,33723 %): Support 527 (0,88421 %): Support 794 (1,33219 %): Support 521 (0,87415 %): Support pattern 16: (12835 ) : 533 (0,89428 %) pattern 17: (10877 ) : 1389 (2,3305 %) pattern 18: (32213 ) Support : 1616 (2,71136 pattern 19: (12495 ) : 543 (0,91106 %) pattern 20: (12627 ) : 781 (1,31038 %) pattern 21: (12683 ) : 779 (1,30703 %) pattern 22: (12487 ) Support : 2268 (3,80531 pattern 23: (12751 ) Support : 1039 (1,74326 pattern 24: (33433 ) : 891 (1,49494 %) pattern 25: (12567 ) : 890 (1,49326 %) pattern 26: (34901 ) : 617 (1,03522 %) pattern 27: (47945 ) : 620 (1,04025 %) pattern 28: (47957 ) 627 (1,052 %) pattern 29: (10307 ) Support : 2797 (4,69287 pattern 30: (32205 ) : 871 (1,46138 %) pattern 31: (35185 ) : 639 (1,07213 %) pattern 32: (12807 ) : 583 (0,97817 %) pattern 33: (48675 ) : 587 (0,98488 %) pattern 34: (12611 ) : 587 (0,98488 %) NWsupport : 533 (0,89428 %): NWsupport : 1.389 (2,3305 %): NWsupport : %) NWsupport : Support Support 1.616 (2,71136 %): 543 (0,91106 %): Support NWsupport : 781 (1,31038 %): Support NWsupport : 779 (1,30703 %): Support NWsupport : %) NWsupport : %) NWsupport : 2.268 (3,80531 %): 1.039 (1,74326 %): 891 (1,49494 %): Support NWsupport : 890 (1,49326 %): Support NWsupport : 617 (1,03522 %): Support NWsupport : 620 (1,04025 %): Support NWsupport : 627 (1,052 %): NWsupport : %) NWsupport : Support : 2.797 (4,69287 %): 871 (1,46138 %): Support NWsupport : 639 (1,07213 %): Support NWsupport : 583 (0,97817 %): Support NWsupport : 587 (0,98488 %): Support NWsupport : 587 (0,98488 %): Support pattern 35: (18863 ) NWsupport : 863 (1,44796 %) pattern 36: (32201 ) NWsupport : 596 (0,99998 %) pattern 37: (33429 ) NWsupport : 600 (1,00669 %) pattern 38: (12823 ) NWsupport : 605 (1,01508 %) pattern 39: (12663 ) NWsupport Support : 1793 (3,00834 %) pattern 40: (12759 ) NWsupport : 845 (1,41776 %) pattern 41: (34897 ) NWsupport : 682 (1,14428 %) pattern 42: (12621 ) NWsupport : 1488 (2,4966 %) pattern 43: (12571 ) NWsupport : 676 (1,13421 %) pattern 44: (12783 ) NWsupport : 945 (1,58554 %) pattern 45: (12483 ) NWsupport Support : 2049 (3,43786 %) pattern 46: (34885 ) NWsupport : 937 (1,57212 %) pattern 47: (12763 ) NWsupport : 696 (1,16777 %) pattern 48: (10331 ) NWsupport 690 (1,1577 %) pattern 49: (12679 ) NWsupport Support : 1788 (2,99995 %) pattern 50: (12787 ) NWsupport : 440 (0,73824 %) pattern 51: (12491 ) NWsupport : 440 (0,73824 %) pattern 52: (12755 ) NWsupport : 652 (1,09394 %) pattern 53: (12603 ) NWsupport : 648 (1,08723 %) : 863 (1,44796 %): Support : 596 (0,99998 %): Support : 600 (1,00669 %): Support : 605 (1,01508 %): Support : 1.793 (3,00834 %): : 845 (1,41776 %): Support : 682 (1,14428 %): Support : 1.488 (2,4966 %): : 676 (1,13421 %): Support : 945 (1,58554 %): Support : 2.049 (3,43786 %): : 937 (1,57212 %): Support : 696 (1,16777 %): Support : 690 (1,1577 %): Support : : 1.788 (2,99995 %): : 440 (0,73824 %): Support : 440 (0,73824 %): Support : 652 (1,09394 %): Support : 648 (1,08723 %): Support Support pattern 54: (33453 ) : 651 (1,09226 %) pattern 55: (10295 ) Support : 2009 (3,37075 pattern 56: (12855 ) : 436 (0,73153 %) pattern 57: (12775 ) : 438 (0,73489 %) pattern 58: (12735 ) : 439 (0,73656 %) pattern 59: (18427 ) : 439 (0,73656 %) pattern 60: (12339 ) : 910 (1,52682 %) pattern 61: (33449 ) Support : 3658 (6,13748 pattern 62: (12795 ) : 908 (1,52346 %) pattern 63: (12771 ) : 671 (1,12582 %) pattern 64: (10315 ) Support : 3449 (5,78682 pattern 65: (12723 ) : 1267 (2,1258 %) pattern 66: (12827 ) Support : 1017 (1,70635 pattern 67: (12555 ) : 477 (0,80032 %) pattern 68: (12467 ) : 474 (0,79529 %) pattern 69: (20807 ) : 475 (0,79697 %) pattern 70: (10311 ) Support : 2371 (3,97812 pattern 71: (10291 ) : 472 (0,79193 %) pattern 72: (12847 ) : 473 (0,79361 %) NWsupport : NWsupport : %) NWsupport : 651 (1,09226 %): Support 2.009 (3,37075 %): 436 (0,73153 %): Support NWsupport : 438 (0,73489 %): Support NWsupport : 439 (0,73656 %): Support NWsupport : 439 (0,73656 %): Support NWsupport : 910 (1,52682 %): Support NWsupport : %) NWsupport : NWsupport : 3.658 (6,13748 %): 908 (1,52346 %): Support 671 (1,12582 %): Support NWsupport : %) NWsupport : 3.449 (5,78682 %): NWsupport : %) NWsupport : 1.017 (1,70635 %): 1.267 (2,1258 %): Support 477 (0,80032 %): Support NWsupport : 474 (0,79529 %): Support NWsupport : 475 (0,79697 %): Support NWsupport : %) NWsupport : NWsupport : 2.371 (3,97812 %): 472 (0,79193 %): Support 473 (0,79361 %): Support pattern 73: (12547 ) : 471 (0,79026 %) pattern 74: (10861 ) 469 (0,7869 %) pattern 75: (18787 ) : 736 (1,23488 %) pattern 76: (18691 ) : 467 (0,78354 %) pattern 77: (10335 ) Support : 1167 (1,95802 pattern 78: (12527 ) : 463 (0,77683 %) pattern 79: (12743 ) : 462 (0,77515 %) pattern 80: (10303 ) : 461 (0,77348 %) pattern 81: (12691 ) Support : 1002 (1,68118 pattern 82: (18619 ) : 457 (0,76677 %) pattern 83: (12659 ) Support : 1006 (1,68789 pattern 84: (10339 ) : 455 (0,76341 %) pattern 85: (34889 ) : 755 (1,26676 %) pattern 86: (12895 ) Support : 3623 (6,07876 pattern 87: (12655 ) : 758 (1,27179 %) pattern 88: (12831 ) Support : 1180 (1,97983 pattern 89: (12695 ) Support : 1422 (2,38587 pattern 90: (12407 ) : 756 (1,26844 %) pattern 91: (12523 ) : 449 (0,75334 %) NWsupport : 471 (0,79026 %): Support NWsupport : 469 (0,7869 %): Support : NWsupport : 736 (1,23488 %): Support NWsupport : 467 (0,78354 %): Support NWsupport : %) NWsupport : 1.167 (1,95802 %): 463 (0,77683 %): Support NWsupport : 462 (0,77515 %): Support NWsupport : 461 (0,77348 %): Support NWsupport : %) NWsupport : 1.002 (1,68118 %): NWsupport : %) NWsupport : 1.006 (1,68789 %): NWsupport : 457 (0,76677 %): Support 455 (0,76341 %): Support 755 (1,26676 %): Support NWsupport : %) NWsupport : 3.623 (6,07876 %): NWsupport : %) NWsupport : %) NWsupport : 1.180 (1,97983 %): NWsupport : 758 (1,27179 %): Support 1.422 (2,38587 %): 756 (1,26844 %): Support 449 (0,75334 %): Support pattern 92: (10857 ) NWsupport : 448 (0,75167 %): Support : 448 (0,75167 %) pattern 93: (12907 ) NWsupport : 448 (0,75167 %): Support : 448 (0,75167 %) pattern 94: (33469 ) NWsupport : 3.612 (6,0603 %): Support : 3612 (6,0603 %) pattern 95: (12747 ) NWsupport : 511 (0,85737 %): Support : 511 (0,85737 %) pattern 96: (12815 ) NWsupport : 704 (1,18119 %): Support : 704 (1,18119 %) pattern 97: (12703 ) NWsupport : 1.948 (3,2684 %): Support : 1948 (3,2684 %) pattern 98: (12431 ) NWsupport : 1.198 (2,01003 %): Support : 1198 (2,01003 %) pattern 99: (12883 ) NWsupport : 498 (0,83556 %): Support : 498 (0,83556 %) pattern 100: (12479 ) NWsupport : 731 (1,22649 %): Support : 731 (1,22649 %) pattern 101: (34893 ) NWsupport : 1.201 (2,01507 %): Support : 1201 (2,01507 %) pattern 102: (48667 ) NWsupport : 491 (0,82381 %): Support : 491 (0,82381 %) pattern 103: (12575 ) NWsupport : 485 (0,81374 %): Support : 485 (0,81374 %) pattern 104: (10299 ) NWsupport : 721 (1,20971 %): Support : 721 (1,20971 %) pattern 105: (34905 ) NWsupport : 723 (1,21307 %): Support : 723 (1,21307 %) pattern 106: (12727 ) NWsupport : 486 (0,81542 %): Support : 486 (0,81542 %) pattern 107: (12715 ) NWsupport : 1.214 (2,03688 %): Support : 1214 (2,03688 %) pattern 108: (12687 ) NWsupport : 724 (1,21474 %): Support : 724 (1,21474 %) pattern 109: (12867 ) NWsupport : 483 (0,81039 %): Support : 483 (0,81039 %) L2 pattern 110: (12815 )(12895 ) NWsupport : 552 (0,92616 %): Support : 552 (0,92616 %) pattern Support : pattern Support : pattern Support : pattern Support : pattern Support : pattern Support : pattern Support : pattern Support : pattern Support : pattern Support : pattern Support : pattern Support : pattern Support : pattern Support : pattern Support : pattern Support : pattern Support : pattern Support : pattern Support : 111: 571 112: 771 113: 615 114: 615 115: 621 116: 631 117: 877 118: 576 119: 590 120: 432 121: 916 122: 439 123: 424 124: 426 125: 738 126: 469 127: 463 128: 460 129: 509 (12703 )(32213 (0,95804 %) (10311 )(10315 (1,2936 %) (10311 )(12487 (1,03186 %) (12695 )(12703 (1,03186 %) (10307 )(10311 (1,04193 %) (12487 )(12703 (1,05871 %) (12483 )(12487 (1,47145 %) (10311 )(12703 (0,96643 %) (12827 )(12895 (0,98992 %) (12487 )(12875 (0,72482 %) (10295 )(10307 (1,53689 %) (10307 )(12895 (0,73656 %) (33433 )(33449 (0,7114 %) (10315 )(10335 (0,71475 %) (10295 )(10311 (1,23823 %) (10311 )(12483 (0,7869 %) (10311 )(32213 (0,77683 %) (10299 )(10307 (0,7718 %) (33433 )(33469 (0,85401 %) ) NWsupport : 571 (0,95804 %): ) NWsupport : 771 (1,2936 %): ) NWsupport : 615 (1,03186 %): ) NWsupport : 615 (1,03186 %): ) NWsupport : 621 (1,04193 %): ) NWsupport : 631 (1,05871 %): ) NWsupport : 877 (1,47145 %): ) NWsupport : 576 (0,96643 %): ) NWsupport : 590 (0,98992 %): ) NWsupport : 432 (0,72482 %): ) NWsupport : 916 (1,53689 %): ) NWsupport : 439 (0,73656 %): ) NWsupport : 424 (0,7114 %): ) NWsupport : 426 (0,71475 %): ) NWsupport : 738 (1,23823 %): ) NWsupport : 469 (0,7869 %): ) NWsupport : 463 (0,77683 %): ) NWsupport : 460 (0,7718 %): ) NWsupport : 509 (0,85401 %): pattern 130: (12487 )(32213 ) NWsupport : 506 (0,84898 %): Support : 506 (0,84898 %) pattern 131: (10307 )(10315 ) NWsupport : 496 (0,8322 %): Support : 496 (0,8322 %) pattern 132: (33449 )(33469 ) NWsupport : 1.204 (2,0201 %): Support : 1204 (2,0201 %) pattern 133: (10295 )(10315 ) NWsupport : 722 (1,21139 %): Support : 722 (1,21139 %) Patterns count : 133 ============= PREFIXSPAN - Thống kê ============= Tổng thời gian chạy ~ 1092 ms Số mẫu dãy thƣờng xuyên : 266 Dung lƣợng nhớ lớn sử dụng (mb) : 61.77649688720703 Số mẫu ứng viên : 521 =================================================== [...]... 1.1.4 Bài toán khai phá luật kết hợp Cho cơ sở dữ liệu giao tác DB, ngƣỡng độ hỗ trợ tối thiểu minsup và ngƣỡng độ tin cậy tối thiểu minconf Yêu cầu: Tìm tất cả các luật kết hợp X  Y trên cơ sở dữ liệu DB sao cho sup(X  Y )  minsup và conf(X  Y)  minconf Bài toán khai phá luật kết hợp này đƣợc gọi là bài toán cơ bản hay bài toán nhị phân, vì ở đây giá trị của mục dữ liệu trong cơ sở dữ liệu là 0 hoặc... CHƢƠNG 2: KHAI PHÁ MẪU DÃY THƢỜNG XUYÊN CÓ TRỌNG SỐ Khai phá mẫu dãy (Mining Sequential Patterns) là một trong những lĩnh vực rất quan trọng trong nghiên cứu khai phá dữ liệu và đƣợc áp dụng trong nhiều lĩnh vực khác nhau Trong thực tế các dữ liệu dãy tồn tại rất phổ biến, nhƣ dãy dữ liệu mua sắm của khách hàng, dữ liệu điều trị y tế, nhật ký truy cập web Mục đích chính của khai phá mẫu dãy là phát hiện... dữ liệu Một dãy S bị loại nếu chỉ có duy nhất một mục dữ liệu Một mục dữ liệu chỉ xuất hiện nhiều hơn 1 lần trong 1 thành phần của một dãy sj, nhƣng có thể xuất hiện nhiều lần trong các thành phần của một dãy S Kích thƣớc |S| của một dãy là số lƣợng của các thành phần trong dãy S Độ dài l(S) của dãy là tổng số mục dữ liệu trong dãy S Một cơ sở dữ liệu dãy S = {S1, S2, …, Sn} là một tập các bộ dữ liệu. .. là định danh của một dãy và Sk là một dãy dữ liệu Định nghĩa 1 (Độ hỗ trợ của một dãy) : Độ hỗ trợ của một dãy Sa trong một cơ sở dữ liệu dãy S là số lƣợng xuất hiện các bản ghi trong S có chứa dãy Sa Định nghĩa 2 (Trọng số chuẩn hóa của dãy) : Cho I = {i1, i2, …, in} là tập hợp các mục dữ liệu Mỗi mục ij  I đƣợc gán một trọng số wj, j = 1, ,n Khi đó trọng số chuẩn hóa của một dãy  = đƣợc... nghĩa 1.4 Một luật kết hợp là một biểu thức dạng X  Y , trong đó X và Y là các tập con của I, X  Y= Ø ; X gọi là tiền đề, Y gọi là kết luận của luật Luật kết hợp có hai thông số quan trọng là độ hỗ trợ và độ tin cậy Định nghĩa 1.5 Độ hỗ trợ (Support) của một luật kết hợp X  Y , ký hiệu là sup( X  Y ) , là độ hỗ trợ của tập mục X  Y , sup(X  Y) = sup(X  Y) Nhƣ vậy độ hỗ trợ của luật kết hợp X  Y... và một danh sách các mục dữ liệu trong giao tác đó Ví dụ 1.1 Bảng 1.1 sau đây biểu diễn ngang của cơ sở dữ liệu giao tác Bảng 1.1 Biểu diễn ngang của cơ sở dữ liệu giao tác TID Mục dữ liệu T1 B, C, D T2 B, C, D T3 A, B, D T4 C, D, F T5 C, D T6 A, C T7 A, B, C, F T8 A, C T9 A, B, E T10 A, E T11 A, B, C Biểu diễn dọc: Cơ sở dữ liệu là một danh sách các mục dữ liệu, mỗi mục dữ liệu có một danh sách tất... pháp khai phá phát triển (growth) từng đoạn dựa trên cây FP-tree gọi là phƣơng pháp FP-growth (3) Kỹ thuật tìm kiếm đƣợc dùng ở đây là dựa vào sự phân chia, “chia để trị”, phân rã nhiệm vụ khai phá thành các nhiệm vụ nhỏ hơn Thuật toán FP-growth do nén toàn bộ cơ sở dữ liệu lên một cấu trúc dữ liệu 13 nhỏ hơn là cây FP-tree nên tránh đƣợc việc duyệt nhiều lần cơ sở dữ liệu (thuật toán chỉ duyệt cơ sở dữ. .. kiểm tra tập dữ liệu nhiều lần, dẫn tới chi phí lớn khi kích thƣớc các tập mục tăng lên Nếu tập mục có độ dài k đƣợc sinh ra thì cần phải kiểm tra tập dữ liệu k+1 lần - Lặp nhiều lần duyệt cơ sở dữ liệu, số lần duyệt cơ sở dữ liệu của thuật toán Apriori bằng độ dài của tập mục thƣờng xuyên dài nhất tìm đƣợc Thuật toán Apriori chỉ thích hợp cho các cơ sở dữ liệu thƣa (sparse), với các cơ sở dữ liệu dày... đặt, thử nghiệm và đánh giá thuật toán WprefixSpan trên một số bộ dữ liệu mẫu 4 CHƢƠNG 1: TỔNG QUAN VỀ KHAI PHÁ TẬP MỤC THƢỜNG XUYÊN Chƣơng này trình bày một số khái niệm cơ bản trong khai phá luật kết và hai thuật toán khai phá tập mục thƣờng xuyên kinh điển: thuật toán Apriori [2] và thuật toán FP-Growth [4] 1.1 Các khái niệm cơ bản 1.1.1 Cơ sở dữ liệu giao tác Định nghĩa 1.1 Cho tập các mục (item)... tập mục ứng viên mà nén cơ sở dữ liệu 22 lên cấu trúc cây Chƣơng 2 sẽ trình bày thuật toán khai phá mẫu dãy thƣờng xuyên với trọng số chuẩn hóa, gọi tắt là thuật toán WprefixSpan Thuật toán WprefixSpan đƣợc xây dựng dựa trên thuật toán khai phá mẫu dãy thƣờng xuyên (không có trọng số) PrefixSpan [5] bằng cách đƣa vào trọng số của mẫu dãy (dựa trên ý tƣởng thuật toán khai phá tập mục thƣờng xuyên có trọng

Ngày đăng: 09/05/2016, 14:43

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w