1. Trang chủ
  2. » Luận Văn - Báo Cáo

luận văn thạc sĩ nghiên cứu khai phá top k mẫu dãy thường xuyên trọng số với khoảng cách thời gian

84 17 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 84
Dung lượng 1,2 MB

Nội dung

BỘ GIÁO DỤC VÀ ĐÀO TẠO VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ - Lê Duy Thảo NGHIÊN CỨU KHAI PHÁ TOP-K MẪU DÃY THƯỜNG XUYÊN TRỌNG SỐ VỚI KHOẢNG CÁCH THỜI GIAN LUẬN VĂN THẠC SĨ: CÔNG NGHỆ THÔNG TIN Hà Nội – 2020 BỘ GIÁO DỤC VÀ ĐÀO TẠO VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ - Lê Duy Thảo NGHIÊN CỨU KHAI PHÁ TOP-K MẪU DÃY THƯỜNG XUYÊN TRỌNG SỐ VỚI KHOẢNG CÁCH THỜI GIAN Chuyên ngành: Hệ thống thơng tin Mã số: 8480104 LUẬN VĂN THẠC SĨ: CƠNG NGHỆ THÔNG TIN CÁN BỘ HƯỚNG DẪN KHOA HỌC TS Nguyễn Việt Anh Hà Nội – 2020 LỜI CAM ĐOAN Tôi xin cam đoan luận văn “Nghiên cứu khai phá Top-K mẫu dãy thường xuyên trọng số với khoảng cách thời gian” hoàn thành sở nghiên cứu, tổng hợp tự thực Các số liệu trích dẫn luận văn có nguồn gốc rõ ràng trung thực Luận văn không chép từ luận văn khác TÁC GIẢ LUẬN VĂN Lê Duy Thảo LỜI CẢM ƠN Trước hết, xin bày tỏ cảm ơn Học viện Khoa học Công nghệ thầy, cô giáo tạo điều kiện giúp đỡ tơi hồn thành chương trình học tập nghiên cứu Học viện Khoa học Cơng nghệ Có kết này, vô biết ơn bày tỏ lịng kính trọng sâu sắc TS.Nguyễn Việt Anh - người tận tình hướng dẫn giúp đỡ tơi hồn thành luận văn Mặc dù có nhiều nỗ lực cố gắng khả năng, điều kiện kinh nghiệm thân hạn chế nên luận văn khơng tránh khỏi cịn thiếu sót Tơi mong nhận đóng góp q báu thầy, cô giáo, nhà khoa học, lãnh đạo, đồng nghiệp bạn để giúp cho luận văn tơi hồn thiện Tơi xin chân thành cảm ơn! TÁC GIẢ LUẬN VĂN Lê Duy Thảo DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT CSDL Cơ sở liệu SBD Cơ sở liệu dãy S KDD Knowledge Discovery Data Mining SQL Structured Query Language Candicate Ứng viên Element Thành phần dãy Itemset Tập mục thường xuyên Frequent item Tập mục thường xuyên Sequence patent Mẫu dãy Maximal sequence Dãy phổ biến Support Độ hỗ trợ Support threshold Ngưỡng hỗ trợ Subsequence Dãy DANH MỤC CÁC BẢNG Trang Bảng 1.1 Ví dụ CSDL giao tác với mục giao tác Bảng 1.2 Cơ sở liệu dãy SDB 10 Bảng 1.3 Cơ sở liệu dãy SDB ví dụ thuật tốn AprioriAll 15 Bảng 1.4 Cơ sở liệu dãy SDB ví dụ thuật toán PrefixSpan 22 Bảng 1.5 Cơ sở liệu điều kiện với tiền tố 23 Bảng 1.6 Cơ sở liệu điều kiện với tiền tố 24 Bảng 1.7 Cơ sở liệu điều kiện với tiền tố 24 Bảng 1.8 Cơ sở liệu điều kiện với tiền tố 25 Bảng 1.9 Cơ sở liệu điều kiện với tiền tố 25 Bảng 1.10 Kết mẫu dãy thường xuyên theo thuật toán PrefixSpan 26 Bảng 2.1 Cơ sở liệu dãy S 32 Bảng 2.2 Giá trị trọng số mục liệu 32 Bảng 2.3 Cơ sở liệu điều kiện với tiền tố 34 Bảng 2.4 Cơ sở liệu điều kiện với tiền tố 36 Bảng 2.5 Cơ sở liệu điều kiện với tiền tố 37 Bảng 2.7 Giá trị trọng số 46 Bảng 2.6 Cơ sở liệu dãy S 46 Bảng 2.8 Cơ sở liệu điều kiện với tiền tố 48 Bảng 2.9 Cơ sở liệu điều kiện với tiền tố 50 Bảng 2.10 Cơ sở liệu dãy 54 Bảng 2.11 Trọng số mục 54 Bảng 3.1 Mô tả liệu thử nghiệm 63 Bảng 3.2 Giá trị ràng buộc thời gian 64 DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ Trang Hình 1.1 Số lượng tập mục phải xét với mục ban đầu Hình 1.2 Hàm Apriori-Generate tập L3 thành tập ứng viên C4 16 Hình 1.3 CSDL dãy SDB tập kết L1, L2, L3, L4 17 Hình 3.1 Thời gian chạy với liệu BMSWebView1 65 Hình 3.2 Thời gian chạy với liệu Bible 65 Hình 3.3 Thời gian chạy với liệu Fifa 66 Hình 3.4 Thời gian chạy với liệu Leviathan 66 Hình 3.5 Thời gian chạy với liệu Sign 67 Hình 3.6 Bộ nhớ sử dụng với liệu BMSWebView1 68 Hình 3.7 Bộ nhớ sử dụng với liệu Bible 68 Hình 3.8 Bộ nhớ sử dụng với liệu Fifa 69 Hình 3.9 Bộ nhớ sử dụng với liệu Leviathan 69 Hình 3.10 Bộ nhớ sử dụng với liệu Sign 70 MỤC LỤC Trang Danh mục chữ viết tắt Danh mục bảng Danh mục hình vẽ MỤC LỤC MỞ ĐẦU .3 CHƯƠNG TỔNG QUAN .6 1.1 TỔNG QUAN KHAI PHÁ DỮ LIỆU 1.1.1 Tập mục 1.1.2 Định nghĩa luật kết hợp 1.1.3 Độ hỗ trợ tập mục .7 1.1.4 Độ tin cậy luật kết hợp 1.1.5 Tập mục thường xuyên .8 1.1.6 Quá trình tìm kiếm luật kết hợp 1.2 KHAI PHÁ MẪU DÃY THƯỜNG XUYÊN VÀ MỘT SỐ MỞ RỘNG 10 1.2.1 Bài toán khai phá mẫu dãy thường xuyên số khái niệm khai phá mẫu dãy thường xuyên .10 1.2.2 Mẫu dãy thường xuyên có trọng số 12 1.2.3 Mẫu dãy thường xuyên với khoảng cách thời gian 12 1.3 THUẬT TOÁN APRIORIALL 13 1.4 THUẬT TOÁN PREFIXSPAN 18 CHƯƠNG TOP-K MẪU DÃY THƯỜNG XUYÊN TRỌNG SỐ VỚI KHOẢNG CÁCH THỜI GIAN 29 2.1 GIỚI THIỆU 29 2.2 BÀI TOÁN KHAI PHÁ MẪU DÃY THƯỜNG XUYÊN CÓ TRỌNG SỐ 30 2.2.1 Các thuật ngữ mơ tả tốn khai phá mẫu dãy thường xuyên với trọng số chuẩn hóa .30 2.2.2 CSDL điều kiện khai phá mẫu dãy thường xuyên với trọng số chuẩn hóa 31 2.2.3 Ví dụ khai phá mẫu dãy thường xuyên với trọng số chuẩn hóa sử dụng CSDL điều kiện theo tiền tố .32 2.2.4 Thuật toán khai phá mẫu dãy thường xuyên với trọng số chuẩn hóa sử dụng CSDL điều kiện theo tiền tố (WPrefixSpan) 39 2.3 BÀI TOÁN MẪU DÃY THƯỜNG XUYÊN TRỌNG SỐ VỚI KHOẢNG CÁCH THỜI GIAN 41 2.3.1 Mô tả toán 41 2.3.2 CSDL điều kiện khai phá mẫu dãy thường xuyên trọng số chuẩn hóa với khoảng cách thời gian 43 2.3.3 Ví dụ khai phá mẫu dãy thường xuyên trọng số chuẩn hóa với khoảng cách thời gian sử dụng CSDL điều kiện theo tiền tố 45 2.3.4 Thuật toán WIPrefixSpan 51 2.4 BÀI TOÁN TOP-K MẪU DÃY THƯỜNG XUYÊN TRỌNG SỐ VỚI KHOẢNG CÁCH THỜI GIAN 54 2.4.1 Phát biểu toán .54 2.4.2 Mơ tả thuật tốn 55 2.4.3 Ví dụ thuật tốn: .58 CHƯƠNG THỬ NGHIỆM VÀ NHẬN XÉT .63 3.1 THỬ NGHIỆM 63 3.2 NHẬN XÉT .70 CHƯƠNG KẾT LUẬN VÀ KIẾN NGHỊ 71 4.1 KẾT LUẬN 71 4.2 KIẾN NGHỊ .72 TÀI LIỆU THAM KHẢO 73 MỞ ĐẦU Khai phá liệu trình khám phá tri thức tri thức có ích dạng tiềm từ nguồn liệu có Khai phá liệu trích rút mẫu có ích sở liệu tìm mối liên hệ mẫu Mục tiêu tổng thể q trình khai phá liệu trích xuất tri thức từ liệu có, sau biến đổi chúng thành cấu trúc người hiểu để tiếp tục sử dụng Khai phá luật kết hợp nội dung quan trọng khai phá liệu, khai phá luật kết hợp gồm bước: Bước tìm tập mục thường xuyên Bước sinh luật kết hợp từ tập mục thường xun Bài tốn khai phá tập mục thường xuyên [1, 2, 3, 4, 5] đời toán khai phá luật kết hợp Khai phá mẫu dãy [6, 7, 8, 9, 10, 11, 12, 13] mở rộng khai phá tập mục thường xuyên với nhiều ứng dụng rộng rãi phân tích thị trường, phân tích mẫu truy cập web, phát xâm nhập môi trường mạng, nghiên cứu DNA, dự đoán nhu cầu mua sắm khách hàng,… Khai phá mẫu dãy việc phát dãy phổ biến sở liệu dãy Kể từ Agrawal đề xuất [6], khai phá mẫu dãy thường xuyên thu hút quan tâm nhiều nhà nghiên cứu, có hàng trăm kết nghiên cứu cơng bố giới thiệu thuật toán hay đề xuất giải pháp nâng cao hiệu thuật toán có Thuật tốn AprioriAll [6] Agrawal cộng đề xuất năm 1995 dựa nguyên tắc duyệt liệu thuật toán Apriori theo chiều rộng khai phá mẫu dãy thường xuyên có độ dài lớn Các giải thuật khai phá mẫu dãy thường xuyên sử dụng ngưỡng hỗ trợ nhằm thu nhỏ không gian tìm kiếm Tuy nhiên, sau có mẫu dãy thường xun, khơng có cách để điều chỉnh số mẫu dãy thường xuyên thông qua phản hồi người sử dụng, ngoại trừ thay đổi ngưỡng hỗ trợ tối thiểu Một hạn chế phương pháp tiếp cận truyền thống thuật toán khai phá mẫu dãy thường xuyên mẫu dãy có giá trị lợi CHƯƠNG THỬ NGHIỆM VÀ NHẬN XÉT 3.1 THỬ NGHIỆM Phần thử nghiệm so sánh thuật tốn đề xuất trường hợp: có sử dụng ràng buộc thời gian không sử dụng ràng buộc thời gian Các thuật toán thực ngơn ngữ lập trình Java thử nghiệm máy tính có xử lý Intel core-i7, 16GB nhớ chạy Windows 10 Các liệu thử nghiệm liệu thực lấy trang web http://www.philippe-fournier-viger.com/spmf/index.php?link=datasets.php bao gồm: - - Bộ liệu BMSWebView1 với 59601 dãy 497 mục khác Độ dài trung bình dãy 2,42 Bộ liệu Bible với 36369 dãy 13905 mục khác Độ dài trung bình dãy 21,6 Bộ liệu Fifa với 20450 dãy 2990 mục khác Độ dài trung bình dãy 34,74 Bộ liệu Leviathan với 5834 dãy 9025 mục khác Độ dài trung bình dãy 33,8 Bộ liệu Sign với 800 dãy 267 mục khác Độ dài trung bình dãy 51,997 Bảng 3.1 Mô tả liệu thử nghiệm Bộ liệu Số dãy Số mục Độ dài trung bình Phân loại BMSWebView1 59601 497 2,42 Web log Bible 36369 13905 21,6 Văn Fifa 20450 2990 34,74 Web log 5834 9025 33,8 Văn 800 267 51,997 Văn Leviathan Sign 63 Các liệu đưa vào nghiên cứu, thử nghiệm cài đặt với số lượng mẫu dãy, số mục dãy, độ dài trung bình khác nhằm làm rõ ảnh hưởng tham số trọng số, khoảng cách thời gian, top-k đưa vào thuật tốn Các liệu khơng có giá trị trọng số mục, để phù hợp với tốn khai phá mẫu dãy có trọng số, giá trị trọng số sinh ngẫu nhiên khoảng [0,2;0,8] Trong thực tế, mục có giá trị cao thường xuất CSDL Vì vậy, thử nghiệm này, sử dụng phân bố chuẩn để sinh ngẫu nhiên trọng số Các liệu khơng có giá trị thời gian Do vậy, liệu thời gian sinh theo thứ tự tăng dần, mẫu dãy liền cách khoảng cách thời gian Giá trị k đưa vào từ 1000 đến 10000 Do độ dài trung bình dãy liệu khác nhau, ràng buộc thời gian đưa vào khác theo liệu Bảng mô tả giá trị ràng buộc thời gian liệu Bảng 3.2 Giá trị ràng buộc thời gian Bộ liệu C1 C2 C3 C4 BMSWebView1 10 Bible 20 Fifa 30 Leviathan 30 Sign 5 40 Kết thử nghiệm thuật toán thể đây: 64 Hình 3.1 Thời gian chạy với liệu BMSWebView1 Hình 3.2 Thời gian chạy với liệu Bible 65 Hình 3.3 Thời gian chạy với liệu Fifa Hình 3.4 Thời gian chạy với liệu Leviathan 66 Hình 3.5 Thời gian chạy với liệu Sign 67 Hình 3.6 Bộ nhớ sử dụng với liệu BMSWebView1 Hình 3.7 Bộ nhớ sử dụng với liệu Bible 68 Hình 3.8 Bộ nhớ sử dụng với liệu Fifa Hình 3.9 Bộ nhớ sử dụng với liệu Leviathan 69 Hình 3.10 Bộ nhớ sử dụng với liệu Sign 3.2 NHẬN XÉT Có thể thấy thử nghiệm thuật toán chạy tốt trường hợp có sử dụng ràng buộc thời gian thời gian chạy nhớ sử dụng Điều dễ hiểu đưa vào ràng buộc thời gian, số ứng viên phải sinh giảm nhiều, làm giảm khơng gian tìm kiếm rút ngắn thời gian thực Thời gian chạy thuật toán lâu chạy với liệu lớn thuật toán phải quét liệu nhiều lần Thời gian chạy, nhớ sử dụng bị ảnh hưởng nhiều với tham số trọng số, khoảng cách thời gian, topk khác liệu có số lượng mẫu dãy, số mục dãy, độ dài trung bình khác 70 CHƯƠNG KẾT LUẬN VÀ KIẾN NGHỊ 4.1 KẾT LUẬN Khai phá mẫu dãy nói riêng hay khai phá liệu nói chung ứng dụng rộng rãi thực tế, phân tích thị trường, phân tích mẫu truy cập website, phát xâm nhập môi trường mạng, dự báo nhu cầu mua sắm khách hàng,… Luận văn đã: - Nghiên cứu tìm hiểu khai phá mẫu dãy thường xuyên số mở rộng Nghiên cứu số thuật toán liên quan Apriori, Prefixspan - Nghiên cứu tìm hiểu khai phá Top-k mẫu dãy thường xuyên trọng số với khoảng cách thời gian - Nghiên cứu phát triển mẫu dãy có độ hỗ trợ với trọng số cao trước, số mẫu dãy ứng viên sinh giảm bớt làm giảm đáng kể khơng gian tìm kiếm tăng hiệu suất cho giải thuật - Nghiên cứu có ý nghĩa xét tới mẫu dãy xảy khoảng thời gian định - Nghiên cứu lý thuyết nghiên cứu thực nghiệm: + Về nghiên cứu lý thuyết: định lý, mệnh đề luận văn đưa dựa vào kiến thức kết nghiên cứu công bố + Về nghiên cứu thực nghiệm: luận văn thực cài đặt thuật toán, chạy thử nghiệm thuật toán với số liệu lấy từ kho liệu UCI, so sánh đánh giá kết thực nghiệm so với kết nghiên cứu lý thuyết, từ kết luận tính đắn kết nghiên cứu - Nghiên cứu thử nghiệm thuật toán Top-K mẫu dãy thường xuyên trọng số với khoảng cách thời gian dựa giải thuật AprioriALL - So sánh, đánh giá thuật toán Top-K mẫu dãy thường xuyên trọng số có khơng có khoảng cách thời gian 71 4.2 KIẾN NGHỊ Dữ liệu thực tế quan trọng phức tạp, khai phá mẫu dãy việc quan tâm đến độ hỗ trợ quan tâm đến trọng số khoảng cách thời gian Để khai thác liệu hiệu hơn, nghiên cứu phải quan tâm đến lợi ích,… dãy Trên giới có số cơng trình, ngồi quan tâm đến độ hỗ trợ, trọng số khoảng cách thời gian cịn quan tâm đến cổ phần, lợi ích,… dãy, chẳng hạn thuật toán Uspan tác giả J.Yin cộng để giải tốn Khai phá mẫu dãy thường xun lợi ích cao 72 TÀI LIỆU THAM KHẢO [1] R.Agrawal, T.Imielinski, and A.Swami, 1993, "Mining Association Rules between Sets of Items in Large Databases," in Proceedings of the 1993 ACM SIGMOD International Conference on Management of Data [2] J Han, J Pei, Y Ying and R Mao, 2004, "Mining frequent patterns without candidate generation: a frequent-pattern tree approach," Data Mining and Knowledge Discovery, vol 8, p 53–87 [3] M Zaki, 2000, "Scalable algorithms for association mining," IEEE Transactions on Knowledge and Data Engineering, vol 12, p 372– 390 [4] T Uno, M Kiyomi and H Arimura, 2004, "LCM ver 2: Efficient mining algorithms for frequent/closed/maximal itemsets," in IEEE International Conference on Data Mining Workshop on Frequent Itemset Mining Implementations [5] J Pei, J Han, H Lu, S Nishio, S Tang and D Yang, 2001, "H-mine: Hyper-structure mining of frequent patterns in large databases," in IEEE International Conference on Data Mining, p 441–448 [6] R Agrawal and R Srikant, 1995, "Mining sequential patterns," in The International Conference on Data Engineering, p 3–14 [7] S Aseervatham, A Osmani and E Viennet, 2006, "bitSPADE: A lattice-based sequential pattern mining algorithm using bitmap representation," in The International Conference on Data Mining, p 792–797 73 [8] Ayres, J., Gehrke, J., Yiu, T and Flannick, J, 2002, "Sequential Pattern Mining using Bitmap Representation," in Proc of ACM SIGKDD’02, [9] J Pei, J Han, B.M Asi, H Pino, 2001, "PrefixSpan: Mining Sequential Patterns Efficiently by Prefix-Projected Pattern Growth," in Proceedings of the Seventeenth International Conference on Data Engineering [10] M Garofalakis, R Rastogi and K Shim, 1999, "SPIRIT: Sequential pattern mining with regular expression constraints," in The International Conference on Very Large Databases, p 223–234 [11] R Agrawal, R.Srikant, 1996, "Mining sequential patterns: Generallizations and performance improvements," Lecture Notes in Computer Science, vol 1057, pp 3-17 [12] M Zaki, 2001, "SPADE: An efficient algorithm for mining frequent sequences," Machine learning, vol 42, p 31–60 [13] J Han, J Pei, B Mortazavi-Asl, Q Chen, U Dayal and M Hsu, 2000, "FreeSpan: frequent patternprojected sequential pattern mining," in ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, p 355–359 [14] B Vo, F Coenen, B Le, 2013, "A new method for mining Frequent Weighted Itemsets based on WIT-trees," in Expert Systems with Applications [15] C.H.Cai, A.W.Chee Fu, C.H.Cheng, and W.W.Kwong, 1998, "Mining Association Rules with Weighted Items," in Proceedings of the 1998 International Symposium on Database Engineering & Applications, Cardiff, Wales 74 [16] F Tao, F Murtagh, M Farid, 2003, "Weighted Association Rule Mining Using Weighted Support and Significance Framework," in Proceedings of 9th ACM SIGKDD Conference on Knowledge Discovery and Data Mining [17] G.C Lan, T.P Hong, H.Y Lee, 2014, "An efficient approach for finding weighted sequential patterns from sequence databases," in Applied Intelligence [18] M S Khan, M Muyeba, F Coenen, 2008, "Weighted Association Rule Mining from Binary and Fuzzy Data," in Proceedings of 8th Industrial Conference, ICDM 2008 [19] J Ren, J Yang and Y Li, 2008, "Mining weighted closed sequential patterns in large databases," in The International Conference on Fuzzy Systems and Knowledge Discovery, p 640–644 [20] U Yun, 2008, "An efficient mining of weighted frequent patterns with length decreasing support constraints," Knowledge-Based Systems, Vols Vol 21,No 8, p 741–752 [21] H Yu and H Yamana, 2006, "Generalized sequential pattern mining with item intervals," Journal of Computers, vol 1, p 51–60 [22] J Chang, 2011, "Mining weighted sequential patterns in a sequence database with a time-interval weight," Knowledge-Based Systems, vol 24, p 1–9 [23] U Yun, J.J Leggett, 2005, "WFIM: weighted frequent itemset mining with a weight range and a minimum weight," in 5th SIAM Int Conf on Data Mining 75 [24] W.Wang, J.Yang, and P.S.Yu, 2000, "Efficient Mining of Weighted Association Rules (WAR)," in Proceedings of the Sixth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining [25] U Yun and J Leggett, 2006, "WSpan: Weighted Sequential pattern mining in large sequence databases," in The International IEEE Conference Intelligent Systems, p 512–517 [26] U Yun, K.H Ryu, 2011, "Approximate weighted frequent pattern mining with/without noisy environments," [27] U Yun, G Pyun, E Yoon, 2015, "Efficient Mining of Robust Closed Weighted Sequential Patterns Without Information Loss," Vols Vol 24, No 1, p 28 pages [28] K Chuang, J Huang and M Chen, 2008, "Mining Top-K Frequent Patterns in the Presence of the Memory Constraint," VLDB Journal, vol 17, pp 1321-1344 [29] P Tzvetkov, X Yan and J Han, 2003, "TSP: Mining Top-K Closed Sequential Patterns," ICDM, pp 347-354 [30] P Fournier-Viger and V Tseng, 2011, "Mining top-k sequential rules," in The International Conference on Advanced Data Mining and Applications, p 180–194 [31] J Wang and J Han, TFP, 2005, "An Efficient Algorithm for Mining Top-K Frequent Closed Itemsets," TKDE, vol 17, pp 652-664 [32] P Fournier-Viger, A Gomariz, T Gueniche, E Mwamikazi and R Thomas, 2013, "TKS: Efficient Mining of Top-K Sequential Patterns," in The International Conference on Advanced Data Mining and Applications, p 109–120 76 [33] P Fournier-Viger, C.-W Wu and V Tseng, 2012, "Mining top-k association rules," in The Canadian Conference on Artificial Intelligence, p 61–73 [34] Trần Huy Dương, Vũ Đức Thi, 2013, “WPrefixSpan: Thuật toán khai phá mẫu dãy thường xuyên với số chuẩn hóa sử dụng CSDL tiền tố,” Kỷ yếu hội nghị Khoa học Quốc gia lần thứ VI- Nghiên cứu ứng dụng CNTT (FAIR) [35] V Đ T Trần Huy Dương, 2015, "Thuật toán khai phá mẫu dãy thường xuyên trọng số chuẩn hóa với khoảng cách thời gian," Chun san Tạp chí Công nghệ thông tin truyền thông, vol 2, pp 72-81 77 ... số, khoảng cách thời gian mục liệu Phạm vi nghiên cứu luận văn tập trung nghiên cứu toán khai phá mẫu dãy thường xuyên với trọng số chuẩn hóa, khai phá Top- k mẫu dãy thường xuyên trọng số với khoảng. .. mẫu dãy thường xuyên trọng số chuẩn hóa với khoảng cách thời gian 2.3.2 CSDL điều kiện khai phá mẫu dãy thường xuyên trọng số chuẩn hóa với khoảng cách thời gian Thuật toán khai phá mẫu dãy thường. .. tiết trọng số, thời gian với top- k mẫu dãy - Cài đặt thử nghiệm toán khai phá Top- k mẫu dãy thường xuyên trọng số với khoảng cách thời gian Đối tượng nghiên cứu luận văn liệu có giá trị trọng số,

Ngày đăng: 07/08/2020, 17:07

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] R.Agrawal, T.Imielinski, and A.Swami, 1993, "Mining Association Rules between Sets of Items in Large Databases," in Proceedings of the 1993 ACM SIGMOD International Conference on Management of Data Sách, tạp chí
Tiêu đề: Mining Association Rules between Sets of Items in Large Databases
[2] J. Han, J. Pei, Y. Ying and R. Mao, 2004, "Mining frequent patterns without candidate generation: a frequent-pattern tree approach," Data Mining and Knowledge Discovery, vol. 8, p. 53–87 Sách, tạp chí
Tiêu đề: Mining frequent patterns without candidate generation: a frequent-pattern tree approach
[3] M. Zaki, 2000, "Scalable algorithms for association mining," IEEE Transactions on Knowledge and Data Engineering, vol. 12, p. 372–390 Sách, tạp chí
Tiêu đề: Scalable algorithms for association mining
[4] T. Uno, M. Kiyomi and H. Arimura, 2004, "LCM ver. 2: Efficient mining algorithms for frequent/closed/maximal itemsets," in IEEE International Conference on Data Mining Workshop on Frequent Itemset Mining Implementations Sách, tạp chí
Tiêu đề: LCM ver. 2: Efficient mining algorithms for frequent/closed/maximal itemsets
[5] J. Pei, J. Han, H. Lu, S. Nishio, S. Tang and D. Yang, 2001, "H-mine: Hyper-structure mining of frequent patterns in large databases," in IEEE International Conference on Data Mining, p. 441–448 Sách, tạp chí
Tiêu đề: H-mine: Hyper-structure mining of frequent patterns in large databases
[6] R. Agrawal and R. Srikant, 1995, "Mining sequential patterns," in The International Conference on Data Engineering, p. 3–14 Sách, tạp chí
Tiêu đề: Mining sequential patterns
[7] S. Aseervatham, A. Osmani and E. Viennet, 2006, "bitSPADE: A lattice-based sequential pattern mining algorithm using bitmap representation," in The International Conference on Data Mining, p.792–797 Sách, tạp chí
Tiêu đề: bitSPADE: A lattice-based sequential pattern mining algorithm using bitmap representation
[8] Ayres, J., Gehrke, J., Yiu, T. and Flannick, J, 2002, "Sequential Pattern Mining using Bitmap Representation," in Proc. of ACM SIGKDD’02, [9] J. Pei, J. Han, B.M. Asi, H. Pino, 2001, "PrefixSpan: Mining Sequential Patterns Efficiently by Prefix-Projected Pattern Growth," in Proceedings of the Seventeenth International Conference on Data Engineering Sách, tạp chí
Tiêu đề: Sequential Pattern Mining using Bitmap Representation," in Proc. of ACM SIGKDD’02, [9] J. Pei, J. Han, B.M. Asi, H. Pino, 2001, "PrefixSpan: Mining Sequential Patterns Efficiently by Prefix-Projected Pattern Growth
[10] M. Garofalakis, R. Rastogi and K. Shim, 1999, "SPIRIT: Sequential pattern mining with regular expression constraints," in The International Conference on Very Large Databases, p. 223–234 Sách, tạp chí
Tiêu đề: SPIRIT: Sequential pattern mining with regular expression constraints
[11] R. Agrawal, R.Srikant, 1996, "Mining sequential patterns: Generallizations and performance improvements," Lecture Notes in Computer Science, vol. 1057, pp. 3-17 Sách, tạp chí
Tiêu đề: Mining sequential patterns: Generallizations and performance improvements
[12] M. Zaki, 2001, "SPADE: An efficient algorithm for mining frequent sequences," Machine learning, vol. 42, p. 31–60 Sách, tạp chí
Tiêu đề: SPADE: An efficient algorithm for mining frequent sequences
[13] J. Han, J. Pei, B. Mortazavi-Asl, Q. Chen, U. Dayal and M. Hsu, 2000, "FreeSpan: frequent patternprojected sequential pattern mining," in ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, p. 355–359 Sách, tạp chí
Tiêu đề: FreeSpan: frequent patternprojected sequential pattern mining
[14] B. Vo, F. Coenen, B. Le, 2013, "A new method for mining Frequent Weighted Itemsets based on WIT-trees," in Expert Systems with Applications Sách, tạp chí
Tiêu đề: A new method for mining Frequent Weighted Itemsets based on WIT-trees
[15] C.H.Cai, A.W.Chee Fu, C.H.Cheng, and W.W.Kwong, 1998, "Mining Association Rules with Weighted Items," in Proceedings of the 1998 International Symposium on Database Engineering & Applications, Cardiff, Wales Sách, tạp chí
Tiêu đề: Mining Association Rules with Weighted Items
[16] F. Tao, F. Murtagh, M. Farid, 2003, "Weighted Association Rule Mining Using Weighted Support and Significance Framework," in Proceedings of 9th ACM SIGKDD Conference on Knowledge Discovery and Data Mining Sách, tạp chí
Tiêu đề: Weighted Association Rule Mining Using Weighted Support and Significance Framework
[17] G.C. Lan, T.P. Hong, H.Y. Lee, 2014, "An efficient approach for finding weighted sequential patterns from sequence databases," in Applied Intelligence Sách, tạp chí
Tiêu đề: An efficient approach for finding weighted sequential patterns from sequence databases
[18] M. S. Khan, M. Muyeba, F. Coenen, 2008, "Weighted Association Rule Mining from Binary and Fuzzy Data," in Proceedings of 8th Industrial Conference, ICDM 2008 Sách, tạp chí
Tiêu đề: Weighted Association Rule Mining from Binary and Fuzzy Data
[19] J. Ren, J. Yang and Y. Li, 2008, "Mining weighted closed sequential patterns in large databases," in The International Conference on Fuzzy Systems and Knowledge Discovery, p. 640–644 Sách, tạp chí
Tiêu đề: Mining weighted closed sequential patterns in large databases
[20] U. Yun, 2008, "An efficient mining of weighted frequent patterns with length decreasing support constraints," Knowledge-Based Systems, Vols. Vol. 21,No. 8, p. 741–752 Sách, tạp chí
Tiêu đề: An efficient mining of weighted frequent patterns with length decreasing support constraints
[21] H. Yu and H. Yamana, 2006, "Generalized sequential pattern mining with item intervals," Journal of Computers, vol. 1, p. 51–60 Sách, tạp chí
Tiêu đề: Generalized sequential pattern mining with item intervals

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w