Khai phá mẫu dãy lợi ích cao với khoảng cách thời gian

BỘ GIÁO DỤC VIỆN HÀN LÂM KHOA HỌC VÀ ĐÀO TẠO VÀ CÔNG NGHỆ VIỆT NAM HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ - Trần Thế Anh KHAI PHÁ MẪU DÃY LỢI ÍCH CAO VỚI KHOẢNG CÁCH THỜI GIAN LUẬN VĂN THẠC SĨ: CÔNG NGHỆ THÔNG TIN Hà Nội – 2020 BỘ GIÁO DỤC VIỆN HÀN LÂM KHOA HỌC VÀ ĐÀO TẠO VÀ CÔNG NGHỆ VIỆT NAM HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ - Trần Thế Anh KHAI PHÁ MẪU DÃY LỢI ÍCH CAO VỚI KHOẢNG CÁCH THỜI GIAN Chuyên ngành: Hệ thống thông tin Mã số: 8480104 LUẬN VĂN THẠC SĨ: CÔNG NGHỆ THÔNG TIN CÁN BỘ HƯỚNG DẪN KHOA HỌC: Hướng dẫn : TS Đặng Thị Oanh Hướng dẫn : PGS TS Phạm Thanh Giang Hà Nội – 2020 Lời cam đoan Tôi cam đoan cơng trình nghiên cứu riêng tơi Các số liệu, kết nêu luận văn trung thực chưa công bố công trình TÁC GIẢ LUẬN VĂN Trần Thế Anh Lời cảm ơn Lời đầu tiên, xin gửi lời cảm ơn sâu sắc tới TS Đặng Thị Oanh PGS TS Phạm Thanh Giang tận tình giúp đỡ, hướng dẫn, định hướng tơi q trình nghiên cứu hồn thành luận văn Tơi xin cảm ơn Khoa Công nghệ thông tin Truyền thông - Học Viện khoa học Công nghệ tạo điều kiện cho tơi hồn thành chương trình học tập nghiên cứu hai năm học vừa qua Tôi xin chân thành cảm ơn Lãnh đạo Viện Công nghệ thông tin Viện Hàn lâm Khoa học Công nghệ Việt Nam tạo điều kiện thuận lợi cho trình học tập mình, cảm ơn các phịng Cơng nghệ phần mềm quản lý nhiệt tình cơng tác, giúp tơi dành thời gian hồn thành luận văn Cuối cùng, tơi xin cảm ơn gia đình, bạn bè, đồng nghiệp nguồn động viên, ủng hộ, giúp tơi thêm động lực để hồn thành tốt luận văn Trần Thế Anh Danh mục ký hiệu chữ viết tắt STT Từ viết Tiếng Anh Tiếng Việt tắt Cơ sở liệu CSDL SPM Sequential pattern mining SDB Sequence Database Cơ sở liệu dãy HUSPM High utility sequential Khai phá mẫu dãy lợi ích pattern mining cao Quantitative Sequence Cơ sở liệu dãy định Database lượng QSDB QiSDB Quantitative item interval Sequence Database Khai phá mẫu dãy thường xuyên Cơ sở liệu dãy định lượng với khoảng cách thời gian Danh mục bảng Bảng 1.1 Cơ sở liệu dãy SDB Bảng 1.2 Cơ sở liệu chiếu với tiền tố 17 Bảng 1.3 Cơ sở liệu chiếu với tiền tố 17 Bảng 2.1 Cơ sở liệu dãy định lượng QSDB 23 Bảng 2.2 Bảng lợi ích ngồi 24 Bảng 2.3 Sinh mẫu dãy ứng viên thuật toán UL 31 Bảng 2.4 Sinh mẫu dãy ứng viên thuật toán US 34 Bảng 2.5 Bảng lợi ích mẫu dãy phần tử QSDB 37 Bảng 2.6 Bảng mục 38 Bảng 2.7 Lợi ích mục liệu dãy Si 41 Bảng 2.8 Lợi ích dãy Si 41 Bảng 2.9 CSDL thu sau loại bỏ ứng viên không tiềm 42 Bảng 2.10 CSDL chiếu QSDB|a mẫu dãy 42 Bảng 2.11 Lợi ích dãy QSDB|a 43 Bảng 2.12 Bảng lợi ích mẫu dãy phần tử với tiền tố 43 Bảng 2.13 CSDL QSDB|a sau loại bỏ mục f 44 Bảng 2.14 CSDL chiếu QSDB|aa mẫu dãy 44 Bảng 3.1 Cơ sở liệu dãy lợi ích cao với khoảng cách thời gian QiSDB 48 Bảng 3.2 Bảng lợi ích ngồi 49 Bảng 3.3 Bảng lợi ích mẫu dãy phần tử QiSDB 53 Bảng 3.4 Sinh mẫu dãy ứng viên UIL 59 Bảng 3.5 Đặc điểm tập liệu thử nghiệm 60 Bảng 3.6 Ràng buộc thời gian 61 Danh mục hình vẽ, đồ thị Hình 1.1 Các bước sinh mẫu dãy thuật toán GSP 12 Hình 3.1 Thời gian chạy Bộ liệu BMSWebView1 62 Hình 3.2 Thời gian chạy Bộ liệu BMSWebView2 62 Hình 3.3 Thời gian chạy Bộ liệu Bible 63 Hình 3.4 Thời gian chạy Bộ liệu Fifa 63 Hình 3.5 Bộ nhớ sử dụng liệu BMSWebView1 64 Hình 3.6 Bộ nhớ sử dụng liệu BMSWebView2 64 Hình 3.7 Bộ nhớ sử dụng liệu Bible 65 Hình 3.8 Bộ nhớ sử dụng liệu Fifa 65 MỤC LỤC MỞ ĐẦU CHƯƠNG TỔNG QUAN KHAI PHÁ MẪU DÃY THƯỜNG XUYÊN VÀ MỘT SỐ MỞ RỘNG 1.1 GIỚI THIỆU 1.2 MỘT SỐ KHÁI NIỆM CƠ BẢN 1.3 KHAI PHÁ MẪU DÃY THƯỜNG XUYÊN 1.3.1 Thuật toán GSP: 10 1.3.2 Thuật toán PrefixSpan: 13 a) Một số định nghĩa: .13 b) Mô tả thuật toán: .15 1.4 MỞ RỘNG BÀI TOÁN KHAI PHÁ MẪU DÃY THƯỜNG XUYÊN 17 1.5 KẾT LUẬN CHƯƠNG 19 CHƯƠNG KHAI PHÁ MẪU DÃY LỢI ÍCH CAO 21 2.1 GIỚI THIỆU 21 2.2 BÀI TOÁN KHAI PHÁ MẪU DÃY LỢI ÍCH CAO 23 2.3 THUẬT TOÁN UL, US 28 2.3.1 Thuật toán UL: 28 2.3.2 Thuật toán US: 32 2.4 THUẬT TOÁN PHUS 35 2.4.1 Bảng lợi ích: 36 2.4.2 Bảng mục: 37 2.5 KẾT LUẬN CHƯƠNG 44 CHƯƠNG KHAI PHÁ MẪU DÃY LỢI ÍCH CAO VỚI KHOẢNG CÁCH THỜI GIAN 46 3.1 GIỚI THIỆU 46 3.2 BÀI TOÁN KHAI PHÁ MẪU DÃY LỢI ÍCH CAO VỚI KHOẢNG CÁCH THỜI GIAN 47 3.2.1 Một số định nghĩa: 47 3.2.2 Khai phá mẫu dãy lợi ích cao với khoảng cách thời gian 51 3.2.3 Thuật toán UIL: 52 a) Ràng buộc thời gian: 52 b) Bảng lợi ích: 52 c) Giảm dần cận lợi ích swu 53 3.2.4 Thử nghiệm thuật toán UIL 60 3.3 KẾT LUẬN CHƯƠNG 66 CHƯƠNG KẾT LUẬN VÀ KIẾN NGHỊ 67 TÀI LIỆU THAM KHẢO 69 MỞ ĐẦU Cùng với bùng nổ ngành công nghệ thông tin vài thập kỷ qua, liệu sinh lưu trữ sở liệu ngày nhiều lên Việc phân tích liệu phương pháp thủ cơng ngày khó khăn tốn thời gian Từ thực tế đó, lĩnh vực nghiên cứu lên để phát triển kỹ thuật phân tích liệu tự động: Khai phá liệu Mục tiêu khai phá liệu tìm tri thức từ sở liệu Khai phá liệu gồm nhiều tác vụ khác như: Phân loại liệu (Classification), Gom cụm liệu (Clustering), Khai phá luật kết hợp (Association Rule) … Khai phá tập mục thường xuyên toán toán khai phá luật kết hợp Khởi nguồn nghiên cứu Agrawal [1] phân tích liệu mua sắm khách hàng siêu thị Khai phá tập mục thường xuyên tập trung xác định tập mục thường xuyên (frequent itemsets), nghĩa mục thường xuất CSDL Khai phá mẫu dãy thường xuyên toán mở rộng khai phá tập mục thường xuyên Các mẫu dãy phần tử xếp theo thứ tự định (thường thứ tự thời gian) Mục tiêu khai phá mẫu dãy thường xuyên tìm mẫu dãy thường xuyên (frequent sequence patterns), nghĩa mẫu dãy thường xuất CSDL Bài toán khai phá mẫu dãy thường xuyên tập mục thường xuyên sử dụng độ đo tần xuất xuất liệu (frequency) Tuy nhiên, tần xuất xuất liệu lúc độ đo tốt để tìm mẫu dãy có giá trị Vì đơi số mặt hàng có số lượng mua lại mang lại lợi nhuận cao Từ thực tế này, độ đo đề xuất: lợi ích (utility) nhằm tìm mẫu có giá trị Bài tốn khai phá mẫu dãy lợi ích cao đặt để tìm mẫu dãy có giá trị Trong khai phá mẫu dãy lợi ích cao, mục CSDL gán giá trị số lượng giá trị trọng số thể mức độ quan trọng mục Các mẫu dãy thực tế ngồi giá trị lợi ích mục cịn có giá trị khoảng cách thời gian thành phần dãy Các mẫu dãy với a > ) :292, ( ) :292, ( ) :292 ( ), ( ),( ),( ), ( ),( ),( )… ) :387, ( ) :337, ( ) :387, ( ) :292, ( ) :292, ( ) :292 ( ( ( ), ( ) :387, ( < 3, d>), ( ) :292 ) :226 ) ,( ) , ( ), ( )… Bảng 3.4 Sinh mẫu dãy ứng viên UIL 59 3.2.4 Thử nghiệm thuật toán UIL Trong phần thử nghiệm so sánh thuật toán UIL so với thuật toán UL Hai thuật toán sử dụng phương pháp sinh ứng viên kiểu Apriori Thuật tốn UL tìm mẫu dãy lợi ích cao, thuật tốn UIL tìm mẫu dãy lợi ích cao với khoảng cách thời gian Hai thuật toán cài đặt thử nghiệm ngơn ngữ lập trình Java, sử dụng máy tính có xử lý Intel Core-i7 với GB nhớ chính, chạy Microsoft Windows 10 64 bit Dữ liệu thử nghiệm số liệu thực lấy trang web tác giả Philippe Fournier-Viger [36] Dữ liệu thực BMSWebView1, BMSWebView2, Bible, Fifa Dữ liệu BMSWebView1 có 59601 dãy, 497 mục liệu, độ dài trung bình dãy 2.42 Dữ liệu BMSWebView2 có 77512 dãy, 3340 mục liệu, độ dài trung bình dãy 4.62 Dữ liệu Bible có 36369 dãy, 13905 mục liệu, độ dài trung bình dãy 21.6 Dữ liệu Fifa có 20450 dãy, 2990 mục liệu, độ dài trung bình dãy 34.74 Bảng 3.5 mô tả đặc điểm tập liệu thử nghiệm Tập liệu Số dãy liệu Số mục liệu Độ dài trung bình dãy BMSWebView1 59601 497 2.42 BMSWebView2 77512 3340 4.62 Bible 36369 13905 21.6 Fifa 20450 2990 34.74 Bảng 3.5 Đặc điểm tập liệu thử nghiệm 60 Vì liệu khơng có liệu lợi ích thời gian Do vậy, để phù hợp với tốn khai phá lợi ích cao với khoảng cách thời gian, liệu thêm vào giá trị lợi ích (số lượng) lợi ích ngồi (lợi nhuận) Số lượng mục liệu sinh ngẫu nhiên khoảng đến 10 Trên thực tế, đa số mục liệu có lợi nhuận thấp, bảng lợi ích ngồi sinh ngẫu nhiên theo phân bố chuẩn từ đến 10 Dữ liệu thời gian dãy sinh theo thứ tự tăng dần tập mục, tập mục cách khoảng cách thời gian Tập mục có thời gian 0, 1, 2… Các liệu thử nghiệm với ngưỡng lợi ích tối thiểu minUtil khác Do độ dài trung bình mẫu dãy liệu khác nhau, ràng buộc thời gian đặt giá trị khác với liệu Bảng 3.6 giá trị ràng buộc thời gian tương ứng với liệu Tập liệu Min_duration Max_duration BMSWebView1 BMSWebView2 10 Bible 25 Fifa 40 Bảng 3.6 Ràng buộc thời gian 61 Hình 3.1 Thời gian chạy Bộ liệu BMSWebView1 Hình 3.2 Thời gian chạy Bộ liệu BMSWebView2 62 Hình 3.3 Thời gian chạy Bộ liệu Bible Hình 3.4 Thời gian chạy Bộ liệu Fifa 63 Hình 3.5 Bộ nhớ sử dụng liệu BMSWebView1 Hình 3.6 Bộ nhớ sử dụng liệu BMSWebView2 64 Hình 3.7 Bộ nhớ sử dụng liệu Bible Hình 3.8 Bộ nhớ sử dụng liệu Fifa 65 Hình 3.1 đến Hình 3.8 kết chạy thử nghiệm thuật toán UIL UL Có thể thấy thuật tốn UIL có hiệu tốt UL thời gian chạy nhớ sử dụng Do UIL, ràng buộc thời gian sử dụng giúp tránh việc phải sinh nhiều ứng viên với khoảng thời gian dài Ngoài ra, UIL sử dụng số kỹ thuật để tăng hiệu cho giải thuật, điều giúp thuật tốn UIL có hiệu tốt Kết thử nghiệm cho thấy khả mở rộng thuật toán UIL UL tương đương giảm dần ngưỡng hỗ trợ Điều thuật toán sử dụng phương pháp sinh liệu kiểu Apriori 3.3 Kết luận chương Chương giới thiệu toán khai phá mẫu dãy lợi ích cao với khoảng cách thời gian mở rộng toán khai phá mẫu dãy lợi ích cao Mục tiêu khai phá mẫu dãy lợi ích cao với khoảng cách thời gian tìm mẫu dãy lợi ích cao CSDL dãy định lượng có yếu tố thời gian Chương đề xuất thuật toán khai phá mẫu dãy lợi ích cao với khoảng cách thời gian UIL Thuật toán UIL sinh mẫu dãy dựa phương pháp Apriori, áp dụng số kỹ thuật để tăng hiệu cho thuật tốn Nhờ vào bảng lợi ích, thuật toán UIL cần thực pha thay pha thuật tốn UL [37] UIL sử dụng kỹ thuật giúp giảm dần ngưỡng cận lợi ích mẫu dãy, nhờ làm giảm khơng gian tìm kiếm tăng hiệu cho thuật tốn Ngồi ra, việc sử dụng ràng buộc thời gian, khơng gian tìm kiếm giảm đáng kể tránh việc sinh mẫu dãy ý nghĩa (mẫu dãy với khoảng cách thời gian dài) Phân tích thực nghiệm chứng minh UIL thuật toán hiệu để khai phá mẫu dãy lợi ích cao với khoảng cách thời gian 66 Chương KẾT LUẬN VÀ KIẾN NGHỊ 4.1 Kết luận Khai phá mẫu dãy nói riêng hay khai phá liệu nói chung ứng dụng rộng rãi thực tế, phân tích thị trường, phân tích mẫu truy cập website, phát xâm nhập môi trường mạng, dự báo nhu cầu mua sắm khách hàng,… Luận văn nghiên cứu, tìm hiểu lĩnh vực khai phá mẫu dãy thường xuyên, mẫu dãy lợi ích cao mẫu dãy lợi ích cao với khoảng cách thời gian Bài toán khai phá mẫu dãy thường xuyên từ đời đến nhiều nhà nghiên cứu quan tâm tìm hiểu Từ nhiều cơng trình nghiên cứu đời nhằm cải tiến thuật toán SPM mở rộng tốn nhằm giải tình khác Khai phá mẫu dãy lợi ích cao (HUSPM) hướng mở rộng SPM nhằm tìm kiếm mục có giá trị cao khơng có tần xuất xuất nhiều Khai phá mẫu dãy lợi ích cao với khoảng cách thời gian tiếp tục hướng mở rộng nhỏ HUSPM Trong toán này, khoảng cách thời gian lần giao dịch tính tới nhằm loại bỏ bớt mẫu dãy có ý nghĩa (như mẫu dãy có khoảng cách thời gian lần giao dịch dài) Trong luận văn tìm hiểu số thuật toán khai phá mẫu dãy thường xuyên, mẫu dãy lợi ích cao ưu nhược điểm thuật toán Luận văn giới thiệu toán khai phá mẫu dãy lợi ích cao với khoảng cách thời gian đề xuất giải thuật để giải tốn Các mẫu dãy tìm thuật tốn khai phá mẫu dãy lợi ích cao với khoảng cách thời gian thường so với khai phá mẫu dãy lợi ích cao nhờ vào ràng buộc thời gian sử dụng Tuy nhiên, chúng lại có ý nghĩa thực tế Nhờ vậy, toán khai phá mẫu dãy lợi ích cao với khoảng cách thời gian làm giảm 67 đáng kể khơng gian tìm kiếm so với khai phá lợi ích cao đơn tìm mẫu dãy có ý nghĩa 4.2 Kiến nghị Khai phá mẫu dãy lợi ích với khoảng cách thời gian hướng nghiên cứu có nhiều khả mở rộng Bài tốn khai phá mẫu dãy lợi ích với khoảng cách thời gian giải vấn đề khoảng cách thời gian giá trị lợi ích mục liệu Tuy nhiên, liệu thực tế đa dạng phức tạp Để việc nghiên cứu sâu vào thực tế có ý nghĩa hơn, nghiên cứu mở rộng để xử lý loại liệu khác nhau, ví dụ liệu mờ, liệu tăng trưởng… 68 TÀI LIỆU THAM KHẢO [1] R.Agrawal, T.Imielinski, and A.Swami, 1993, "Mining Association Rules between Sets of Items in Large Databases," in Proceedings of the 1993 ACM SIGMOD International Conference on Management of Data [2] R Agrawal, R Srikant, 1995, "Mining sequential patterns," in Proceedings of the International Conference on Data Engineering (ICDE), [3] R Agrawal, R.Srikant, 1996, "Mining sequential patterns: Generallizations and performance improvements," Lecture Notes in Computer Science, vol 1057, pp 3-17, [4] Ayres, J., Gehrke, J., Yiu, T and Flannick, J, 2002, "Sequential Pattern Mining using Bitmap Representation," in Proc of ACM SIGKDD’02, [5] Zaki.M, 2000, "SPADE: An Efﬁcient Algorithm for Mining Frequent Sequences," Machine Learning, vol 40, pp 31-60, [6] J Pei, J Han, B.M Asi, H Pino, 2001, "PrefixSpan: Mining Sequential Patterns Efficiently by Prefix-Projected Pattern Growth," in Proceedings of the Seventeenth International Conference on Data Engineering, [7] S Aseervatham, A Osmani and E Viennet, 2006, "bitSPADE: A lattice-based sequential pattern mining algorithm using bitmap representation," in The International Conference on Data Mining, , p 792–797 [8] K Gouda, M Hassaan and M Zaki, 2010, "Prism: An effective approach for frequent sequence mining via prime-block encoding," Journal of Computer and System Sciences, vol 76, p 88–102, [9] J Han, J Pei, B Mortazavi-Asl, Q Chen, U Dayal and M Hsu, 2000, "FreeSpan: frequent patternprojected sequential pattern mining," in ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, , p 355–359 [10] K Huang, C Chang, J Tung and C Ho, 2006, "COBRA: closed sequential pattern mining using bi-phase reduction approach," in The International Conference on Data Warehousing and Knowledge Discovery, p 280–291 69 [11] P Tzvetkov, X Yan and J Han, 2003, "TSP: Mining Top-K Closed Sequential Patterns," ICDM, pp 347-354, [12] J Ren, J Yang and Y Li, 2008, "Mining weighted closed sequential patterns in large databases," in The International Conference on Fuzzy Systems and Knowledge Discovery, p 640–644 [13] Y Xifeng, H Jiawei and R Afshar, 2003, "CloSpan: Mining Closed Sequential Patterns in Large Data Base," in SIAM International Conference on Data Mining, p 166–177 [14] P Fournier-Viger, C.-W Wu and V Tseng, 2013, "Mining Maximal Sequential Patterns without Candidate Maintenance," in The International Conference on Advanced Data Mining and Applications, p 169–180 [15] P Fournier-Viger, C.-W Wu, A Gomariz and V Tseng, 2014¸"VMSP: Efficient vertical mining of maximal sequential patterns," in The Canadian Conference on Artificial Intelligence, p 83–94 [16] R Garcia-Hernandez, J Martanez-Trinidad and J Carrasco-Ochoa, 2006, "A new algorithm for fast discovery of maximal sequential patterns in a document collection," in The International Conference on Intelligent Text Processing and Computational Linguistics, p 514–523 [17] E Guan, X Chang, Z Wang and C Zhou, 2005, "Mining maximal sequential patterns," in The International Conference on Neural Networks and Brain, p 525–528 [18] N Lin, W.-H Hao, H.-J Chen, H.-E Chueh and C.-I Chang, 2007, "Fast mining maximal sequential patterns," in The International Conference on Simulation, Modeling and Optimization, p 405–408 [19] C Luo and S Chung, 2005, "Efficient mining of maximal sequential patterns using multiple samples," A Survey of Sequential Pattern Mining, vol 73, p 415–426 [20] P Fournier-Viger, A Gomariz, M Sebek and M Hlosta, 2014, "VGEN: fast vertical mining of sequential generator patterns," in The International Conference on Data Warehousing and Knowledge Discovery, p 476–488 70 [21] T Pham, J Luo, T.-P Hong and B Vo, 2012, "MSGPs: a novel algorithm for mining sequential generator patterns," in The International Conference on Computational Collective Intelligence, p 393–401 [22] C Gao, J Wang, Y He and L Zhou, 2008, "Efficient mining of frequent sequence generators," in The International Conference on the World Wide Web, p 1051–1052 [23] D Lo, S Khoo and J Li, 2008, "Mining and ranking generators of sequential patterns," in SIAM International Conference on Data Mining, p 553–564 [24] S Yi, T Zhao, Y Zhang, S Ma and Z Che, 2011, "An effective algorithm for mining sequential generators," Procedia Engineering, vol 15, p 3653–3657 [25] U Yun and J Leggett, 2006, "WSpan: Weighted Sequential pattern mining in large sequence databases," in The International IEEE Conference Intelligent Systems, p 512–517 [26] J Chang, 2011, "Mining weighted sequential patterns in a sequence database with a time-interval weight," Knowledge-Based Systems, vol 24, p 1–9 [27] Ahmed, C F., Tanbeer, S K., & Jeong, B S, 2010, "A novel approach for mining highutility sequential patterns in sequence databases," ETRI Journal, pp 676-686 [28] Alkan, O K and Karagoz, P , 2016, "CRoM and HuspExt: Improving efficiency of high utility sequential pattern extraction," in 2016 IEEE 32nd International Conference on Data Engineering (ICDE), Helsinki [29] Lan, G.C., Hong, T.P., Tseng, V.S., Wang, S.L, 2014, "Applying the maximum utility measure in high utility sequential pattern mining," Expert Syst Appl, vol 41, no 11, p 5071–5081 [30] Yin, J., Zheng, Z., Cao, L, 2012, "USpan: an efficient algorithm for mining high utility sequential," in Proceedings of the 18th ACM SIGKDD International Conference on Knowledge [31] Yu Hirate, Hayato Yamana, 2006, "Generalized Sequential Pattern Mining with Item Intervals," JOURNAL OF COMPUTERS, vol 1, no 3, pp 51-60 71 [32] Wang, J.Z., Huang, J.L., Chen, Y.C, 2016, "On efficiently mining high utility sequential patterns," Knowl Inf Syst, vol 49, no 2, p 597–627 [33] Zheng.Z, Cao.L, Song.Y and Wei.W, 2013, "Efficiently Mining Top-K High Utility Sequential Patterns," 2013 IEEE 13th International Conference on Data Mining, pp 1259-1264 [34] Chen Y.-L and Huang T.C.-H., 2003, "Discovering time-interval sequential patterns in sequence databases," Expert Systems with Applications, vol 25, no 3, p 343–354 [35] Chen Y.-L., Chiang M.-C and Ko M.-T., 2005, "Discovering fuzzy time-interval sequential patterns in sequence databases," IEEE Transactions on Systems Man and Cybernetics, vol 35, no 5, p 959–972 [36] Philippe-fournier-viger, "The SPMF Open-Source Data Mining Library," [Online] Available: http://www.philippe-fournierviger.com/spmf/index.php?link=datasets.php [37] C F Ahmed, S K Tanbeer, and B S Jeong, 2010, "A novel approach for mining high-utility sequential," Electronics and Telecommunications Research Institute journal,, vol 32, no 5, p 676–686 [38] P Fournier-Viger, A Gomariz, M Campos and R Thomas, 2014, "Fast Vertical Mining of Sequential Patterns Using Co-occurrence Information," in The Pacific-Asia Conference on Knowledge Discovery and Data Mining, p 40–52 [39] Z Yang and M Kitsuregawa, 2005, "LAPIN-SPAM: An improved algorithm for mining sequential pattern," A Survey of Sequential Pattern Mining, vol 75, p 1222–1222 [40] P Fournier-Viger, A Gomariz, T Gueniche, E Mwamikazi and R Thomas, 2013, "TKS: Efficient mining of top-k sequential patterns," in The International Conference on Advanced Data Mining and Applications, p 109–120 [41] E Salvemini, F Fumarola, D Malerba and J Han, 2011, "Fast sequence mining based on sparse id-lists," in The International Symposium on Methodologies for Intelligent Systems, p 316–325 72 [42] N Mabroukeh and C Ezeife, 2010, "A taxonomy of sequential pattern mining algorithms," ACM Computing Surveys, vol 43 [43] P Songram and V Boonjing, 2008, "Closed multidimensional sequential pattern mining," International Journal of Knowledge Management Studies, vol 2, p 460–479 [44] J Wang, J Han and C Li, 2007, "Frequent closed sequence mining without candidate maintenance," IEEE Transactions on Knowledge Data Engineering, vol 19, p 1042–1056 [45] T Uno, M Kiyomi and H Arimura, 2004, "LCM ver 2: Efficient mining algorithms for frequent/closed/maximal itemsets," in IEEE International Conference on Data Mining Workshop on Frequent Itemset Mining Implementations [46] P Fournier-Viger, C Wu and V Tseng, 2014, "Novel concise representations of high utility itemsets using generator patterns," in The Internatioanl Conference on Advanced Data Mining and Applications, p 30–43 [47] L Szathmary, P Valtchev, A Napoli, R Godin, A Boc and V Makarenkov, 2014, "A fast compound algorithm for mining generators, closed itemsets, and computing links between equivalence classes," Annals of Mathematics and Artificial Intelligence, vol 70, p 81–105 73 ... chương 2.2 Bài tốn khai phá mẫu dãy lợi ích cao Bài tốn khai phá mẫu dãy lợi ích cao có mục tiêu tìm tất mẫu dãy lợi ích cao CSDL dãy định lượng (QSDB) ID Dãy liệu với lợi ích Lợi ích S1

Khai phá mẫu dãy lợi ích cao với khoảng cách thời gian

Thông tin tài liệu

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan