Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 151 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
151
Dung lượng
3,6 MB
Nội dung
ĐẠI HỌC QUỐC GIA TP HCM TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VĂN THỊ THIÊN TRANG KHAI THÁC MẪU TUẦN TỰ PHỔ BIẾN DỰA TRÊN RÀNG BUỘC LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH TP HỒ CHÍ MINH – 2021 ĐẠI HỌC QUỐC GIA TP HCM TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VĂN THỊ THIÊN TRANG KHAI THÁC MẪU TUẦN TỰ PHỔ BIẾN DỰA TRÊN RÀNG BUỘC Chuyên ngành : Khoa học máy tính Mã số ngành: 62 48 01 01 LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH NGƯỜI HƯỚNG DẪN KHOA HỌC: GS.TS LÊ HỒI BẮC PHẢN BIỆN 1: PGS TS ĐỖ VĂN NHƠN PHẢN BIỆN 2: TS ĐẶNG TRƯỜNG SƠN TP HỒ CHÍ MINH – 2021 LỜI CAM ĐOAN Tôi xin cam đoan nội dung luận án kết nghiên cứu thân Những đóng góp luận án kết nghiên cứu tác giả công bố cơng trình khoa học nêu phần danh mục cơng trình nghiên cứu, chưa cơng bố cơng trình khác Các cơng trình nghiên cứu có nhiều tác giả đưa vào nội dung luận án nhận đồng ý trước đồng tác giả Tơi xin cam đoan giúp đỡ cho việc thực luận án cảm ơn thơng tin trích dẫn tham khảo từ nghiên cứu có liên quan nêu rõ nguồn gốc danh mục tài liệu tham khảo luận án Tác giả luận án Văn Thị Thiên Trang -i- LỜI CẢM ƠN Đ ầu tiên, xin chân thành gửi lời cảm ơn đến Quý Thầy Cô khoa Khoa học Máy tính, trường Đại học Cơng Nghệ Thơng Tin tận tình dạy dỗ, truyền đạt nhiều kiến thức q báu giúp tơi hồn thành khóa học tiến độ Đặc biệt, tơi xin bày tỏ lịng biết ơn sâu sắc đến Quý Thầy, GS TS Lê Hoài Bắc động viên, bảo, tận tình hướng dẫn tơi suốt q trình nghiên cứu để đạt kết hơm nay, hồn thành luận án Xin cảm ơn Phòng Sau đại học hỗ trợ thủ tục hồn thành luận án Cuối cùng, tơi xin gửi lời cảm ơn đến gia đình, bạn bè, đồng nghiệp, người sát cánh động viên, tạo điều kiện thuận lợi cho suốt thời gian làm nghiên cứu sinh TP HCM, tháng 02 năm 2021 Văn Thị Thiên Trang - ii - Mục lục Mục lục iii Danh mục thuật ngữ, kí hiệu, chữ viết tắt vii Danh mục bảng x Danh mục hình vẽ, đồ thị xii MỞ ĐẦU Chương GIỚI THIỆU TỔNG QUAN 1.1 Tổng quan khai thác mẫu từ sở liệu chuỗi Giới thiệu liệu chuỗi Các kỹ thuật thác liệu chuỗi .6 Khai thác mẫu dựa ràng buộc Các nghiên cứu có ngồi nước Đánh giá chung 13 1.2 Động mục tiêu nghiên cứu 13 Động nghiên cứu 13 Mục tiêu nghiên cứu luận án 15 1.3 Phạm vi, nội dung phương pháp nghiên cứu 16 Đối tượng, phạm vi nghiên cứu 16 Nội dung nghiên cứu 16 Phương pháp nghiên cứu 17 1.4 Đóng góp luận án 17 1.5 Kết chương 18 Chương CƠ SỞ LÝ THUYẾT 20 - iii - 2.1 Các khái niệm định nghĩa 20 2.2 Các loại ràng buộc 22 2.3 Đặc trưng thuật toán khai thác mẫu 25 Các cách tổ chức liệu 26 Các hướng tiếp cận để tìm liệt kê mẫu 27 Các kỹ thuật tạo mẫu ứng viên 28 Các phương pháp duyệt không gian tìm kiếm 29 2.4 Phân loại phương pháp khai thác 30 Lớp thuật toán tổ chức liệu biểu diễn ngang 31 Lớp thuật toán tổ chức liệu biểu diễn dọc 36 Đánh giá chung 39 2.5 Kết chương 40 Chương KHAI THÁC MẪU TUẦN TỰ DỰA TRÊN RÀNG BUỘC ITEMSET 41 3.1 Giới thiệu 41 3.2 Các định nghĩa phát biểu toán 43 3.3 Các nghiên cứu liên quan 45 Phương pháp sử dụng vector bit/ bitmap .47 Phương pháp mã hóa nguyên tố vector bit 48 Phương pháp vector bit động 50 3.4 Phương pháp đề xuất 51 Cấu trúc DBVP 51 Cấu trúc tiền tố-DBVP 55 Thuật toán MSPIC-DBV 56 Ví dụ minh họa thuật tốn MSPIC-DBV .63 3.5 Kết thực nghiệm 68 - iv - Cơ sở liệu thực nghiệm 68 Khởi tạo tập ràng buộc 69 Phân tích kết thực nghiệm 70 Kết luận thực nghiệm 75 3.6 Kết chương 76 Chương ỨNG DỤNG CỦA TẬP MẪU THỎA RÀNG BUỘC ITEMSET TRONG KHAI THÁC LUẬT CÓ RÀNG BUỘC 77 4.1 Giới thiệu 77 4.2 Định nghĩa toán nghiên cứu liên quan 80 Các định nghĩa .80 Các nghiên cứu liên quan 82 4.3 Phương pháp khai thác luật với ràng buộc Itemset 83 Thuật toán MSRIC-B 84 Thuật toán MSRIC-R 87 Thuật toán MSRIC-P 89 Đánh giá chung 90 Ví dụ minh họa 91 4.4 Kết thực nghiệm 95 Về thời gian khai thác 95 Về nhớ sử dụng .97 Kết luận thực nghiệm 97 4.5 Kết chương 98 Chương KHAI THÁC MẪU TRUY CẬP WEB DỰA TRÊN RÀNG BUỘC CHUỖI CON 99 5.1 Giới thiệu 99 5.2 Khai thác mẫu truy cập web 102 -v- Thu thập tiền xử lý liệu 103 Các định nghĩa phát biểu toán .104 Các nghiên cứu liên quan 106 5.3 Phương pháp đề xuất 107 Cấu trúc PreWAP 107 Thuật toán MWAPC EMWAPC 109 5.4 Kết thực nghiệm 119 Cơ sở liệu thực nghiệm 119 Khởi tạo tập ràng buộc 120 Phân tích kết thực nghiệm 120 Kết luận thực nghiệm 124 5.5 Kết chương 125 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 126 CƠNG TRÌNH KHOA HỌC CỦA TÁC GIẢ 128 CƠNG TRÌNH KHOA HỌC CÓ LIÊN QUAN 129 ĐỀ TÀI NGHIÊN CỨU KHOA HỌC 130 TÀI LIỆU THAM KHẢO 131 - vi - Danh mục thuật ngữ, kí hiệu, chữ viết tắt STT Thuật ngữ/ Tiếng Anh Tiếng Việt Chữ viết tắt/ Kí hiệu CSDL Database(s) Cơ sở liệu SDB Sequence database Cơ sở liệu chuỗi minSup Minimum support Độ phổ biến tối thiểu I Items Tập item len(p) Length of sequence p Độ dài chuỗi p chuỗi-k k-sequence Chuỗi có độ dài k mẫu-k k-pattern Mẫu có độ dài k sup(p) The support of Độ phổ biến mẫu/chuỗi p sequence/pattern p atom 10 ℂ Mẫu phổ biến độ dài The set of constraint Tập itemset ràng buộc itemsets 11 c A constraint itemset Một itemset ràng buộc, c ℂ 12 U The set of constraint Tập chuỗi ràng buộc sequences 13 14 U’ ƑP The set of frequent Tập chuỗi ràng buộc phổ constraint sequences biến The set of frequent Tập mẫu phổ biến sequential patterns 15 ƑCP The set of frequent - vii - Tập mẫu phổ biến thỏa ràng buộc sequential patterns satisfied constraints 16 Ʀ The set of sequential rules Tập luật 17 ƇƦ The set of sequential rules Tập luật thỏa ràng buộc satisfied constraints 18 19 WD MSPIC-DBV Web access database/ Cơ sở liệu chuỗi truy cập Web log database web Mining Sequential Thuật toán khai thác mẫu tuần Patterns based on Itemset tự dựa ràng buộc itemset, Constraint using Dynamic sử dụng vector bit động Bit Vector 20 21 22 MSPIC-Nạve MSRIC-B MSRIC-R Mining Sequential Thuật tốn khai thác mẫu tuần Patterns based on Itemset tự dựa ràng buộc itemset – Constraint – Naïve phương pháp “ngây thơ” Mining Sequential Rules Thuật toán khai thác luật tuần with Itemset Constraint - tự với ràng buộc itemset theo Basic phương pháp sở Mining Sequential Rules Thuật toán khai thác luật tuần with Itemset Constraint - tự với ràng buộc itemset cách đưa ràng buộc vào giai Rule đoạn sinh luật 23 MSRIC-P Mining Sequential Rules Thuật toán khai thác luật tuần with Itemset Constraint - tự với ràng buộc itemset cách đưa ràng buộc vào giai Pattern đoạn tìm mẫu 24 MWAPC Mining Access Thuật toán khai thác mẫu truy Web Patterns based on sub- cập web với ràng buộc chuỗi pattern Constraint - viii - Chương Khai thác mẫu truy cập web dựa ràng buộc chuỗi cho thấy EMWAPC nhanh MWAPC EMWAPC tỉa khơng gian tìm kiếm từ đầu Đặc biệt, với minSup thấp, chênh lệch EMWAPC với thuật tốn cịn lại tăng Vì minSup giảm, số lượng mẫu thỏa ràng buộc lớn, có nhiều ứng viên phải kiểm tra ràng buộc dùng EMWAPC có nhiều mẫu không cần kiểm tra Với CSDL khác, kết thu tương tự Riêng CSDL Kosarak Hình 5.4 (c), đồ thị biểu diễn theo tỉ lệ 10n (n 0) chênh lệch phương pháp lớn Khi minSup nhỏ 0.2%, thời gian khai thác PRISMC vượt 5000s Sở dĩ có chênh lệch lớn số lượng item phân biệt Kosarak lớn nhiều so với Gazelle FIFA, nhờ EMWAPC tỉa nhiều từ đầu theo atom phổ biến F1 b) Kết khai thác với Length thay đổi, minSup cố định Dựa vào độ dài mẫu khám phá CSDL, thực nghiệm với giá trị Length thay đổi phạm vi thích hợp Các thuật tốn trả tập mẫu khai thác giống thời gian thực thi nhớ sử dụng khác So sánh thời gian thực thi trình bày Hình 5.5 Quan sát kết quả, ta thấy EMWAPC chạy nhanh nhất, MWAPC PRISMC, CM-SPAMC chạy chậm Riêng CSDL Kosarak, CMSPAMC chạy nhanh PRISMC tương tự thực nghiệm trước Đồ thị Hình 5.5 (c) biểu diễn trục thời gian theo tỉ lệ 8n (n 0) chênh lệch thời gian thuật toán lớn Tại minSup = 0.18%, Length khác thời gian chạy PRISMC vượt 5000s, nghĩa chậm MWAPC xấp xỉ 20 lần EMWAPC 25 lần Chênh lệch thời gian EMWAPC với ba thuật tốn cịn lại lớn giá trị Length tăng Đối với CSDL chứa chuỗi dài Kosarak FIFA, chênh lệch lớn giá trị Length tăng việc kiểm tra ràng buộc nhiều thời gian dù |U’| giảm Điều chứng tỏ kĩ thuật bỏ qua số lượng lớn ứng viên khỏi phải kiểm tra ràng buộc làm tăng hiệu suất thực thuật toán EMWAPC - 122 - Chương Khai thác mẫu truy cập web dựa ràng buộc chuỗi (a) (b) (c) Hình 5.5 So sánh thời gian thực thi với giá trị Length khác CSDL: (a) Gazelle, (b) FIFA (c) Kosarak 5.4.3.2 Về nhớ sử dụng Thực nghiệm so sánh nhớ sử dụng tính theo tổng số byte thơng tin mẫu duyệt khơng gian tìm kiếm tiền tố thấy hiệu cấu trúc PreWAP kĩ thuật tỉa không gian tìm kiếm từ đầu Kết thực nghiệm CSDL thực biểu diễn Hình 5.6 Khi thay đổi giá trị minSup biến - 123 - Chương Khai thác mẫu truy cập web dựa ràng buộc chuỗi động số lượng mẫu khai thác thể rõ nét, chúng tơi đo nhớ mà thuật toán tiêu tốn giá trị minSup khác Trên ba liệu, hai thuật toán đề xuất MWAPC EMWAPC tốn nhớ hơn, ta thấy tỉ lệ chênh lệch 10 lần so với PRISMC 100 lần với CM-SPAMC (a) b) (c) Hình 5.6 So sánh nhớ sử dụng với giá trị minSup khác CSDL thực nghiệm Kết luận thực nghiệm Các kết thực nghiệm chứng tỏ việc kết hợp ràng buộc chuỗi vào trình khai thác hiệu so với đưa ràng buộc vào sau Ngoài ra, - 124 - Chương Khai thác mẫu truy cập web dựa ràng buộc chuỗi trường hợp EMWAPC vượt trội thuật tốn cịn lại thời gian nhớ Kết chứng minh tính hiệu việc nén thông tin đại diện DBVP, tỉa khơng gian tìm kiếm từ đầu tránh phải kiểm tra ràng buộc cho lượng lớn ứng viên nhờ tận dụng tính chất DBVP PreWAP KẾT CHƯƠNG 5.5 Chương trình bày vấn đề khai thác mẫu truy cập web với ràng buộc chuỗi Chúng đưa cấu trúc PreWAP có vận dụng cấu trúc vector bit động để lưu thông tin mẫu ứng viên Từ cấu trúc này, chúng tơi đề xuất hai thuật tốn có tên MWAPC EMWAPC để giải vấn đề [CT4]4 Trong đó, thuật tốn đóng góp EMWAPC phát triển dựa sở lý thuyết ba mệnh đề tỉa nhanh khơng gian tìm kiếm giảm thiểu việc kiểm tra ràng buộc Kết thực nghiệm chứng minh thuật toán EMWAPC vượt trội MWAPC, CM-SPAMC PRISMC thời gian nhớ [CT4] V Trang, A Yoshitaka, & L Bac (2018), “Mining web access patterns with supper-pattern constraints”, Applied Intelligence, vol 48(11), pp 3902-3914 (Springer, SCI, Q2, IF= 2.882) - 125 - KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Kết luận Luận án trình bày tổng quan, tìm hiểu sở lý thuyết khai thác mẫu phổ biến dựa ràng buộc Trong đó, sâu vào nghiên cứu vấn đề khai thác mẫu với hai loại ràng buộc ràng buộc Itemset ràng buộc chuỗi con, ứng dụng tập mẫu thỏa ràng buộc khai thác luật có ràng buộc Bên cạnh đó, luận án nghiên cứu lĩnh vực ứng dụng cụ thể mẫu khai thác sử dụng web theo ràng buộc người dùng Luận án hoàn thành mục tiêu ban đầu đề xuất phương pháp khai thác hiệu cho tốn đặt cho tìm trực tiếp tập mẫu thỏa ràng buộc cách xác, rút ngắn thời gian khai thác giảm nhớ sử dụng Luận án đạt kết sau (1) Đề xuất thuật toán khai thác mẫu dựa ràng buộc Itemset: thuật toán MSPIC-DBV Thuật toán mở rộng phát triển cách tổ chức liệu biểu diễn dọc - đề xuất cấu trúc DBVP làm đại diện biểu diễn lại CSDL theo chiều dọc nhờ duyệt CSDL lần Bằng cách sử dụng cấu trúc tiền tố kết hợp DBVP để lưu khơng gian tìm kiếm, thuật tốn đưa kỹ thuật tỉa khơng gian theo tiền tố kỹ thuật kiểm tra ràng buộc theo tiền tố bỏ qua việc kiểm tra ràng buộc cho số lượng lớn mẫu ứng viên (2) Đề xuất thuật toán khai thác luật thỏa ràng buộc Itemset vế trái luật gồm ba thuật tốn MSRIC-B, MSRIC-R, MSRIC-P Trong MSRIC-P thuật tốn đóng góp chính, sử dụng tập mẫu thỏa ràng buộc Itemset sinh trực tiếp luật thỏa ràng buộc Itemset vế trái mà khơng cần kiểm tra ràng buộc hai thuật tốn cịn lại (3) Đề xuất thuật tốn khai thác mẫu truy cập web dựa ràng buộc chuỗi gồm MWAPC EMWAPC Trong đó, thuật tốn đóng góp EMWAPC sử dụng cấu trúc liệu kỹ thuật tương tự phương pháp khai thác mẫu với ràng buộc Itemset Tuy nhiên, dựa vào đặc điểm mẫu truy cập web, thuật toán thực - 126 - tỉa nhanh khơng gian tìm kiếm từ đầu giảm thiểu việc kiểm tra ràng buộc dựa vào đặc điểm ràng buộc chuỗi Hướng phát triển Mẫu hữu ích việc khám phá tri thức tiềm ẩn nguồn liệu dạng có tính ứng dụng thực tiễn cao Tuy nhiên, với tình trạng bùng nổ thông tin nay, khối lượng liệu ngày trở nên đồ sộ, việc khai thác tập mẫu cho hiệu tốn thời gian cần thiết Do vậy, nghiên cứu hướng tới vấn đề sau: Tiếp tục phát triển chiến lược tỉa khơng gian tìm kiếm hiệu cho tốn khai thác mẫu có ràng buộc để thuật toán đạt tốc độ nhớ tối ưu Nghiên cứu khai thác mẫu có ràng buộc CSDL phân tán, nhằm tìm cách xử lý hiệu cho CSDL cực lớn với chuỗi liệu dài Trong lĩnh vực khai thác thói quen sử dụng web, áp dụng khai thác phân tán để khai thác web log bị phân tán nhiều server Nghiên cứu áp dụng kỹ thuật đề xuất cho vấn đề khai thác mẫu với loại ràng buộc khác như: ràng buộc việc kết hợp kiện mẫu, ràng buộc thời gian - 127 - CƠNG TRÌNH KHOA HỌC CỦA TÁC GIẢ [CT1] V Trang, V Bay, & L Bac (2018), “Mining sequential patterns with itemset constraints”, Knowledge and Information Systems, vol 57(2), pp 311-330 [CT2] V Trang, V Bay, & L Bac (2014), “IMSR_PreTree: an improved algorithm for mining sequential rules based on the prefix-tree”, Vietnam Journal Computer Science (Springer), vol 1(2), pp 97-105 [CT3] V Trang, & L Bac (2020), “Mining sequential rules with itemset constraints”, Applied Intelligence (Proof) [CT4] V Trang, A Yoshitaka, & L Bac (2018), “Mining web access patterns with supper-pattern constraints”, Applied Intelligence, vol 48(11), pp 3902-3914 - 128 - CƠNG TRÌNH KHOA HỌC CĨ LIÊN QUAN [CT5] V Trang, V Bay, & L Bac (2011), “Mining sequential rules based on prefix- tree”, ACIIDS 2011, Daegu, Korea, SCI Vol 351 (Springer), 147-156 [CT6] H Bao Huynh, T Cuong, H Huy, V Trang, V Bay Vo, & Vaclav Snasel (2018) “An efficient approach for mining sequential patterns using multiple threads on very large databases” Engineering Applications of Artificial Intelligence, 74, 242-251 - 129 - ĐỀ TÀI NGHIÊN CỨU KHOA HỌC [ĐT 1] Thành viên tham gia đề tài: Phát triển thuật toán khai thác mẫu luật từ sở liệu chuỗi Quỹ phát triển khoa học công nghệ Quốc gia (NAFOSTED) tài trợ, 05/2014 – 05/2016 [ĐT 2] Thành viên tham gia đề tài: Các thuật toán nâng cao khai thác mẫu luật Quỹ phát triển khoa học công nghệ Quốc gia (NAFOSTED) tài trợ, 05/2016 – 05/2018 [ĐT 3] Thành viên tham gia đề tài: Phát triển phương pháp ẩn luật kết hợp khai thác liệu đảm bảo tính riêng tư Quỹ phát triển khoa học công nghệ Quốc gia (NAFOSTED) tài trợ, 03/2019 – 03/2021 [ĐT 4] Thành viên tham gia đề tài: Phát triển phương pháp rút trích đề thi trắc nghiệm dựa độ khó câu hỏi Sở Khoa học Công nghệ TP HCM, 08/2017 – 02/2019 - 130 - TÀI LIỆU THAM KHẢO Tiếng Anh [1] A Rajimol, & G Raju (2012), “Web access pattern mining–a survey”, Data Engineering and Management, Lecture Notes in Computer Science, vol 6411 Springer, Berlin, Heidelberg, pp 24–31 [2] B Mallick, D Garg, & P Grover (2014), “Constraint-based sequential pattern mining: a pattern growth algorithm incorporating compactness, length and monetary”, Int Arab J Inf Technol., 11(1), pp.33-42 [3] Bay Vo, Minh-Thai Tran, Bac Le (2015), “Mining frequent closed intersequence patterns efficiently using dynamic bit vectors”, Applied Intelligence, vol 43(1), 74-84 [4] Bay Vo, T.P Hong, Bac Le (2012), “DBV-Miner: A Dynamic Bit-Vector approach for fast mining frequent closed itemsets”, Expert Systems with Applications, vol 39(8), pp 7196-7206 [5] C Y Tsai, B H Lai (2015), “A location-item-time sequential pattern mining algorithm for route recommendation”, Knowledge-Based Systems, 73, pp 97–110 [6] D A Sandra, D A Furtado (2007), “First-order temporal pattern mining with regular expression constraints”, Data & Knowledge Engineering, vol 62(3), pp 401-420 [7] D Lo, S.C Khoo, L Wong (2009), “Non-Redundant Sequential Rules-Theory and Algorithm”, Information Systems, 34, pp 438-453 [8] F Masseglia, P Poncelet, M Teisseire (2009), “Efficient mining of sequential patterns with time constraints: Reducing the combinations”, Expert Systems with Applications, vol 36(2), pp 2677-2690 - 131 - [9] G Dong, J Pei (2007), Sequence data mining, vol 33, Springer Science & Business Media, New York [10] H Bao, T Cuong, Huynh M Huy, V Trang, V Bay, Václav Snásel (2018), “An efficient approach for mining sequential patterns using multiple threads on very large databases”, Engineering Applications of Artificial Intelligence, vol 74, pp 242-251 [11] H Mannila, H Toivonen, A.I Verkamo (1997), “Discovery of frequent episodes in event sequences”, Data Mining and Knowledge Discovery, vol 1(3), pp 259-289 [12] http://www.mediafire.com/folder/6rad1hrl1lhcx/Datasets [13] http://www.philippe-fournier-viger.com/spmf/index.php?link=datasets.php [14] J Ayres, J Flannick, J Gehrke, T Yiu (2002), “Sequential pattern mining using a bitmap representation”, Proceedings of the eighth ACM SIGKDD international conference on Knowledge discovery and data mining, pp 429435 [15] J Chen, H Cao, Q Li, Tieyun, Qian (2008), “Efficient strategies for tough aggregate constraint-based sequential pattern mining”, Information Sciences, vol 178(6), 1498-1518 [16] J Chen, J Gu, J Yang, Z Qiao (2010), “Efficient Strategies for Average Constraint-Based Sequential Pattern Mining”, Proceedings of the 2010 International Conference on Multimedia Communications, pp 254-257 [17] J Han, J Pei, B Mortazavi-Asl., Q Chen, U Dayal, M.C Hsu (2004), “Mining Sequential Patterns by Pattern-Growth: The PrefixSpan Approach”, IEEE Transactions on Knowledge and Data Engineering, vol 16(11), pp 1424-1440 [18] J Ho, L Lukov, S Chawla (2005), “Sequential pattern mining with constraints on large protein databases”, Proceedings of the 12th International Conference on Management of Data (COMAD 2005b), pp 89-100 [19] J O Aoga, T Guns, & P Schaus (2017), “Mining time-constrained sequential patterns with constraint programming”, Constraints, 22(4), 548-570 - 132 - [20] J Pei, J Han, B Mortazavi-asl, & H Zhu (2000), “Mining Access Patterns Efficiently from Web Logs”, In PAKDD, LNCS, vol 1805, pp 396–407 [21] J Pei, J Han, WeiWang (2007), “Constraint-based sequential pattern mining: the pattern-growth methods”, Intelligent Information Systems, vol 28(2), pp 133-160 [22] K Gouda, M Hassaan, M.J Zaki, (2010), “Prism: A Primal-Encoding Approach for Frequent Sequence Mining”, Computer and System Sciences, vol 76(1), pp 88-102 [23] K Lakshmanna, & N Khare (2018), “Mining DNA Sequence Patterns with Constraints Using Hybridization of Firefly and Group Search Optimization”, Journal of Intelligent systems, 27(3), pp 349-362 [24] L Bac, D.V Hai, T Tin & P Fournier-Viger (2017), “FCloSM, FGenSM: two efficient algorithms for mining frequent closed and generator sequences using the local pruning strategy”, Knowledge and Information Systems, 53(1), pp.71107 [25] L Fahed, P Lenca, Y Haralambous & R.Lefort (2020) Distant Event Prediction Based on Sequential Rules Data Science and Pattern Recognition, 4(1), 1-23 [26] M J Zaki (2000), “SPADE: An Efficient Algorithm for Mining Frequent Sequences”, Machine Learning, vol 42(1/2), pp 31-60 [27] M J Zaki (2000), “Sequence mining in categorical domains: incorporating constraints”, Proceedings of the 9th International Conference on Information and Knowledge Management, pp 422-429 [28] M N Garofalakis, R Rastogi, K Shim (1999), “SPIRIT: Sequential pattern mining with regular expression constraints”, Proceedings of the 25th International Conference on Very Large Data Bases, vol 99, pp 7-10 [29] M Spiliopoulou (1999), “Managing Interesting Rules in Sequence Mining”, Proceedings of European Conference on Principles of Data Mining and Knowledge Discovery, pp 554-560 - 133 - [30] M.J Zaki (2000), “Sequence mining in categorical domains: incorporating constraints”, Proceedings of the ninth International Conference on Information and Knowledge Management, pp 422-429 [31] M.M Rahman, C.F Ahmed, & C.K S Leung (2020) Mining weighted frequent sequences in uncertain databases Information Sciences, 479, 76-100 [32] M.Y Lin, S.Y Lee (2005), “Efficient mining of sequential patterns with time constraints by delimited pattern growth”, Knowledge and Information Systems, vol 7(4), 499-514 [33] Minh-Thai Tran, Bac Le, Bay Vo (2015), “Combination of dynamic bit vectors and transaction information for mining frequent closed sequences efficiently”, Engineering Applications of Artificial Intelligence, vol 38, 183-189 [34] Minh-Thai Tran, Bac Le, Bay Vo, T.P Hong (2016), “Mining non-redundant sequential rules with dynamic bit vectors and pruning techniques”, Applied Intelligence, pp 1-10 [35] N Béchet, P Cellier, T Charnois, T., & B Crémilleux (2015) Sequence mining under multiple constraints Proceedings of the 30th Annual ACM Symposium on Applied Computing, pp 908–914 [36] P Fournier-Viger, A Gomariz, M Campos, , & R Thomas (2014), “Fast Vertical Mining of Sequential Patterns Using Co-occurrence Information”, PAKDD’14, pp 40-52 [37] P Fournier-Viger, CW Wu, VS Tseng, L Cao, & Nkambou R (2015) Mining partially-ordered sequential rules common to multiple sequences IEEE Transactions on Knowledge and Data Engineering, 27(8), 2203-2216 [38] P Fournier-Viger, J C W Lin, R U Kiran, Y S Koh, R Thomas (2017) A survey of sequential pattern mining Data Science and Pattern Recognition, 1(1), 54-77 [39] P Fournier-Viger, J Li, J.C.W Lin, T.T Chi, & R.U Kiran (2020) Mining cost-effective patterns in event logs Knowledge-Based Systems, 191, 105241 - 134 - [40] P Fournier-Viger, P Yang, J.C.W Lin, & U Yun (2019) HUE-Span: fast high utility episode mining In International Conference on Advanced Data Mining and Applications, pp 169-184 Springer, Cham [41] P Fournier-Viger, T Gueniche , S Zida, VS Tseng VS (2014) ERMiner: sequential rule mining using equivalence classes In International Symposium on Intelligent Data Analysis, pp 108-119, Springer, Cham [42] P Fournier-Viger, U Faghihi, R Nkambou, EM Nguifo (2012) CMRules: An Efficient Algorithm for Mining Sequential Rules Common to Several Sequences Knowledge Based Systems, vol 25, no 1, pp 63-76, 2012 [43] P T Thiet, J Luo , T P Hong, & Vo, B (2014), “An efficient method for mining non-redundant sequential rules using attributed prefix-trees”, Engineering Applications of Artificial Intelligence, 32, pp 88-99 [44] P Tang, M P Turkia, & K A Gallivan (2007), “ Mining web access patterns with first-occurrence linked WAP-trees”, In SEDE’ 07, pp 247-252 [45] R Agrawal, R Srikant (1995), “Mining sequential patterns”, Proceedings of the 11th International Conference on Data Engineering, pp 3-14 [46] R Kohavi, C Brodley, B., Frasca, L Mason, & Z Zheng, Z (2000), “KDDCup 2000 Organizers’ Report: Peeling the Onion”, SIGKDD Explorations, vol 2(2), pp 86-98 (2000) [47] R Srikant, R Agrawal (1996), “Mining Sequential Patterns: Generalizations and Performance Improvements”, Proceedings of the 5th International Conference on Extending Database Technology, pp.3-17 [48] R.U Kira, M Kitsuregawa, & P.K Reddy (2016) Efficient discovery of periodic-frequent patterns in very large databases Journal of Systems and Software, 112, 110-121 [49] R.U Kiran, A Anirudh, C Saideep, M Toyoda, P.K Reddy, & M Kitsuregawa (2019) Finding periodic-frequent patterns in temporal databases using periodic summaries Data Science and Pattern Recognition, 3(2), 24-46 - 135 - [50] S J Yen, & Y S Lee (2004), “Mining sequential patterns with item constraints”, Data Warehousing and Knowledge Discovery, pp 381-390 [51] S Orlando, R Perego, C.o Silvestri (2004), “A New Algorithm for gap constrained sequence mining”, Proceedings of the ACM Symposium on Applied Computing (SAC), pp 540-547 [52] S S Titarenko, V N Titarenko, G Aivaliotis, G et al (2019), “Fast implementation of pattern mining algorithms with time stamp uncertainties and temporal constraints”, Journal of Big Data 6, 37 [53] S Vijayalakshmi, R S Mohan, & Suresh (2010), “ Mining of users access behavior for frequent sequential pattern from web logs”, International Journal of Database Management Systems, (3), 31-45 [54] X Wu, X Zhu, Y He, & A N (2013), “Arslan PMBC: Pattern mining from biological sequences with wildcard constraints”, Computers in biology and medicine, 43 (5), 481-492 [55] X Y Li (2013), “Data preprocessing in web usage mining”, In The 19th International Conference on Industrial Engineering and Engineering Management, pp 257-266, Springer, Berlin, Heidelberg [56] Y L Chen, Y H Hu (2006), “The consideration of recency and compactness in sequential pattern mining”, Decision Support Systems, vol 42(2), pp 12031215 [57] Y Lu, & C I Ezeife (2003), “Position Coded Pre-order Linked WAP-Tree for Web Log Sequential Pattern Mining”, In PAKDD, LNCS (LNAI), vol 2637, pp 337–349 [58] Z Yang, Y Wang and M Kitsuregawa (2007), “LAPIN: effective sequential pattern mining algorithms by last position induction for dense databases”, In Advances in Databases: Concepts, Systems and Applications Springer Berlin Heidelberg, pp 1020-1023 - 136 - ... ứng dụng ràng buộc item, độ dài mẫu, thời gian…[21] Khai thác mẫu phổ biến dựa ràng buộc khám phá mẫu phổ biến cách kết hợp ràng buộc người dùng vào trình khai thác Khai thác dựa ràng buộc khắc... (Khai thác mẫu dựa ràng buộc) Ràng buộc ℂ khai thác mẫu hàm Boolean ℂ(p) mẫu Cho CSDL chuỗi SDB, ràng buộc ℂ ngưỡng phổ biến tối thiểu minSup người dùng đưa Bài toán khai thác mẫu dựa ràng buộc. .. - Khai thác mẫu dựa ràng buộc Itemset: Giới thiệu toán, đề xuất phương pháp khai thác mẫu dựa ràng buộc Itemset Chương - Ứng dụng tập mẫu thỏa ràng buộc Itemset khai thác luật -2- có ràng buộc: