Cấu trúc của các chuỗi phổ biến với ràng buộc và các thuật toán khai thác hiệu quả

193 48 1
Cấu trúc của các chuỗi phổ biến với ràng buộc và các thuật toán khai thác hiệu quả

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN DƯƠNG VĂN HẢI CẤU TRÚC CỦA CÁC CHUỖI PHỔ BIẾN VỚI RÀNG BUỘC VÀ CÁC THUẬT TOÁN KHAI THÁC HIỆU QUẢ LUẬN ÁN TIẾN SĨ CƠNG NGHỆ THƠNG TIN TP HỒ CHÍ MINH - NĂM 2020 ĐẠI HỌC QUỐC GIA TP HCM TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN DƯƠNG VĂN HẢI CẤU TRÚC CỦA CÁC CHUỖI PHỔ BIẾN VỚI RÀNG BUỘC VÀ CÁC THUẬT TOÁN KHAI THÁC HIỆU QUẢ Ngành: Khoa học máy tính Mã số ngành: 62 48 01 01 Phản biện 1: PGS.TS Lê Anh Cường Phản biện 2: PGS.TS Quản Thành Thơ Phản biện 3: PGS.TS Đỗ Văn Nhơn Phản biện độc lập 1: PGS.TS Trần Đăng Hưng Phản biện độc lập 2: PGS.TS Đỗ Văn Nhơn NGƯỜI HƯỚNG DẪN KHOA HỌC PGS.TS Lê Hoài Bắc TS Trương Chí Tín Tp Hồ Chí Minh – Năm 2020 i Lời cam đoan Tôi xin cam đoan nội dung luận án kết nghiên cứu thân đồng tác giả công trình cơng bố liên quan đến luận án Những kết nghiên cứu chúng tơi trình bày luận án báo khoa học công bố nêu phần danh mục công trình nghiên cứu chưa cơng bố cơng trình khác Các kết nghiên cứu nhiều tác giả đưa vào nội dung luận án nhận đồng ý trước đồng tác giả Tất tham khảo từ nghiên cứu có liên quan đến nội dung luận án rõ nguồn gốc từ danh mục tài liệu tham khảo luận án Tác giả luận án Dương Văn Hải ii Lời cảm ơn Trước tiên, em xin chân thành bày tỏ lịng biết ơn sâu sắc đến PGS TS Lê Hồi Bắc, người Thầy tận tình giảng dạy, hướng dẫn, định hướng động viên em từ em học cao học, nghiên cứu sinh thực luận án Em xin gởi lời biết ơn sâu sắc đến TS Trương Chí Tín, nhờ bảo, hướng dẫn tận tình Thầy nghiên cứu động viên, khích lệ chia sẻ thầy sống, em trưởng thành hoàn thành luận án Em xin chân thành gửi lời cảm ơn đến Thầy/Cô Khoa Công nghệ Thông tin trường Đại học Khoa học Tự nhiên Tp HCM tận tình dạy dỗ, bảo nhiều kiến thức q báu giúp em hồn thành khóa học Xin cảm ơn Thầy/Cơ, đồng nghiệp bạn bè hỗ trợ, động viên trình học tập thực luận án Cuối cùng, tơi muốn bày tỏ lịng biết ơn sâu sắc đến thành viên gia đình tơi khích lệ, động viên, tạo điều kiện thuận lợi cho suốt thời gian làm nghiên cứu sinh Tp Hồ Chí Minh tháng 02 năm 2020 Tác giả luận án Dương Văn Hải iii Mục lục Mục lục .iv Danh mục ký hiệu chữ viết tắt vii Danh mục bảng xi Danh mục hình xii Chương - Giới thiệu 1.1 Khai thác chuỗi phổ biến .2 1.1.1 Bài toán 1.1.2 Các hướng tiếp cận khai thác chuỗi phổ biến 1.2 Khai thác chuỗi đóng chuỗi sinh phổ biến 1.3 Khai thác chuỗi phổ biến với ràng buộc 1.3.1 Bài toán khai thác chuỗi phổ biến với ràng buộc 1.3.2 Các hướng tiếp cận trước để khai thác ℱ𝒮 𝒞 1.3.3 Nhược điểm phương pháp trước động luận án 1.4 Phương pháp tiếp cận luận án để khai thác tập ℱ𝒮 𝒞 .11 1.4.1 Mục tiêu luận án .11 1.4.2 Phương pháp tiếp cận luận án 11 1.4.3 Nội dung phạm vi nghiên cứu luận án 14 1.5 Các đóng góp bố cục luận án 15 1.5.1 Các đóng góp luận án 15 1.5.2 Bố cục luận án 17 Chương - Khai thác chuỗi đóng chuỗi sinh phổ biến 19 2.1 Các khái niệm sở tốn khai thác chuỗi đóng sinh 20 2.1.1 Các khái niệm sở 20 2.1.2 Bài toán khai thác chuỗi đóng chuỗi sinh 23 2.2 Các nghiên cứu liên quan .23 2.2.1 Khai thác chuỗi đóng phổ biến .23 2.2.2 Khai thác chuỗi sinh phổ biến 25 iv 2.2.3 Khai thác đồng thời chuỗi đóng chuỗi sinh phổ biến 26 2.2.4 Khai thác song song 26 2.2.5 Sự khơng xác số kết lý thuyết [89] .28 2.3 Các kết lý thuyết 31 2.3.1 Số đo 𝑆𝐸 tính chất .32 2.3.2 Các điều kiện tỉa sớm 35 2.4 Các thuật toán khai thác chuỗi đóng chuỗi sinh 44 2.4.1 Cấu trúc liệu IDList 44 2.4.2 Các chiến lược tỉa địa phương 45 2.4.3 Các thuật toán .51 2.5 Đánh giá thực nghiệm 64 2.5.1 Hiệu FCloSM FGenSM 66 2.5.2 Hiệu FGenCloSM 72 2.5.3 Hiệu Par-GenCloSM 76 2.6 Kết luận 79 Chương - Cấu trúc tập chuỗi phổ biến dựa chuỗi đóng chuỗi sinh 80 3.1 Bài toán khái niệm sở 80 3.1.1 Bài toán 80 3.1.2 Các khái niệm sở 81 3.2 Các kết lý thuyết 84 3.2.1 Phân hoạch tập ℱ𝒮 84 3.2.2 Dẫn xuất tất chuỗi phổ biến tập ℱ𝒮(𝜎, 𝛾) 86 3.2.3 Dẫn xuất không trùng lặp tất chuỗi phổ biến tập ℱ𝒮 .90 3.3 Thuật toán FS-Miner kết thực nghiệm 101 3.3.1 Thuật toán FS-Miner 102 3.3.2 Kết thử nghiệm 107 3.4 Kết luận 110 Chương - Khai thác chuỗi phổ biến với ràng buộc 111 4.1 Giới thiệu, toán nghiên cứu liên quan .112 v 4.1.1 Giới thiệu 112 4.1.2 Các toán đặt 113 4.1.3 Các nghiên cứu liên quan 116 4.2 Phương pháp giải toán tổng quát ℬ𝒯3.1 117 4.2.1 Phân hoạch tập lời giải ℱ𝒮 𝐴 .118 4.2.2 Sinh đầy đủ không trùng lặp chuỗi ℱ𝒮 𝐴 (𝜎, 𝛾) ℱ𝒮 𝐴 123 4.2.3 Thuật toán MFS-AC 127 4.3 Phương pháp giải toán tổng quát ℬ𝒯3.2 129 4.3.1 Phân hoạch tập lời giải ℱ𝒮 𝑀 129 4.3.2 Sinh đầy đủ không trùng lặp chuỗi ℱ𝒮 𝑀 (𝜎, 𝛾) ℱ𝒮 𝑀 131 4.3.3 Thuật toán MFS-MC 133 4.3.4 Kỹ thuật khử ràng buộc loại CSupS 135 4.4 Đánh giá thực nghiệm 145 4.4.1 Thiết lập thực nghiệm 146 4.4.2 Thực nghiệm 1: ảnh hưởng tham số 𝑚𝑖𝑛𝑠𝑢𝑝𝑝 149 4.4.3 Thực nghiệm 2: ảnh hưởng số lượng ràng buộc 156 4.5 Kết luận 160 Chương - Kết luận 163 Hướng phát triển .168 Danh mục cơng trình tác giả 169 Tài liệu tham khảo 171 vi Danh mục ký hiệu chữ viết tắt Số thứ tự Ý nghĩa Ký hiệu / Chữ viết tắt ⊑ ≺ ∼ ⋄𝑖 ⋄𝑠 ⋄ 𝛼 = 𝐸1 →𝐸2 →…→𝐸𝑝 𝜌 𝛹 Quan hệ chuỗi cha / chuỗi Quan hệ thứ tự từ điển thuộc tính Quan hệ tương đương chuỗi Tốn tử mở rộng tập thuộc tính Tốn tử mở rộng chuỗi Toán tử mở rộng ⋄𝑖 ⋄𝑠 Chuỗi 𝛼, 𝐸𝑖 tập thuộc tính hay kiện thứ i 𝛼 Toán tử 𝜌: 𝜌(𝛼) – tập chuỗi đầu vào chứa 𝛼 sở liệu Chuỗi đầu vào sở liệu 10 𝛤0 Chuỗi ràng buộc dùng cho loại ràng buộc CSupS 11 𝛤1 Chuỗi ràng buộc dùng cho loại ràng buộc CSubS 12 1-SDB 13 n-SDB 14 Δ(𝑙𝑝) 15 ⊕ 16 𝒜 17 ℬ𝒯1 18 ℬ𝒯2 19 ℬ𝒯3 20 ℬ𝒯3.1 21 ℬ𝒯3.2 Cơ sở liệu chuỗi kiện chuỗi đầu vào chứa thuộc tính Cơ sở liệu chuỗi kiện chuỗi đầu vào chứa thuộc tính Chuỗi khác biệt 𝜎 𝐸𝑥(𝛾, 𝑙𝑝), 𝑙𝑝 ∈ 𝐿𝑃(𝜎, 𝛾) Tổng trực tiếp hai chuỗi tập thuộc tính xuất ví trị giống Tập tất thuộc tính Bài tốn khai thác chuỗi đóng và/hoặc chuỗi sinh phổ biến Bài tốn tìm cấu trúc tập ℱ𝒮 dựa tập ℱ𝒞𝒮 ℱ𝒢𝒮 Bài toán khai thác chuỗi phổ biến với ràng buộc Bài toán khai thác chuỗi phổ biến với loại ràng buộc thuộc lớp 𝐶 𝐴 Bài toán khai thác chuỗi phổ biến với loại ràng buộc thuộc lớp 𝐶 𝑀 22 C Một ràng buộc 23 24 𝐶𝐴 𝐶𝑀 Lớp ràng buộc có tính đơn điệu giảm Lớp ràng buộc có tính đơn điệu tăng 25 CA Loại ràng buộc thuộc lớp 𝐶 𝐴 vii 26 CM Loại ràng buộc thuộc lớp 𝐶 𝑀 27 CSubS Loại ràng buộc chuỗi 28 CSupS Loại ràng buộc chuỗi cha 29 CI Loại ràng buộc thuộc tính 30 31 𝐶𝑙𝑜𝑆𝑒𝑡(𝛼) 𝒞𝒮 32 𝐶𝑆(𝑟𝑜) 33 𝐶𝑆 𝐴 (𝑟𝑜) Tập tất chuỗi đóng chuỗi 𝛼 Tập tất chuỗi đóng Tập tất chuỗi đóng xuất tập chuỗi đầu vào 𝑟𝑜 Tập chuỗi đóng 𝜎 ∈ 𝐶𝑆(𝑟𝑜): 𝐺𝑒𝑛𝑆𝑒𝑡 𝐴 (𝜎) ≠ ∅ 34 𝐶𝑆 𝑀 (𝑟𝑜) Tập chuỗi đóng 𝜎 ∈ 𝐶𝑆(𝑟𝑜): 𝜎 thỏa mãn CM 35 𝐶𝑆 𝛤0 (𝑟𝑜) Tập chuỗi đóng 𝜎 ∈ 𝐶𝑆(𝑟𝑜): 𝜎 thỏa mãn CSupS 36 37 𝒟 𝒟𝛼 38 𝐷𝐶𝑜𝑛𝑑𝐶 39 𝐷𝐶𝑜𝑛𝑑𝐺 40 𝐷𝐶𝑜𝑛𝑑1−3 Một sở liệu chuỗi Cơ sở liệu chiếu chuỗi 𝛼 Điều kiện loại bỏ chuỗi trùng lặp sinh dựa hai chuỗi đóng khác Điều kiện loại bỏ chuỗi trùng lặp sinh dựa hai chuỗi sinh khác Các điều kiện loại bỏ chuỗi trùng lặp tập ℱ𝒮(𝜎, 𝛾) 41 E Tập thuộc tính ràng buộc dùng cho loại CI 42 43 44 45 46 47 48 49 𝐸𝐵(𝛼) EPGen EPClo EPGenClo 𝐸𝑥(𝛾, 𝑙𝑝) ℱ1 FCloSM FGenSM 50 FGenCloSM 51 ℱ𝒮(𝜎, 𝛾) Tập gồm hai 𝑖𝐸𝐵(𝛼) 𝑠𝐸𝐵(𝛼) Kỹ thuật tỉa sớm chuỗi không sinh Kỹ thuật tỉa sớm chuỗi khơng đóng Kỹ thuật tỉa sớm chuỗi khơng đóng sinh Chuỗi mở rộng 𝛾 𝜎 theo 𝑙𝑝 ∈ 𝐿𝑃(𝜎, 𝛾) Danh sách tất thuộc tính phổ biến Thuật tốn khai thác chuỗi đóng phổ biến Thuật tốn khai thác chuỗi sinh phổ biến Thuật toán khai thác đồng thời chuỗi đóng chuỗi sinh phổ biến Tập chuỗi phổ biến 𝛼: 𝛾 ⊑ 𝛼 ⊑ 𝜎 52 ℱ𝒮 𝐴 (𝜎, 𝛾) Tập chuỗi phổ biến 𝛼 ∈ ℱ𝒮(𝜎, 𝛾), 𝛼 thỏa CA 53 ℱ𝒮 𝑀 (𝜎, 𝛾) Tập chuỗi phổ biến 𝛼 ∈ ℱ𝒮(𝜎, 𝛾), 𝛼 thỏa CM 54 ℱ𝒮′(𝜎, 𝛾) Tập chuỗi phổ biến sinh cách tường minh từ chuỗi đóng 𝜎 chuỗi sinh 𝛾 55 ℱ𝒮 ′𝐴 (𝜎, 𝛾) Tập chuỗi 𝛼 ∈ ℱ𝒮′(𝜎, 𝛾), 𝛼 thỏa mãn CA 56 ℱ𝒮 ′𝑀 (𝜎, 𝛾) Tập chuỗi 𝛼 ∈ ℱ𝒮′(𝜎, 𝛾), 𝛼 thỏa mãn CM viii 57 ℱ𝒮 ′′ (𝜎, 𝛾) Tập chuỗi phổ biến 𝛼 khác nhau, 𝛼 ∈ ℱ𝒮′(𝜎, 𝛾) 58 ℱ𝒮 ′′𝐴 (𝜎, 𝛾) Tập chuỗi 𝛼 ∈ ℱ𝒮 ′′ (𝜎, 𝛾), 𝛼 thỏa mãn CA 59 ℱ𝒮 ′′𝑀 (𝜎, 𝛾) Tập chuỗi 𝛼 ∈ ℱ𝒮 ′′ (𝜎, 𝛾), 𝛼 thỏa mãn CM 60 61 62 63 ℱ𝒮 ℱ𝒢𝒮 ℱ𝒞𝒮 ℱ𝒮 𝒞 64 ℱ𝒮 𝐴 Tập tất chuỗi phổ biến Tập tất chuỗi sinh phổ biến Tập tất chuỗi đóng phổ biến Tập tất chuỗi phổ biến thỏa ràng buộc 𝒞 Tập tất chuỗi phổ biến thỏa mãn loại ràng buộc CA thuộc lớp 𝐶 𝐴 65 ℱ𝒮 𝑀 Tập tất chuỗi phổ biến thỏa mãn loại ràng buộc CM thuộc lớp 𝐶 𝑀 66 ℱ𝒮 𝛤0 Tập chuỗi phổ biến thỏa mãn ràng buộc chuỗi cha CSupS 67 ℱ𝒮 𝐸 Tập chuỗi phổ biến thỏa mãn ràng buộc thuộc tính CI 68 𝐹𝑆(𝑟𝑜) Lớp tương đương chuỗi phổ biến có 𝑟𝑜 (tập tập tất chuỗi đầu vào) 69 𝐹𝑆 𝐴 (𝑟𝑜) Lớp tương đương chuỗi thỏa ràng buộc CA 70 𝐹𝑆 𝑀 (𝑟𝑜) Lớp tương đương chuỗi thỏa ràng buộc CM 71 FS-Miner 72 𝐺𝑒𝑛𝑆𝑒𝑡(𝜎) Thuật toán sinh nhanh chuỗi phổ biến từ chuỗi đóng chuỗi sinh phổ biến Tập tất chuỗi sinh chuỗi 𝜎 73 𝐺𝑒𝑛𝑆𝑒𝑡 𝐴 (𝜎) Tập chuỗi sinh 𝛾 ∈ 𝐺𝑒𝑛𝑆𝑒𝑡(𝜎), 𝛾 thỏa mãn CA 74 75 76 𝒢𝒮 HDF i-ext 77 𝑖𝐸𝐵(𝛼) 78 79 80 81 82 83 84 I 𝑙𝑒𝑛𝑔𝑡ℎ(𝛼) 𝑙𝑎𝑠𝑡𝐼𝑡𝑒𝑚𝑂𝑓(𝛼) 𝑙𝑎𝑠𝑡𝐸𝑣𝑒𝑛𝑂𝑓(𝛼) 𝐿𝑃(𝜎, 𝛾) LPClo LPGen 85 LPGenClo Tập tất chuỗi sinh Định dạng sở liệu theo chiều ngang Mở rộng tập thuộc tính Tập tất nhánh mở rộng tập thuộc tính chuỗi 𝛼 Một số đo đề xuất [89] Chiều dài hay số thuộc tính chuỗi 𝛼 Thuộc tính cuối chuỗi 𝛼 Sự kiện cuối chuỗi 𝛼 Tập danh sách vị trí mà 𝛾 xuất 𝜎 Chiến lược tỉa địa phương chuỗi khơng đóng Chiến lược tỉa địa phương chuỗi không sinh Chiến lược tỉa địa phương chuỗi khơng đóng khơng sinh ix thuật tốn có dùng để giải ℬ𝒯1 chưa cao cịn tồn nhiều hạn chế Vì vậy, luận án tập trung nghiên cứu toán ℬ𝒯1 có số đóng góp sau:  Luận án khơng xác trường hợp tổng quát số kết lý thuyết đưa [89] năm 2003 trích dẫn sử dụng nhiều thuật tốn sau để khai thác chuỗi đóng sinh phổ biến Sự khơng xác xảy SDB mà kiện chuỗi đầu vào chứa nhiều thuộc tính, thuật tốn có sử dụng kết lý thuyết khơng xác khai thác tập kết khơng đầy đủ chuỗi đóng chuỗi sinh phổ biến  Một số đo 𝑆𝐸 với kết lý thuyết xác tổng quát kết lý thuyết [89] đề xuất luận án, chúng sở lý thuyết tin cậy để phát triển chiến lược tỉa địa phương nhằm loại bỏ sớm chuỗi ứng viên không đóng và/hoặc sinh tìm kiếm tiền tố  Luận án đề xuất bốn thuật toán gọi FGenSM (khai thác ℱ𝒢𝒮), FCloSM (khai thác ℱ𝒢𝒮), FGenCloSM (khai thác hai ℱ𝒞𝒮 ℱ𝒢𝒮) Par-GenCloSM (khai thác song song hai ℱ𝒞𝒮 ℱ𝒢𝒮) Sự xác hiệu thuật tốn đóng góp nhiều vào việc giải hiệu toán khai thác chuỗi phổ biến với ràng buộc Chương (ℬ𝒯3 ) Những đóng góp luận án cho tốn ℬ𝒯1 công bố [7,33,32] Như đề cập ℬ𝒯1 trên, hai tập ℱ𝒞𝒮 ℱ𝒢𝒮 biểu diễn súc tích khơng thơng tin ℱ𝒮, mặt lý thuyết chúng kết hợp với để sinh đầy đủ chuỗi tập ℱ𝒮 Tuy nhiên, chưa có nghiên cứu đề xuất phương pháp tường minh để sinh nhanh ℱ𝒮 từ ℱ𝒞𝒮 ℱ𝒢𝒮 Vì vậy, tốn thứ hai (ℬ𝒯2 Chương 3), công việc luận án phát triển phương pháp để sinh nhanh tập ℱ𝒮 từ ℱ𝒞𝒮 ℱ𝒢𝒮, thay khai thác ℱ𝒮 trực tiếp từ SDB phương pháp truyền thống Phương pháp 164 sở lý thuyết quan trọng để luận án phát triển mơ hình giải hiệu toán khai thác tập ℱ𝒮 𝒞 Chương Để giải toán ℬ𝒯2 , luận án nghiên cứu đưa cấu trúc chuỗi phổ biến tập ℱ𝒮 dựa phương pháp phân hoạch Cụm từ cấu trúc tên luận án có nghĩa mối quan hệ tường minh chuỗi ℱ𝒮 chuỗi (đại diện chúng) ℱ𝒞𝒮 ℱ𝒢𝒮 Dựa mối quan hệ này, ta biểu diễn chuỗi 𝛼 ℱ𝒮 thông qua chuỗi đóng 𝜎 ℱ𝒞𝒮 chuỗi sinh 𝛾 ℱ𝒢𝒮 Nói cách khác, 𝛼 sinh từ cặp (𝜎, 𝛾) Khó khăn lớn giải toán ℬ𝒯2 chuỗi phổ biến 𝛼 sinh từ nhiều cặp (𝜎, 𝛾) khác 𝛼 xuất (chứa trong) 𝜎 nhiều vị trí khác Điều dẫn đến số lượng lớn chuỗi trùng lặp sinh tập ℱ𝒮, làm giảm hiệu thời gian nhớ trình khai thác Để khắc phục, luận án đưa điều kiện trùng lặp nhằm phát loại bỏ sớm tất chuỗi trùng lặp mà không cần sinh chúng Kết hợp tất kết lý thuyết đưa ra, luận án đề xuất thuật toán tên FS-Miner để sinh nhanh, đầy đủ không trùng lặp tập ℱ𝒮 từ ℱ𝒞𝒮 ℱ𝒢𝒮 Những đóng góp luận án cho toán ℬ𝒯2 chấp nhận xuất kỷ yếu hội nghị quốc tế uy tín [34] Trong tốn thứ ba (ℬ𝒯3 Chương 4), luận án tập trung vào cách tiếp cận khai thác tập ℱ𝒮 𝒞 từ ℱ𝒞𝒮 ℱ𝒢𝒮, thay khai thác ℱ𝒮 𝒞 trực tiếp từ SDB tiếp cận truyền thống, C thuộc vào lớp ràng buộc 𝐶 𝐴 (các ràng buộc có tính đơn điệu giảm) 𝐶 𝑀 (các ràng buộc có tính đơn điệu tăng) Đây hai lớp ràng buộc thường gặp thực tế Tương ứng với hai lớp ràng buộc 𝐶 𝐴 𝐶 𝑀 hai toán tổng quát ℬ𝒯3.1 ℬ𝒯3.2 cần giải chương Tiếp cận chung sử dụng luận án để giải hai toán ℬ𝒯3.1 ℬ𝒯3.2 dựa phương pháp phân hoạch Với quan hệ tương đương dựa toán tử 𝜌, tập lời giải ℱ𝒮 𝒞 phân hoạch thành lớp tương đương, lớp bao gồm chuỗi xuất tập chuỗi đầu vào SDB 165 (cùng 𝜌) đại diện số chuỗi đóng 𝜎 ℱ𝒞𝒮 chuỗi sinh 𝛾 ℱ𝒢𝒮 Nói cách khác, lớp tương đương sinh từ tập đại diện cặp (𝜎, 𝛾) khác Do tính chất đơn điệu giảm đơn điệu tăng lớp ràng buộc 𝐶 𝐴 𝐶 𝑀 , tính tối tiểu tối đại phần tử đại diện 𝛾 𝜎, ta rút gọn nhanh khơng gian tìm kiếm việc loại bỏ sớm nhiều tập lớp tương đương thông qua việc kiểm tra ràng buộc chuỗi đại diện (𝜎, 𝛾) lớp mà không cần sinh chuỗi lớp Sử dụng tính chất mối quan hệ tường minh đề xuất Chương 3, luận án phát triển phương pháp để giải hiệu hai tốn tổng qt ℬ𝒯3.1 ℬ𝒯3.2 Ngồi ra, luận án đề xuất kỹ thuật khử ràng buộc nhằm loại bỏ việc kiểm tra ràng buộc phức tạp thuộc lớp 𝐶 𝑀 suốt q trình khai thác, qua rút ngắn đáng kể thời gian khai thác Lưu ý là, phương pháp trước thường có hiệu thấp với lớp ràng buộc 𝐶 𝑀 cách tiếp cận truyền thống khó áp dụng hiệu để rút gọn nhanh khơng gian tìm kiếm dựa 𝐶 𝑀 Những điểm khác biệt ưu điểm trội phương pháp đề xuất Chương so với phương pháp truyền thống là:  Tập ℱ𝒮 𝒞 khai thác nhanh từ hai tập chuỗi đóng chuỗi sinh phổ biến (thường có kích thước bé), phương pháp trước khai thác ℱ𝒮 𝒞 trực tiếp từ sở liệu (thường có kích thước lớn)  Hai thuật tốn MFS-AC MFS-MC cho phép khai thác hiệu chuỗi phổ biến với nhiều loại ràng buộc khác thuộc hai lớp ràng buộc thông dụng 𝐶 𝐴 𝐶 𝑀 , đa số thuật toán trước thường thiết kế cho loại ràng buộc cụ thể chúng thường gặp nhiều khó khăn việc rút gọn khơng gian tìm kiếm đối mặt với lớp ràng buộc 𝐶 𝑀  Việc kiểm tra ràng buộc thực số lượng bé phần tử đặc biệt (các chuỗi đóng chuỗi sinh phổ biến đại diện cho lớp tương đương) loại bỏ số lượng lớn chuỗi không thỏa ràng buộc mà không cần sinh chúng 166  Các phương pháp đề xuất cho phép thiết kế dễ dàng thuật toán song song để khai thác hiệu chuỗi phổ biến có khơng có ràng buộc sở liệu lớn  Tính hiệu phương pháp đưa chịu ảnh hưởng ràng buộc thường xuyên bị thay đổi nhiều người dùng 167 Hướng phát triển Những công việc dự định tương lai gồm:  Sử dụng phương pháp đưa luận án để giải toán khai thác chuỗi phổ biến với nhiều loại ràng buộc mở rộng khác có ý nghĩa thực tế  Phát triển phiên song song phân tán thuật toán đưa luận án nhằm thực công việc khai thác phức tạp khai thác liệu lớn  Áp dụng mơ hình đưa luận án để giải tốn tổng qt khai thác chuỗi có lợi ích cao sở liệu chuỗi lượng hóa 168 Danh mục cơng trình tác giả A Danh mục cơng trình liên quan trực tiếp đến luận án [1] Bac Le, Hai Duong, Tin Truong, Philippe Fournier-Viger, "FCloSM, FGenSM: Two Efficient Algorithms for Mining Frequent Closed and Generator Sequences using the Local Pruning Strategy”, Knowledge and Information Systems (KAIS), vol 53, no 1, pp 71-107, 2017 (SCIE, IF: 2.397) [2] Hai Duong, Tin Truong, Bac Le, "Efficient algorithms for simultaneously mining concise representations of sequential patterns based on extended pruning conditions”, Engineering Applications of Artificial Intelligence (EAAI), vol 67, pp 197-210, 2018 (SCIE, IF: 3.526) [3] Hai Duong, Tin Truong, Anh Tran, Bac Le, “Fast Generation of Sequential Patterns with Item Constraints from Concise Representations”, Knowledge and Information Systems (KAIS), pp 1-33, 2019 (SCIE, IF: 2.397) [4] Hai Duong, Tin Truong, Bac Le, "An Efficient Parallel Algorithm for Mining Both Frequent Closed and Generator Sequences on Multi-core Processors", in Proceeding of the 5th NAFOSTED Conference on Information and Computer Science (NICS), pp 154-159, 2018 [5] Hai Duong, Tin Truong, Bac Le, Philippe Fournier-Viger “An Explicit Relationship between Sequential Patterns and Their Concise Representations”, in Proceedings of The Seventh International Conference on Big Data Analytics (BDA 2019), Springer LNCS, To Appear Những kết lý thuyết [3, 5] mở rộng từ ba cơng trình [10]-[12] bên tác giả luận án đồng tác giả, tốn (đơn giản hơn) khai thác tập (itemset) phổ biến với loại ràng buộc khác dựa vào phương pháp phân hoạch nghiên cứu 169 B Danh mục công trình liên quan khác [6] Tin Truong, Hai Duong, Bac Le, and Philippe Fournier-Viger, “FMaxCloHUSM: An efficient algorithm for mining frequent closed and maximal high utility sequences”, Engineering Applications of Artificial Intelligence (EAAI), vol 85, pp 1-20 (2019) (SCIE, IF: 3.526) [7] Tin Truong, Hai Duong, Bac Le, Philippe Fournier-Viger and Unil Yun, “Efficient High Average-Utility Itemset Mining Using Novel Vertical Weak Upper-Bounds”, Knowledge-Based Systems (KBS), Vol 183 (2019) (SCI, IF: 4.3) [8] Tin Truong, Hai Duong, Bac Le and Philippe Fournier-Viger, “Efficient Vertical Mining of High Average-Utility Itemsets based on Novel UpperBounds”, IEEE Transactions On Knowledge And Data Engineering (TKDE), vol 32 (2), pp 301-314 (2019) (SCI, IF: 2.775) [9] Truong Chi Tin, Tran Ngoc Anh, Duong Van Hai, Le Hoai Bac, “HUPSMT: An efficient algorithm for mining high utility-probability sequences in uncertain databases with multiple minimum utility thresholds”, Journal of Computer Science and Cybernetics, vol 35 (1), pp 1-20 (2019) [10] Hai Duong, Tin Truong and Bay Vo, "An Efficient Method for Mining Frequent Itemsets with Double Constraints”, Engineering Applications of Artificial Intelligence, (EAAI), vol 27, pp 148-154 (2014) (SCIE, IF: 3.526) [11] Tin Truong, Hai Duong, Ngan Hoang, “Structure of frequent itemsets with extended double constraints”, Vietnam Journal of Computer Science, vol (2), pp 119-135 (2016) [12] Hai Duong, Tin Truong, Bac Le, “An Efficient Algorithm for Mining Frequent Itemsets with Single Constraint”, In Proc ICCSAMA 2013, pp 367-378 Springer-Verlag Berlin Heidelberg (2013) Trong tương lai, kết lý thuyết trình bày luận án ba cơng trình [7] - [9] mở rộng sang toán phức tạp tổng quát khai thác chuỗi có lợi ích trung bình cao sở liệu chuỗi lượng hóa 170 Tài liệu tham khảo Tiếng Việt Trần Ngọc Anh (2015), “Biểu diễn toán học thuật toán nhanh cho toán khai thác tập phổ biến luật kết hợp”, Luận án tiến sĩ công nghệ thông tin, Trường Đại học Khoa học tự nhiên, ĐHQG-HCM Võ Đình Bảy (2011), “Nâng cao hiệu thuật toán khai thác luật kết hợp dựa dàn”, Luận án tiến sĩ công nghệ thông tin, Trường Đại học Khoa học tự nhiên, ĐHQG-HCM Trần Minh Thái (2016), “Khai thác mẫu phổ biến luật từ sở liệu chuỗi”, Luận án tiến sĩ công nghệ thông tin, Trường Đại học Khoa học tự nhiên, ĐHQG-HCM Tiếng Anh Aggarwal CC (2015) Data mining: the textbook Heidelberg:Springer Agrawal R., Srikant R (1995) Mining sequential patterns Proceedings of the eleventh international conference on data engineering, ICDE ’95 3–14 Agrawal R, Srikant R (1994) Fast algorithms for mining association rules In: The International Conference on Very Large Databases pp 487-499 Anh T, Tin T, Bac L (2014 (b)) Structures of frequent itemsets and classifying structures of association rule set by order relations International Journal of Intelligent Information and Database Systems 8(4):295-323 Antunes C, Oliveira AL (2004) Sequential pattern mining with approximated constraints In: In Int Conf Applied Computing pp 131-138 Ayres J, Flannick J, Gehrke J, Yiu T (2002) Sequential pattern mining using a bitmap representation In: Proceedings of the eighth ACM SIGKDD international conference on knowledge discovery and data mining, KDD ’02 ACM, New York, pp 429–435 Bac L, Hai D, Tin T, Fournier-Viger P (2017) FCloSM, FGenSM: Two Efficient Algorithms for Mining Frequent Closed and Generator Sequences using the Local Pruning Strategy International Journal of Knowledge and Information Systems (KAIS) 53(1):71-107 Baralis E, Bruno G, Chiusano S, Domenici VC, Mahoto NA, Petrigni C (2010) Analysis of medical pathways by means of frequent closed sequences In: International Conference on Knowledge-Based and Intelligent Information and Engineering Systems Springer Berlin Heidelberg, pp 418-425 Casali A, Ernst C (2013) Extracting correlated patterns on multicore architectures In: CD-ARES pp 118–133 10 Chen YL, Chiang MC, Ko MT (2003) Discovering time-interval sequential patterns in sequence databases Expert Systems with Applications 25(3):343-354 171 11 Chen Z, El-Nasr MS, Canossa A, Badler J, Tignor S, Colvin R (2015) Modeling Individual Differences through Frequent Pattern Mining on Role-Playing Game Actions In: Eleventh Artificial Intelligence and Interactive Digital Entertainment Conference, AIIDE 2015 12 Chen CC, Tseng CY, Chen MS (2013) Highly Scalable Sequential Pattern Mining Based on MapReduce Model on the Cloud In: IEEE International Congress on Big Data pp 310–317 13 Cong S, Han J, Padua D (2005) Parallel mining of closed sequential patterns In: ACM SIGKDD pp 562–567 14 Do TDT, Termier A, Laurent A, Negrevergne B, Omidvar-Tehrani B, Amer-Yahia S (2015) PGLCM: Efficient parallel mining of closed frequent gradual itemsets International journal of Knowledge and Information Systems (KAIS) 43(3):497–527 15 Fournier-Viger P, Gomariz A, Campos M, Thomas R (2014) Fast Vertical Mining of Sequential Patterns Using Co-occurrence Information In: Proceedings of 18th PacificAsia Conference on Knowledge Discovery and Data Mining, pp 40–52 16 Fournier-Viger P, Gomariz A, Gueniche T, Soltani A, Wu C, Tseng VS (2014c) SPMF: a Java Open-Source Pattern Mining Library Journal of Machine Learning Research 15(1):3389-3393 17 Fournier-Viger P, Gomariz A, Šebek M, Hlosta M (2014) VGEN: Fast Vertical Mining of Sequential Generator Patterns In: Proceedings of 16th International Conference on Data Warehousing and Knowledge Discovery, DWKD'14 Springer International Publishing, Munich, Germany, pp 476-488 18 Fournier-Viger P, Gueniche T, Tseng VS (2012) Using partially-ordered sequential rules to generate more accurate sequence prediction In: The International Conference on Advanced Data Mining and Applications pp 431-442 19 Fournier-Viger P, Lin J, Kiran R, Koh Y (2017) A Survey of Sequential Pattern Mining Data Science and Pattern Recognition 1(1):54-77 20 Fournier-Viger P, Nkambou R, Mephu Nguifo E, Mayers A, Faghihi U (2013) A Multi-Paradigm Intelligent Tutoring System for Robotic Arm Training IEEE Transactions on Learning Technologies (TLT) 6(4):364-377 21 Fournier-Viger P, Wu CW, Gomariz A, Tseng VS (2014) VMSP: Efficient vertical mining of maximal sequential patterns The Canadian Conference on Artificial Intelligence 83-94 22 Fournier-Viger P, Wu CW, Tseng VS (2013) Mining Maximal Sequential Patterns without Candidate Maintenance In: Proceedings of 9th International Conference on Advanced Data Mining and Applications, ADMA'13 Springer, pp 169–180 23 Fumarola F, Lanotte PF, Ceci M, Malerba D (2015) CloFAST: closed sequential pattern mining using sparse and vertical id-lists Knowledge and Information Systems 48(2):1-35 172 24 Gao C, Wang J, He Y, Zhou L (2008) Efficient mining of frequent sequence generators In: Proceedings of the 17th international conference on World Wide Web, WWW '08 ACM, New York, NY, pp 1051–1052 25 Garofalakis MN, Rastogi R, Shim K (1999) SPIRIT: Sequential pattern mining with regular expression constraints In: The International Conference on Very Large Databases pp 223-234 26 Gomariz A, Campos M, Marin R, Goethals B (2013) ClaSP: An Efficient Algorithm for Mining Frequent Closed Sequences In: Proceedings of 17th Pacific-Asia Conference, PAKDD '13 Springer, Gold Coast, Australia, pp 50–61 27 Gomez M, Rouvoy R, Adams B, Seinturier L (2016) Reproducing Context-sensitive Crashes of Mobile Apps using Crowdsourced Monitoring In: Proceedings of the 3rd IEEE/ACM International Conference on Mobile Software Engineering and Systems (MOBILESoft'16) ACM, New York, NY, pp 88-99 28 Grunwald P, Myung IJ, Pitt M (2005) Advances in Minimum Description Length: Theory and Applications The MIT Press 29 Hai D, Tin T (2015) An Efficient Method for Mining Association Rules Based on Minimum Single Constraints Vietnam Journal of Computer Science 2:67-83 30 Hai D, Tin T, Anh T, Bac L (2019) Fast Generation of Sequential Patterns with Item Constraints from Concise Representations Knowledge and Information Systems (KAIS) To Appear 31 Hai D, Tin T, Bac L (2013) An Efficient Algorithm for Mining Frequent Itemsets with Single Constraint In: Proc Advanced Computational Methods for Knowledge Engineering, SCI pp 367-378 32 Hai D, Tin T, Bac L (2018) An Efficient Parallel Algorithm for Mining Both Frequent Closed and Generator Sequences on Multi-core Processors In: The 5th NAFOSTED Conference on Information and Computer Science (NICS) pp 154-159 33 Hai D, Tin T, Bac L (2018) Efficient algorithms for simultaneously mining concise representations of sequential patterns based on extended pruning conditions International journal Engineering Applications of Artificial Intelligence 67:197-210 34 Hai D, Tin T, Bac L, Fournier-Viger P (2019) An Explicit Relationship between Sequential Patterns and Their Concise Representations In: The Seventh International Conference on Big Data Analytics (BDA 2019) Springer LNCS, 35 Hai D, Tin T, Bay V (2014) An efficient method for mining frequent itemsets with double constraints International Journal of Engineering Applications of Artificial Intelligence (EAAI) 27:148-154 36 Han J, Pei J, Mortazavi-asl B, Chen Q, Dayal U, Hsu MC (2000) Freespan: Frequent pattern projected sequential pattern mining In: In Proceedings of the 6th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining pp 355–359 173 37 Han J, Pei J, Mortazavi-Asl B, Zhu H (2000) Mining access patterns efficiently from web logs In: Proceedings of the Pacific- Asia Conference on Knowledge Discovery and Data Mining (PAKDD’00) pp 396-407 38 Han J, Pei J, Ying Y, Mao R (2004) Mining frequent patterns without candidate generation: a frequent-pattern tree approach Data Mining and Knowledge Discovery 8(1):53-87 39 Ho J, Lukov L, Chawla S (2005) Sequential pattern mining with constraints on large protein databases In: Proceedings of the 12th International Conference on Management of Data (COMAD 2005b) pp 89-100 40 Huynh B, Vo B, Snasel V (2017) An efficient method for mining frequent sequential patterns using multi-Core Appl Intell 46(3):703–716 41 Huynh B, Vo B, Snasel V (2017) An Efficient Parallel Method for Mining Frequent Closed Sequential Patterns IEEE Access 5:17392-17402 42 Jorritsma W, Cnossen F, Dierckx RA, Oudkerk M, Van Ooijen PM (2016) Pattern mining of user interaction logs for a post-deployment usability evaluation of a radiology PACS client International journal of medical informatics 85(1):36-42 43 Laurent A, Nogrevergne B, Sicard N, Termier A (2012) Efficient parallel mining of gradual patterns on multicore processors In: Advances in Knowledge Discovery and Management, SCI pp 137–151 44 Leleu M, Rigotti C, Boulicaut JF, Euvrard G (2003) Constraint-based mining of sequential patterns over datasets with consecutive repetitions In: proc Knowledge Discovery in Databases: PKDD 2003 Springer Berlin Heidelberg, pp 303-314 45 Li J, Li H, Wong L, Pei J, Dong G (2006) Minimum description length principle: Generators are preferable to closed patterns In: Proceedings of the 21st national conference on Artificial intelligence, AAAI '06 ACM, pp 409-414 46 Liu L, Li E, Zhang Y, Tang Z (2007) Optimization of frequent itemset mining on multiple-core processor In: VLDB pp 1275–1285 47 Lo D, Khoo SC, Li J (2008) Mining and Ranking Generators of Sequential Patterns In: Proceedings of the 2008 SIAM International Conference on Data Mining, SIAM '08 SIAM, pp 553–564 48 Lo D, Khoo SC, Wong L (2011) Non-redundant sequential rules: Theory and algorithm Information Systems 34(4):438–453 49 Mabroukeh NR, Ezeife CI (2010) A taxonomy of sequential pattern mining algorithms Journal of ACM Computing Surveys (CSUR) 43(1):1-41 50 Masseglia F, Cathala F, Poncelet P (1998) The PSP approach for mining sequential patterns In: Proceedings of the 2nd European Symposium on Principles of Data Mining and Knowledge Discovery (PKDD’98) Lecture Notes in Artificial Intelligence Springer, pp 176–184 51 Masseglia F, Poncelet P, Teisseire M (2009) Efficient mining of sequential patterns with time constraints Reducing the combinations Expert Systems with Applications 36(2):2677-2690 174 52 Minh-Thai T, Bac L, Bay V (2015) Combination of dynamic bit vectors and transaction information for mining frequent closed sequences efficiently International Journal of Engineering Applications of Artificial Intelligence (EAAI) 38:183–189 53 Minh-Thai T, Bac L, Bay V, Hong T (2016) Mining non-redundant sequential rules with dynamic bit vectors and pruning techniques The International Journal of Artificial Intelligence 45(2):333–342 54 Negrevergne B, Termier A, Mehaut JF, Uno T (2010) Discovering closed frequent itemsets on multicore: Parallelizing computations and optimizing memory accesses In: The 2010 International Conference on High Performance Computing & Simulation (HPCS 2010) pp 521–528 55 Negrevergne B, Termier A, Rousset MC, Mohaut JF (2014) Para miner: A generic pattern mining algorithm for multi-core architectures Data Mining Knowl Discovery 28(3):1–41 56 Ng R, Lakshmanan LVS, Han J, Pang A (1998) Exploratory mining and pruning optimizations of constrained associations rules In: Proc 1998 ACM-SIGMOD Int Conf Management of Data (SIGMOD’98) ACM, New York, pp 13–24 57 Orlando S, Perego R, Silvestri C (2004) A new algorithm for gap constrained sequence mining In: Proceedings of the 2004 ACM symposium on Applied computing ACM, pp 540-547 58 Pasquier N, Bastide Y, Taouil R, Lakhal L (1999) Discovering frequent closed itemsets for association rules In: Proceedings of the 7th international conference on database theory, ICDT ’12 ACM London, UK, pp 398–416 59 Pei J, Han J (2000) Can we push more constraints into frequent pattern mining? In: Proc 2000 ACM SIGKDD Int Conf Knowledge Discovery in Databases (KDD’00) pp 350–354 60 Pei J, Han J, Lakshmanan LVS (2001) Mining frequent itemsets with convertible constraints In: Proc 2001 Int Conf Data Engineering (ICDE’01) pp 433–442 61 Pei J, Han J, Mortazavi-Asl B, Wang J, Pinto H, Chen Q, Dayal U, Hsu M (2004) Mining sequential patterns by pattern-growth: the PrefixSpan approach Journal IEEE Transactions on Knowledge and Data Engineering 16(11):1424–1440 62 Pei J, Han J, Wang W (2002) Constraint-based sequential pattern mining in large databases In: Proc 2002 Int Conf on Information and Knowledge Management (CIKM’02) pp 18–25 63 Pei J, Han J, Wang W (2007) Constraint-based sequential pattern mining: the patterngrowth methods Journal of Intelligent Information Systems 28(2):133-160 64 Pham TT, Luo J, Hong TP, Vo B (2014) An efficient method for mining non-redundant sequential rules using attributed prefix-trees Engineering Applications of Artificial Intelligence (EAAI) 32:88–99 65 Pham TT, Luo J, Hong TP, Vo B (2012) MSGPs: a novel algorithm for mining sequential generator patterns In: Proceedings of 4th International Conference on 175 Computational Collective Intelligence, ICCCI 2012 Springer, Ho Chi Minh City, Vietnam, pp 393-401 66 Pokou JM, Fournier-Viger P, Moghrabi C (2016) Authorship attribution using small sets of frequent part-of-speech skip-grams In: The International Florida Artificial Intelligence Research Society Conference pp 86-91 67 Pramono YWT (2014) Anomaly-based Intrusion Detection and Prevention System on Website Usage using Rule-Growth Sequential Pattern Analysis In: The International Conference on Advanced Informatics, Concept Theory and Applications pp 203-208 68 Qiao S, Li T, Peng J, Qiu J (2010) Parallel Sequential Pattern Mining of Massive Trajectory Data In: Int Comput Intell Sys pp 343-356 69 Qiao S, Tang C, Dai S, Zhu M, Peng J, Li H, Ku Y (2008) PartSpan: parallel sequence mining of trajectory patterns In: Intl Conf on Fuzzy Systems and Knowledge Discovery pp 363–367 70 Rahman A, Xu Y, Radke K, Foo E (2016) Finding anomalies in SCADA logs using rare sequential pattern mining In: International conference on network and system security Springer, pp 499–506 71 Saraswati A, Chang CF, Ghose A, Dam HK (2015) Learning Relationships Between the Business Layer and the Application Layer in ArchiMate Models In: Proc International Conference on Conceptual Modeling Springer, pp 499-513 72 Savary L, Zeitouni K (2005) Indexed bit map (ibm) for mining frequent sequences In: Proceedings of the 9th European Conference on Principles and Practice of Knowledge Discovery in Databases (PKDD’05), Lecture Notes in Computer Science Springer, pp 659–666 73 Schlegel B, Karnagel T, Kiefer T, Lehner W (2013) Scalable frequent itemset mining on many-core processors In: 9th Int Workshop Data Manage New Hardw 74 Seno M, Karypis G (2005) Finding frequent patterns using length-decreasing support constraints IEEE Trans Knowl Data Engin 10(3):197–228 75 Seno M, Karypis G (2002) SLPMiner: An algorithm for finding frequent sequential patterns using length-decreasing support constraint In: Proceeding of IEEE Int'l Conf Data Mining (ICDM '02) pp 418-425 76 Shintani T, Kitsuregawa M (1998) Mining algorithms for sequential patterns in parallel: Hash based approach In: Pacific-Asia Conf on Research and Development in Knowledge Discovery and Data Mining pp 283–294 77 Solihin Y Fundamentals of Parallel Computer Architecture 2016 78 Song S, Hu H, Jin S (2005) HVSM: A new sequential pattern mining algorithm using bitmap representation In: Advanced Data Mining and Applications Lecture Notes in Computer Science Springer, Berlin, pp 455–463 79 Srikant R, Agrawal R (1996) Mining Sequential Patterns: Generalizations and Performance Improvements In: Proceedings of the 5th International Conference on Extending Database Technology: Advances in Database Technology, EDBT '96 ACM, pp 3–17 176 80 Thi-Thiet P, Luo J, Bay V (2013) An effective algorithm for mining closed sequential patterns and their minimal generators based on prefix trees Int J Intelligent Information and Database Systems 7(4):324-339 81 Tin T, Hai D, Ngan N (2016) Structure of frequent itemsets with extended double constraints Vietnam Journal of Computer Science 3(2):119–135 82 Vajda A (2011) Multi-core and Many-core Processor Architectures In: Programming Many-Core Chips Springer US, pp 9-43 83 Valerie G, George K (2004) Parallel Formulations of Tree-Projection-Based Sequence Mining Algorithm Parallel Computing Journal 30:443-465 84 Van T, Vo B, Le B (2018) Mining sequential patterns with itemset constraints Knowl Inf Syst 57: 311 85 Van T, Yoshitaka A, Le B (2018) Mining web access patterns with super-pattern constraint Appl Intell 48: 3902 86 Wang J, Han J, Chun Li (2007) Frequent closed sequence mining without candidate maintenance IEEE Trans Knowledge and Data Eng 19(8):1042-1056 87 Yang Z, Kitsuregawa M (2005) LAPIN-SPAM: An improved algorithm for mining sequential pattern In: Proceedings of the 21st International Conference on Data Engineering Workshops (ICDEW’05) pp 1222 88 Yang Z, Wang Y, Kitsuregawa M (2007) LAPIN: Effective Sequential Pattern Mining Algorithms by Last Position Induction for Dense Databases In: Kotagiri R., Krishna P.R., Mohania M., Nantajeewarawat E (eds) Advances in Databases: Concepts, Systems and Applications Lecture Notes in Computer Science pp 1020-1023 89 Yan X, Han J, Afshar R (2003) CloSpan: Mining closed sequential patterns in large datasets In: Proceedings of the 2003 SIAM International Conference on Data Mining pp 166–177 90 Yi S, Zhao T, Zhang Y, Ma S, Che Z (2011) An effective algorithm for mining sequential generators Procedia Engineering 15:3653-3657 91 Yun U, Ryu KH (2010) Discovering important sequential patterns with lengthdecreasing weighted support constraints International Journal of Information Technology & Decision Making 9(4):575-599 92 Zaki MJ (2001) Parallel sequence mining on shared-memory machines Journal of Parallel Distrib Comput 61(3):401–426 93 Zaki MJ (2000) Scalable algorithms for association mining IEEE Transactions on Knowledge and Data Engineering 12(3):372-390 94 Zaki MJ (2000) Sequence mining in categorical domains: incorporating constraints In: Proceedings of the ninth international conference on Information and knowledge management ACM, pp 422-429 95 Zaki, M.J (2001) SPADE: An efficient algorithm for mining frequent sequences Machine Learning 42(1):31–60 177 96 Zang H, Xu Y, Li Y (2010) Non-Redundant Sequential Association Rule Mining and Application in Recommender Systems In: 2010 IEEE/WIC/ACM International Conference on Web Intelligence and Intelligent Agent Technology pp 292-295 97 Zhang W (2016) Learning From Access Logs to Mitigate Insider Threats (Doctoral dissertation, Vanderbilt University) 98 Zhao Y, Li Y, Yin Y, Sheng G (2015) Finding top-k covering irreducible contrast sequence rules for disease diagnosis In: Comput Math Methods Med 2015:353146 doi:10.1155/2015/353146 99 Zhao Y, Wang G, Li Y, Wang Z (2011) Finding novel diagnostic gene patterns based on interesting non-redundant contrast sequence rules In: IEEE 11th international conference on data mining IEEE pp 972–981 100 Zhu F, Yan X, Han J, Yu PS (2007) Mining frequent approximate sequential patterns In: Proc of 7th IEEE international conference on data mining pp 751-756 178 ... Các hướng tiếp cận khai thác chuỗi phổ biến 1.2 Khai thác chuỗi đóng chuỗi sinh phổ biến 1.3 Khai thác chuỗi phổ biến với ràng buộc 1.3.1 Bài toán khai thác chuỗi phổ biến với. .. sinh phổ biến Bài tốn tìm cấu trúc tập ℱ

Ngày đăng: 19/07/2020, 23:36

Mục lục

  • Bia__Luan An-Duong Van Hai_2020.pdf

  • Luan An-Duong Van Hai--2020.pdf

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan