Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 28 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
28
Dung lượng
0,95 MB
Nội dung
ĐẠI HỌC QUỐC GIA TP HCM TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VĂN THỊ THIÊN TRANG KHAI THÁC MẪU TUẦN TỰ PHỔ BIẾN DỰA TRÊN RÀNG BUỘC Chuyên ngành: Khoa học máy tính Mã số ngành: 62 48 01 01 TÓM TẮT LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH TP HỒ CHÍ MINH – Năm 2020 Cơng trình hồn thành tại: Trường Đại học Cơng nghệ Thơng tin - Đại học Quốc gia Tp HCM Người hướng dẫn khoa học: GS TS Lê Hoài Bắc Phản biện 1: Phản biện 2: Phản biện 3: Phản biện độc lập 1: PGS TS Lê Anh Cường Phản biện độc lập 2: PGS TS Trần Đăng Hưng Luận án bảo vệ trước Hội đồng chấm luận án cấp Trường tại: Phịng E1.1, trường Đại học Cơng nghệ Thơng tin ĐHQG Tp.HCM, vào lúc 08 30 ngày 26 tháng 02 năm 2021 Có thể tìm hiểu luận án thư viện: - Thư viện Quốc gia Tp.HCM - Thư viện trường Đại học Công nghệ Thông tin - ĐHQG Tp HCM MỞ ĐẦU Lời nói đầu Trong luận án này, chúng tơi nghiên cứu tốn khai thác mẫu phổ biến từ sở liệu chuỗi, phục vụ cho nhiều lĩnh vực ứng dụng Ví dụ khai thác thói quen mua sắm khách hàng lĩnh vực thương mại, tiếp thị thị trường, khai thác sử dụng web, khai thác chuỗi gen sinh học, khai thác mẫu triệu chứng bệnh y dược Tuy nhiên, thách thức đặt tập mẫu khai thác thường lớn, phần nhỏ số chúng thật có ý nghĩa, đáp ứng mối quan tâm người dùng; nữa, tập liệu dùng để khai thác lớn nên trình khai thác thường tốn nhiều thời gian chiếm dụng nhớ Do đó, chúng tơi đưa vào ràng buộc đại diện cho mối quan tâm, yêu cầu người dùng tiến hành khai thác mẫu dựa ràng buộc nhằm tìm tập mẫu thu gọn theo yêu cầu người dùng rút ngắn thời gian khai thác, giảm nhớ sử dụng Như vậy, luận án tập trung nghiên cứu xây dựng phương pháp khai thác chung cho toán khai thác mẫu phổ biến dựa ràng buộc, áp dụng cho nhiều lĩnh vực ứng dụng có liệu dạng chuỗi ứng dụng tập mẫu thỏa ràng buộc tìm cho q trình sinh luật có ràng buộc Ngồi ra, luận án đề xuất phương pháp khai thác riêng cho trường hợp ứng dụng khai thác mẫu truy cập web, đáp ứng nhu cầu khám phá tri thức thời đại bùng nổ công nghệ web Cấu trúc luận án Nội dung luận án bao gồm 126 trang (không tính phần danh mục cơng trình tài liệu tham khảo), 44 bảng, 31 hình vẽ, phần mở đầu, chương phần kết luận theo cấu trúc sau: -1- Mở đầu: Giới thiệu khái quát hướng nghiên cứu luận án cấu trúc luận án Chương - Giới thiệu tổng quan: Giới thiệu chung sở liệu chuỗi với kỹ thuật khai thác loại hình liệu này; trình bày tổng quan khai thác mẫu dựa ràng buộc từ sở liệu chuỗi toán trọng tâm nghiên cứu, khảo sát cơng trình nghiên cứu liên quan Từ đó, nêu lên mục tiêu, phạm vi nội dung nghiên cứu với đóng góp luận án Chương - Cơ sở lý thuyết: Trình bày sở lý thuyết cho phương pháp sử dụng đề tài Chương - Khai thác mẫu dựa ràng buộc Itemset: Giới thiệu toán, đề xuất phương pháp khai thác mẫu dựa ràng buộc Itemset Chương - Ứng dụng tập mẫu thỏa ràng buộc Itemset khai thác luật có ràng buộc: Giới thiệu tốn khai thác luật có ràng buộc Itemset vế trái luật đề xuất phương pháp khai thác luật cách tận dụng tập mẫu thỏa ràng buộc Itemset Chương - Khai thác mẫu truy cập web dựa ràng buộc chuỗi con: Giới thiệu lĩnh vực khai thác web, giới thiệu toán ứng dụng khai thác mẫu truy cập web có ràng buộc chuỗi đề xuất phương pháp khai thác Kết luận hướng phát triển: Trình bày tóm tắt kết nghiên cứu, hướng phát triển nghiên cứu đề tài Phần cuối luận án cơng trình khoa học chính, cơng trình có đóng góp tác giả, tài liệu tham khảo gồm 71 tài liệu (bài báo hội thảo tạp chí quốc tế) -2- CHƯƠNG GIỚI THIỆU TỔNG QUAN 1.1 Tổng quan khai thác mẫu từ sở liệu chuỗi Phần trình bày tổng quan liệu chuỗi với kỹ thuật khai thác đặc thù loại liệu Tiếp theo tổng quan toán trọng tâm nghiên cứu - khai thác mẫu dựa ràng buộc từ sở liệu chuỗi khảo sát cơng trình nghiên cứu có nước rút đánh giá chung tình hình nghiên cứu 1.2 Động mục tiêu nghiên cứu Động nghiên cứu Cho đến nay, có nhiều phương pháp khai thác mẫu đề xuất, ngày cải tiến song tồn hai thách thức lớn hiệu hiệu suất thực Khai thác mẫu dựa ràng buộc khắc phục hai khó khăn ràng buộc đại diện cho người dùng quan tâm yêu cầu, giới hạn mẫu tìm tập hợp gồm mẫu thỏa số điều kiện định Đây động lực thúc đẩy nghiên cứu toán khai thác mẫu dựa ràng buộc Ngoài ra, từ mẫu sinh luật Nó mở rộng khả sử dụng ý nghĩa biểu đạt mẫu Luật đơn giản thông tin mà luật mang lại có nhiều ý nghĩa quan trọng, hỗ trợ cho q trình định, quản lý có tính định hướng Nếu khai thác trả tập đầy đủ luật tốn nhiều thời gian, nhớ số lượng luật lớn Tuy nhiên, khai thác theo yêu cầu người dùng, tức khai thác luật có ràng buộc giải thách thức Đó động cho nghiên cứu mở rộng sinh luật có ràng buộc từ tập mẫu thỏa ràng buộc khai thác -3- Mục tiêu nghiên cứu luận án Mục tiêu đề tài đề xuất thuật toán khai thác mẫu tập trung theo yêu cầu người dùng cách hiệu cách đưa vào ràng buộc itemset, ràng buộc chuỗi con, cho tìm trực tiếp tập mẫu thỏa ràng buộc cách xác, rút ngắn thời gian khai thác giảm nhớ sử dụng Cụ thể mục tiêu giải toán sau: Bài toán 1: khai thác mẫu dựa ràng buộc itemset tìm tất chuỗi phổ biến CSDL chuỗi, mà có chứa itemset tập itemset ràng buộc ℂ người dùng yêu cầu Mục tiêu luận án phát triển thuật toán giải tốn cách hiệu Ngồi ra, từ kết nghiên cứu này, luận án mở rộng mục tiêu phát triển thuật toán khai thác luật có ràng buộc Itemset vế trái luật cách tận dụng tập mẫu thỏa ràng buộc Itemset khai thác cho q trình sinh luật Bài tốn 2: Từ kết nghiên cứu toán 1, luận án mở rộng mục tiêu phát triển thuật toán khai thác luật có ràng buộc Itemset vế trái luật cách tận dụng tập mẫu thỏa ràng buộc Itemset khai thác cho trình sinh luật Bài toán 3: khai thác mẫu truy cập web dựa ràng buộc chuỗi tìm tất mẫu phổ biến CSDL chuỗi truy cập web mà có chứa mẫu tập ràng buộc U (do người dùng ra) dạng chuỗi Mục tiêu luận án phát triển thuật toán riêng cho lĩnh vực ứng dụng khai thác mẫu truy cập web dựa ràng chuỗi con, nhằm đáp ứng nhu cầu khám phá tri thức thời đại bùng nổ công nghệ web -4- 1.3 Phạm vi, nội dung phương pháp nghiên cứu Đối tượng, phạm vi nghiên cứu Một là, nghiên cứu mơ hình liệu chuỗi, loại hình liệu phổ biến, có mặt khơng gian đo lường có thứ tự tồn phần hay thứ tự phận Cụ thể, đề tài nghiên cứu hai loại chuỗi điển hình: (i) Chuỗi kiện kiện gồm nhiều item chuỗi giao dịch mua sắm khách hàng, chuỗi lịch sử bán hàng cửa hàng Trong thực nghiệm nghiên cứu, CSDL chuỗi loại tạo công cụ sinh liệu IBM (ii) Chuỗi kiện mà kiện có item chuỗi truy cập web, chuỗi liệu sinh học Các CSDL chuỗi loại (đã qua bước tiền xử lý) lấy từ kho liệu KDD Cup 2000 Hai là, nghiên cứu khai thác mẫu hai loại ràng buộc cụ thể, ràng buộc Itemset ràng buộc chuỗi đặc điểm, tính chất ảnh hưởng chúng đến trình khai thác kết khai thác lĩnh vực ứng dụng cụ thể Nội dung nghiên cứu Nghiên cứu phương pháp khai thác mẫu phổ biến từ sở liệu chuỗi dựa ràng buộc Itemset, đưa ràng buộc vào q trình khai thác (Chương 3) Ngồi ra, nghiên cứu ứng dụng tập mẫu thỏa ràng buộc Itemset tìm khai thác luật có ràng buộc Itemset vế trái luật (Chương 4) Nghiên cứu phương pháp khai thác mẫu truy cập web dựa ràng buộc chuỗi (Chương 5) Phương pháp nghiên cứu Vì đề tài nghiên cứu khai thác mẫu tập trung vào mối quan tâm, nhu cầu người dùng nên phương pháp nghiên cứu tìm cách đưa ràng buộc vào trình khai thác mẫu Khảo sát -5- loại ràng buộc có, phân tích chọn loại ràng buộc có tính ứng dụng cao thực tiễn Khảo sát cơng trình cơng bố nước, tổng hợp rút ưu nhược điểm phương pháp, từ phát triển thuật toán hiệu Phương pháp tiến hành lấy liệu thực nghiệm: sử dụng chương trình sinh liệu chuẩn IBM để sinh liệu giả lập Đây chương trình sử dụng tất nghiên cứu khai thác mẫu có giới Còn liệu thực lấy từ kho liệu máy học UCI1, liệu qua bước tiền xử lý Như vậy, sử dụng sở liệu thực nghiệm nhóm nghiên cứu khác để đối chiếu so sánh kết thực nghiệm chứng minh tính hiệu cơng trình đề xuất Phương pháp đánh giá kết nghiên cứu: Tiến hành cài đặt thuật tốn đề xuất Thơng qua kết thực nghiệm để chứng minh tính hiệu phương pháp đề xuất tập kết khai thác được, thời gian thực thi tiêu tốn nhớ so sánh đối chiếu với thuật tốn có 1.4 Đóng góp luận án Đóng góp luận án đề xuất thuật toán khai thác mẫu dựa ràng buộc ứng dụng cho khai thác luật có ràng buộc từ CSDL chuỗi, bao gồm: Đề xuất thuật toán khai thác mẫu dựa ràng buộc Itemset – thuật toán MSPIC-DBV [CT1], đóng góp chương Thuật tốn mở rộng phát triển cách tổ chức liệu biểu diễn dọc - đề xuất cấu trúc DBVP làm đại diện biểu diễn lại CSDL theo chiều dọc nhờ duyệt CSDL lần Bằng cách sử dụng cấu trúc tiền http://mlr.cs.umass.edu/ml/datasets.html -6- tố kết hợp DBVP để lưu khơng gian tìm kiếm, thuật tốn đưa kỹ thuật tỉa không gian theo tiền tố kỹ thuật kiểm tra ràng buộc theo tiền tố bỏ qua việc kiểm tra ràng buộc cho số lượng lớn mẫu ứng viên Đề xuất thuật toán khai thác luật với ràng buộc Itemset vế trái luật gồm ba thuật toán MSRIC-B, MSRIC-R MSRIC-P [CT2, CT3]; đóng góp chương Trong đó, MSRIC-B phương pháp sở đơn giản đưa ràng buộc vào sau trình khai thác, hai thuật tốn cịn lại đưa vào q trình khai thác MSRIC-R đưa giai đoạn sinh luật, MSRIC-P đưa giai đoạn tìm mẫu, tận dụng kết thuật tốn MSPIC-DBV MSRIC-P thuật tốn đóng góp chính, hiệu hai thuật tốn cịn lại Đề xuất hai thuật toán khai thác mẫu truy cập web dựa ràng buộc chuỗi gồm MWAPC EMWAPC [CT4] đóng góp chương Trong đó, EMWAPC thuật tốn đóng góp chính, cải tiến MWAPC EMWAPC sử dụng cấu trúc liệu kỹ thuật tương tự phương pháp khai thác mẫu với ràng buộc Itemset Tuy nhiên, dựa vào đặc điểm mẫu truy cập web, thuật toán thực tỉa nhanh khơng gian tìm kiếm từ đầu giảm thiểu việc kiểm tra ràng buộc dựa vào đặc điểm ràng buộc chuỗi -7- CHƯƠNG CƠ SỞ LÝ THUYẾT 2.1 Các khái niệm định nghĩa Định nghĩa khai thác mẫu Cho trước CSDL chuỗi SDB ngưỡng phổ biến tối thiểu minSup người dùng qui định trước, toán khai thác mẫu tìm tất chuỗi phổ biến hay mẫu phổ biến có SDB Gọi ƑP tập mẫu phổ biến SDB, ta có: ƑP = {p SDB | sup(p) minSup} Định nghĩa khai thác mẫu dựa ràng buộc Ràng buộc ℂ khai thác mẫu hàm Boolean ℂ(p) mẫu Cho CSDL chuỗi SDB, ràng buộc ℂ ngưỡng phổ biến tối thiểu minSup người dùng đưa Bài toán khai thác mẫu dựa ràng buộc tìm tất mẫu phổ biến CSDL thỏa ràng buộc ℂ ƑCP = {p SDB | sup(p) minSup ℂ(p) = true} 2.2 Các loại ràng buộc Jian Pei đồng khảo sát đưa định nghĩa cho bảy loại ràng buộc xuất phổ biến lĩnh vực ứng dụng, bao gồm: ràng buộc item, ràng buộc độ dài, ràng buộc chuỗi con, ràng buộc kết hợp, ràng buộc biểu diễn dạng biểu thức có quy tắc, ràng buộc khoảng thời gian xảy kiện đầu cuối mẫu, ràng buộc khoảng thời gian hai kiện kề mẫu Mặc dù chưa hoàn toàn đầy đủ, khái quát nhiều ràng buộc hữu ích lĩnh vực ứng dụng 2.3 Đặc trưng thuật toán khai thác mẫu Khi phát triển thuật toán để khai thác mẫu từ CSDL chuỗi, yếu tố đại diện cho hiệu suất khai thác chi phí nhớ sử dụng tốc độ xử lý liệu Do đó, phải sử dụng cấu trúc liệu thích hợp -8- ƑCP = ; Gọi thủ tục FIND_FRE_CONSTRAINT_ITEMSET(F1, ℂ, minSup); Gọi thủ tục TRANSFORM(F1, ℂ, minSup); For each node n in F1 For each c in ℂ If (n.sequence thỏa ràng buộc c) then ƑCP = ƑCP {n.sequence}; PREFIX-EXTENSION(n, F1, F1, minSup); 10 break; If (n.sequence không thỏa ràng buộc c nào, c 11 ℂ)then 12 PREFIX-EXTENSION-CHECK(n, F1, F1, minSup, ℂ); Bảng 3.2 Thủ tục mở rộng mẫu từ tiền tố, tạo mẫu chắn thỏa ràng buộc Thủ tục PREFIX-EXTENSION(p, S, I, minSup) //Mở rộng sequence S1 = {i S| sup(pi = Mở rộng theo sequence(p, i)) minSup}; For each item i in S1 ƑCP = ƑCP {pi.sequence}; PREFIX-EXTENSION(pi, S1, item S1 lớn i, minSup); //Mở rộng itemset: tương tự mở rộng sequence Bảng 3.3 Thủ tục mở rộng theo tiền tố, tạo mẫu ứng viên phải kiểm tra ràng buộc Thủ tục PREFIX-EXTENSION-CHECK(p, S, I, minSup, ℂ) -12- //Mở rộng sequence S1 = {i S sup(pi = Mở rộng sequence (p, i)) minSup}; For each item i in S1 For each c in ℂ If (pi.sequence thỏa ràng buộc c) then ƑCP = ƑCP {pi.sequence}; PREFIX-EXTENSION(pi, S1, item S1 lớn i, minSup); break; If (pi.sequence không thỏa c nào, c ℂ) then PREFIX-EXTENSION-CHECK(pi, S1, item S1 lớn i, minSup, ℂ); //Mở rộng Itemset: tương tự mở rộng sequence 10 I1 = {i I sup(pi = Mở rộng Itemset(p, i)) minSup}; 11 For each item i in I1 12 13 For each c in ℂ If (pi.sequence thỏa ràng buộc c) then 14 ƑCP = ƑCP {pi.sequence}; 15 PREFIX-EXTENSION(pi, S1, item I1 lớn i,minSup); 16 17 18 break; If (pi.sequence không thỏa c nào, c ℂ) then PREFIX-EXTENSION-CHECK(pi, S1, item I1 lớn i, minSup, ℂ); -13- 3.5 Kết thực nghiệm Thuật toán: Thực nghiệm so sánh hiệu suất thực thuật toán đề xuất bao gồm MSPIC-Nạve MSPIC-DBV với PRISM-IC CM-SPAM-IC (thuật tốn mở rộng từ PRISM CM-SPAM) để khai thác mẫu với ràng buộc itemset Trong đó, hai thuật tốn MSPIC-Nạve MSPIC-DBV sử dụng cấu trúc DBVP, MSPIC-DBV áp dụng kĩ thuật giúp thu gọn khơng gian tìm kiếm giảm thiểu việc kiểm tra ràng buộc Cơ sở liệu: Các liệu mà itemset có kích thước gồm: Gazelle Kosarak Các liệu có kích thước itemset lớn gồm: C20T20S20I20N100D1k C20T50S20I10N1kD100k Kết thực nghiệm: Thực nghiệm so sánh hiệu suất thực thuật toán khai thác mẫu dựa ràng buộc Itemset với thay đổi giá trị minSup selectivity Trên tất loại CSDL thực nghiệm, tập mẫu khai thác bốn thuật toán giống thời gian thực nhớ sử dụng khác Các kết thực nghiệm cho thấy việc đưa ràng buộc vào q trình khai thác hiệu thuật tốn đề xuất MSPIC-DBV chạy nhanh tốn nhớ so với thuật tốn MSPIC-Nạve, PRISM-IC CM-SPAM-IC 3.6 Kết chương Tóm lại, chương trình bày toán khai thác mẫu dựa ràng buộc Itemset đề xuất phương pháp khai thác với thuật toán MSPIC-DBV [CT1]2 [CT1] V Trang, V Bay, & L Bac (2018), “Mining sequential patterns with itemset constraints”, Knowledge and Information Systems, vol 57(2), pp 311-330 (Springer, SCIE, Q1, IF=2.397) -14- CHƯƠNG ỨNG DỤNG CỦA TẬP MẪU THỎA RÀNG BUỘC ITEMSET TRONG KHAI THÁC LUẬT CÓ RÀNG BUỘC 4.1 Giới thiệu Chương trình bày tốn khai thác luật từ sở liệu chuỗi với ràng buộc Itemset vế trái luật đưa phương pháp giải toán [CT2][CT3], phương pháp sinh luật trực tiếp cách sử dụng tập mẫu thỏa ràng buộc Itemset hiệu so với phương pháp khác 4.2 Phát biểu toán nghiên cứu liên quan Định nghĩa luật thỏa ràng buộc Cho itemset ràng buộc c, luật r = a1 a2 … an b1 b2 … bm coi thỏa ràng buộc c mẫu a1 a2 … an vế trái luật mẫu thỏa ràng buộc itemset c Bài toán khai thác luật với ràng buộc Itemset: Cho CSDL SDB, tập itemset ràng buộc ℂ = {c1, c2 cn}, ngưỡng phổ biến tối thiểu minSup ngưỡng tin cậy tối thiểu minConf người dùng Bài toán khai thác luật với ràng buộc Itemset tìm tất luật thỏa ràng buộc với độ phổ biến độ tin cậy thỏa mãn ngưỡng minSup minConf ƇƦ = {r: XY| sup(r) minSup conf(r) minConf k: k n, X ck, ck ℂ} Các nghiên cứu liên quan: Đối với toán khai thác luật tuần tự, nghiên cứu đề xuất thực hai loại luật Loại thứ luật chuẩn, luật có vế trái vế phải mẫu Loại thứ hai gọi luật có thứ tự phận, itemset vế luật khơng cần có thứ tự Trong nghiên cứu luận án, chúng tơi nghiên cứu loại thứ nhất, thứ tự kiện đóng vai trị quan trọng có -15- ý nghĩa nhiều lĩnh vực ứng dụng phân tích thị trường chứng khốn, cơng nghệ phần mềm, chăm sóc sức khỏe y tế Để giải tốn khai thác luật tuần tự, có hai hướng tiếp cận Một chia q trình khai thác luật thành hai giai đoạn gồm tìm tập mẫu phổ biến sinh luật từ tập mẫu phổ biến tìm được; hai khai thác luật trực tiếp từ sở liệu, hướng tiếp cận phù hợp với luật có thứ tự phận Do đó, nghiên cứu này, chúng tơi sử dụng hướng tiếp cận thứ để khai thác luật có ràng buộc itemset cách tận dụng tập mẫu thỏa ràng buộc khai thác 4.3 Phương pháp khai thác luật với ràng buộc Itemset Hình 4.1 Các mơ hình khai thác luật với ràng buộc Itemset Vì trình khai thác luật gồm giai đoạn: tìm mẫu thỏa ngưỡng phổ biến tối thiểu sinh luật đáng tin cậy từ mẫu -16- phổ biến tìm Do đó, đưa ràng buộc vào giai đoạn sinh luật giai đoạn tìm mẫu Hình 4.1 Khai thác mẫu dựa ràng buộc Itemset thu tập mẫu thỏa ràng buộc, cô đọng theo mối quan tâm người dùng, số lượng mẫu giảm đáng kể Vì vậy, sinh luật từ tập mẫu tập luật thu thỏa ràng buộc đáp ứng theo yêu cầu người dùng Để thấy rõ hiệu ứng dụng tập mẫu thỏa ràng buộc khai thác luật có ràng buộc Itemset, luận án đưa ba thuật toán gồm MSRIC-B, MSRIC-R, MSRIC-P, đồng thời so sánh kết thực chúng Trong đó, MSRIC-B phương pháp đưa ràng buộc vào kiểm tra sau khai thác xong tập luật đầy đủ, MSRIC-R MSRIC-P đưa ràng buộc vào trình khai thác MSRIC-R đưa giai đoạn sinh luật, MSRIC-P giai đoạn khai thác mẫu Điều đáng ý thuật toán MSRIC-P sử dụng tập mẫu thỏa ràng buộc Itemset sinh trực tiếp luật thỏa ràng buộc Itemset vế trái mà khơng cần kiểm tra ràng buộc hai thuật tốn Thuật toán MSRIC-B: Phương pháp sở thực đưa ràng buộc vào sau trình khai thác Hình 4.1.(1) Các giai đoạn khai thác tiến hành sau: (1) Tìm tập ƑP gồm tất mẫu phổ biến từ CSDL (2) Sinh tập luật tin cậy Ʀ từ mẫu tập ƑP, tức tạo chọn luật r có sup(r) minConf (3) Kiểm tra ràng buộc luật r Ʀ để chọn luật thỏa ràng buộc Itemset vế trái luật, thu tập ƑCR Thuật toán MSRIC-R: Phương pháp đưa ràng buộc vào trình khai thác, đưa trực tiếp vào giai đoạn sinh luật Hình 4.1.(2a) Theo phương pháp này, trình khai thác gồm hai giai đoạn: -17- (1) Tìm tập ƑP gồm tất mẫu phổ biến từ CSDL, tập mẫu thu lưu cấu trúc tiền tố (2) Sinh tập luật tin cậy thỏa ràng buộc ƇƦ từ mẫu tập ƑP, tức tạo chọn luật r có conf(r) minConf thỏa ràng buộc Lưu ý rằng, luật tạo phải thỏa ràng buộc Itemset vế trái, phải kiểm tra mẫu vế trái có chứa itemset ràng buộc khơng Để tránh phải kiểm tra ràng buộc cho mẫu vế trái luật, thuật toán đề xuất kỹ thuật bỏ qua bước kiểm tra ràng buộc cho số lượng lớn luật Thuật toán MSRIC-P: Thuật toán MSRIC-P sử dụng phương pháp đưa ràng buộc vào trình khai thác, nhiên đưa giai đoạn khai thác mẫu Hình 4.1.(2b) Thuật tốn MSRIC-P sinh trực tiếp luật thỏa ràng buộc từ tập mẫu thỏa ràng buộc tìm được, mà khơng cần phải kiểm tra ràng buộc luật thuật toán MSRIC-R Như vậy, thuật toán này, tiền tố sử dụng để lưu trữ mẫu thỏa ràng buộc itemset (1) Tìm tập ƑCP gồm tất mẫu phổ biến thỏa ràng buộc Itemset từ CSDL, tập mẫu thu lưu cấu trúc tiền tố, sử dụng thuật toán MSPIC-DBV (thuật tốn đóng góp Chương 3) (2) Sinh luật r đáng tin cậy thỏa ràng buộc từ tập mẫu ƑCP 4.4 Kết thực nghiệm Thực nghiệm tiến hành CSDL Gazelle đại diện cho loại CSDL thứ C20T50S20I10N1kD100k đại diện cho loại thứ hai mô tả Chương Thực nghiệm so sánh thời gian thực nhớ sử dcủa thuật tốn khai thác luật có ràng buộc Itemset vế trái: MSRIC- -18- B, MSRIC-R MSRIC-P với thay đổi giá trị minSup, minConf selectivity hai loại liệu chuỗi Trong tất trường hợp, tập luật khai thác ba thuật toán giống thời gian thực nhớ sử dụng khác Kết theo thời gian thực (giây): MSRIC-B > MSRIC-R > MSRIC-P; nhớ sử dụng (MB): MSRIC-B > MSRIC-R > MSRIC-P Các kết thực nghiệm chứng minh việc đưa ràng buộc vào trình khai thác hiệu so với đưa vào sau Hơn nữa, thời gian khai thác đưa ràng buộc vào giai đoạn khai thác mẫu nhiều so với đưa vào giai đoạn sinh luật Điều cho thấy hiệu việc ứng dụng tập mẫu thỏa ràng buộc Itemset sinh luật có ràng buộc Đó là, sinh trực tiếp tập luật thỏa ràng buộc Itemset vế trái từ tập mẫu thỏa ràng buộc Itemset, rút ngắn thời gian khai thác nhớ sử dụng so với phương pháp thông thường 4.5 Kết chương Như vậy, chương luận án giải tốn khai thác luật có ràng buộc Itemset vế trái sở kế thừa tập mẫu thỏa ràng buộc Itemset Chương [CT2, CT3]3 [CT2] V Trang, V Bay, & L Bac (2014), “IMSR_PreTree: an improved algorithm for mining sequential rules based on the prefix-tree”, Vietnam Journal Computer Science, vol 1(2), pp 97-105 (Springer) [CT3] V Trang, & L Bac (2020), “Mining sequential rules with itemset constraints”, Applied Intelligence (Springer, SCI, Q2, IF= 2.882) -19- CHƯƠNG KHAI THÁC MẪU TRUY CẬP WEB DỰA TRÊN RÀNG BUỘC CHUỖI CON 5.1 Giới thiệu tốn Khai thác mẫu truy cập web (cịn gọi khai thác thói quen sử dụng web, khai thác web log) ứng dụng quan trọng khai thác mẫu tuần tự, có liên quan đến việc tìm kiếm mẫu điều hướng người dùng hệ thống World Wide Web cách rút trích tri thức từ truy cập web ghi lại tập tin log, kiện có thứ tự chuỗi CSDL trang web mà người dùng truy cập Phát biểu toán: Cho CSDL chuỗi truy cập web WD, tập mẫu ràng buộc U = {u1, u2 un} ngưỡng phổ biến tối thiểu minSup người dùng Bài toán khai thác mẫu truy cập web với ràng buộc chuỗi tìm tất mẫu phổ biến CSDL mà có chứa mẫu tập U dạng chuỗi ƑCP = {p sup(p) minSup k: k n, p uk} 5.2 Các nghiên cứu liên quan Vì cấu trúc mẫu truy cập web đơn giản cấu trúc mẫu nên phương pháp khai thác mẫu chung, có phương pháp khai thác riêng dành cho loại liệu Pei đồng (2000) đề xuất cấu trúc để lưu thông tin mẫu truy cập web, gọi tắt cây-WAP thuật tốn WAP-Mine WAP-Mine khơng tạo tập ứng viên khổng lồ Apriori phải dựng nhiều WAP trung gian suốt trình khai thác, tức tiêu tốn nhiều thời gian nhớ Một số nghiên cứu cải tiến từ WAP bao gồm PLWAP (Lu & Ezeife, 2003), FLWAP-tree (Tang, Turkia, & Gallivan, 2007) AWAPT (Vijayalakshmi, Mohan, & Suresh, 2010) -20- Nhìn chung thuật toán theo hướng tiếp cận dùng WAP tối ưu thời gian nhớ so với phương pháp Apriori, song lại không hiệu phương pháp định dạng CSDL theo chiều dọc, khơng cịn thu hút nghiên cứu thời gian gần 5.3 Phương pháp đề xuất Đề xuất hai thuật toán MWAPC EMWAPC sử dụng cấu trúc liệu tiền tố PreWAP Trong thuật tốn đóng góp EMWAPC cải tiến từ MWAPC cách vận dụng tính chất DBVP PreWAP để rút ngắn thời gian khai thác nhớ sử dụng Tiến trình khai thác xuất phát từ có gốc atom F1, EMWAPC tỉa khơng gian tìm kiếm PreWAP từ đầu trước thực mở rộng mẫu nhờ kỹ thuật loại trừ sớm Sau đó, q trình mở rộng mẫu để tạo mẫu ứng viên mới, thay phải kiểm tra ràng buộc cho ứng viên MWAPC, EMWAPC bỏ qua bước kiểm tra cho số lượng lớn ứng viên nhờ kỹ thuật kiểm tra ràng buộc Chi tiết thuật toán EMWAPC mơ tả Bảng5.1 Thuật tốn EMWAPC Thuật toán EMWAPC Đầu vào: WD, minSup, tập ràng buộc U = {u1, u2 un} Đầu ra: ƑCP (tập mẫu truy cập web thỏa minSup U) ƑCP = ; Duyệt WD để tìm F1 mẫu-1 với DBVP chúng; Tìm U’ = {ui U | sup(ui) minSup} cách tính DBVPui, ui U; F1* = Gọi EARLY-PRUNING(F1, U’, minSup); -21- For each node r in in F1* If (r.label thỏa ràng buộc u U’) then ƑCP = ƑCP {r.label}; Gọi EXTENSION (r, F1, minSup); If (r.label không thỏa ràng buộc u U’) then 10 Gọi EXTENSION-CHECK (r, F1, minSup, U’); Thủ tục EXTENSION (r, I, minSup) 11 Lấy I1 = {e I sup(đặt pe = Pattern Extension(p, e)) minSup}; 12 For each item e in I1 13 ƑCP = ƑCP {pe.label}; 14 Gọi EXTENSION(pe, I1, minSup); Thủ tục EXTENSION-CHECK(r, I, minSup, U’) 15 Lấy I1 = {e I sup(đặt pe = Pattern Extension(p, e)) minSup}; 16 For each item e in I1 17 If (pe.label thỏa ràng buộc u U’) then 18 ƑCP = ƑCP {pe.label}; 19 Gọi EXTENSION (pe, I1, minSup); 20 If (pe.label không thỏa ràng buộc u U’) then 21 Gọi EXTENSION-CHECK (pe, I1, minSup, U’); 5.4 Kết thực nghiệm Thuật toán: so sánh thuật toán đề xuất gồm MWAPC EMWAPC (đưa ràng buộc vào trình khai thác mẫu) với PRISMC CM-SPAMC (đưa ràng buộc vào sau trình khai thác) Cơ sở liệu: -22- CSDL #chuỗi Gazelle 59,602 #item phân biệt 497 FIFA 20,450 2,990 Kosarak10k 10,000 10,094 Độ dài chuỗi trung bình 2.51 (std = 4.85) 34.74 (std = 24.08) 8.14 (std = 22) Kết thực nghiệm: so sánh thời gian thực nhớ sử dụng với hai tham số minSup Length thay đổi Về thời gian: Các kết thực nghiệm cho thấy CM-SPAMC chạy nhanh PRISMC CSDL Kosarak chậm Gazelle FIFA Kết item xuất có mặt chuỗi CSDL Gazelle FIFA nên CMSPAMC có hội để tỉa ứng viên Đáng ý hai thuật toán đề xuất MWAPC EMWAPC chạy nhanh CM-SPAMC PRISMC tất CSDL thực nghiệm Đặc biệt, EMWAPC chạy nhanh Về nhớ: Trên ba liệu, hai thuật toán đề xuất MWAPC EMWAPC tốn nhớ hơn, ta có tỉ lệ chênh lệch 10 lần so với PRISMC 100 lần với CM-SPAMC 5.5 Kết chương Chương trình bày vấn đề khai thác mẫu truy cập web với ràng buộc chuỗi đề xuất hai thuật tốn có tên MWAPC EMWAPC để giải vấn đề [CT4]4 Trong đó, thuật tốn đóng góp EMWAPC phát triển dựa sở lý thuyết ba mệnh đề tỉa nhanh khơng gian tìm kiếm giảm thiểu việc kiểm tra ràng buộc [CT4] V Trang, A Yoshitaka, & L Bac (2018), “Mining web access patterns with supper-pattern constraints”, Applied Intelligence, vol 48(11), pp 3902-3914 (Springer, SCI, Q2, IF= 2.882) -23- KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Kết luận Luận án trình bày tổng quan, tìm hiểu sở lý thuyết khai thác mẫu phổ biến dựa ràng buộc Trong đó, sâu vào nghiên cứu vấn đề khai thác mẫu với hai loại ràng buộc ràng buộc Itemset ràng buộc chuỗi con, ứng dụng tập mẫu thỏa ràng buộc khai thác luật có ràng buộc Bên cạnh đó, luận án nghiên cứu lĩnh vực ứng dụng cụ thể mẫu khai thác sử dụng web theo ràng buộc người dùng Luận án hoàn thành mục tiêu ban đầu đề xuất phương pháp khai thác hiệu cho tốn đặt cho tìm trực tiếp tập mẫu thỏa ràng buộc cách xác, rút ngắn thời gian khai thác giảm nhớ sử dụng Luận án đạt kết sau (1) Đề xuất thuật toán khai thác mẫu dựa ràng buộc Itemset: thuật toán MSPIC-DBV Thuật toán mở rộng phát triển cách tổ chức liệu biểu diễn dọc - đề xuất cấu trúc DBVP làm đại diện biểu diễn lại CSDL theo chiều dọc nhờ duyệt CSDL lần Bằng cách sử dụng cấu trúc tiền tố kết hợp DBVP để lưu khơng gian tìm kiếm, thuật tốn đưa kỹ thuật tỉa không gian theo tiền tố kỹ thuật kiểm tra ràng buộc theo tiền tố bỏ qua việc kiểm tra ràng buộc cho số lượng lớn mẫu ứng viên (2) Đề xuất thuật toán khai thác luật thỏa ràng buộc Itemset vế trái luật gồm ba thuật tốn MSRIC-B, MSRIC-R, MSRIC-P Trong MSRIC-P thuật tốn đóng góp chính, sử dụng tập mẫu thỏa ràng buộc Itemset sinh trực tiếp luật thỏa ràng buộc Itemset vế trái mà không cần kiểm tra ràng buộc hai thuật toán -24- (3) Đề xuất thuật toán khai thác mẫu truy cập web dựa ràng buộc chuỗi gồm MWAPC EMWAPC Trong đó, thuật tốn đóng góp EMWAPC sử dụng cấu trúc liệu kỹ thuật tương tự phương pháp khai thác mẫu với ràng buộc Itemset Tuy nhiên, dựa vào đặc điểm mẫu truy cập web, thuật tốn thực tỉa nhanh khơng gian tìm kiếm từ đầu giảm thiểu việc kiểm tra ràng buộc dựa vào đặc điểm ràng buộc chuỗi Hướng phát triển Tiếp tục phát triển chiến lược tỉa khơng gian tìm kiếm hiệu cho tốn khai thác mẫu có ràng buộc để thuật toán đạt tốc độ nhớ tối ưu Nghiên cứu giải pháp song song hóa dựa kiến thức đa lõi, spark Nghiên cứu khai thác mẫu có ràng buộc CSDL phân tán, nhằm tìm cách xử lý hiệu cho CSDL cực lớn với chuỗi liệu dài Trong lĩnh vực khai thác thói quen sử dụng web, áp dụng khai thác phân tán để khai thác web log bị phân tán nhiều server Nghiên cứu áp dụng kỹ thuật đề xuất cho vấn đề khai thác mẫu với loại ràng buộc khác như: ràng buộc việc kết hợp kiện mẫu, ràng buộc thời gian CÔNG TRÌNH KHOA HỌC CỦA TÁC GIẢ [CT1] V Trang, V Bay, & L Bac (2018), “Mining sequential patterns with itemset constraints”, Knowledge and Information Systems, vol 57(2), pp 311-330 (Springer, SCIE, Q1, IF=2.397) [CT2] V Trang, V Bay, & L Bac (2014), “IMSR_PreTree: an improved algorithm for mining sequential rules based on the -25- prefix-tree”, Vietnam Journal Computer Science, vol 1(2), pp 97-105 (Springer) [CT3] V Trang, & L Bac (2020), “Mining sequential rules with itemset constraints”, Applied Intelligence (Springer, SCI, Q2, IF= 2.882) (Accepted) [CT4] V Trang, A Yoshitaka, & L Bac (2018), “Mining web access patterns with supper-pattern constraints”, Applied Intelligence, vol 48(11), pp 3902-3914 (Springer, SCI, Q2, IF= 2.882) CƠNG TRÌNH KHOA HỌC CĨ LIÊN QUAN [CT5] V Trang, V Bay, & L Bac (2011), “Mining sequential rules based on prefix-tree”, ACIIDS 2011, Daegu, Korea, SCI Vol 351, 147-156 (Springer) [CT6] H Bao Huynh, T Cuong, H Huy, V Trang, V Bay Vo, & Vaclav Snasel (2018) “An efficient approach for mining sequential patterns using multiple threads on very large databases” Engineering Applications of Artificial Intelligence, 74, 242-251 -26-