Phát Triển Các Thuật Toán Khai Thác Mẫu Và Mẫu Đóng Trên Cơ Sở Dữ Liệu Định Lượng

ĐẠI HỌC QUỐC GIA TP HCM TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN BÙI DANH HƯỜNG PHÁT TRIỂN CÁC THUẬT TỐN KHAI THÁC MẪU VÀ MẪU ĐĨNG TRÊN CƠ SỞ DỮ LIỆU ĐỊNH LƯỢNG Chuyên ngành: Khoa học máy tính Mã số: 62.48.01.01 TÓM TẮT LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH TP Hồ Chí Minh - 2022 Cơng trình hồn thành tại: Trường Đại học Cơng nghệ Thông tin (UIT), Đại học Quốc gia TP.HCM Người hướng dẫn khoa học 1: PGS.TS Võ Đình Bảy Người hướng dẫn khoa học 2: PGS.TS Nguyễn Hoàng Tú Anh Phản biện độc lập : Miễn Phản biện 1: PGS.TS Đỗ Văn Nhơn Phản biện 2: PGS.TS Nguyễn Tuấn Đăng Phản biện 3: TS.Võ Thị Ngọc Châu Luận án bảo vệ trước Hội đồng chấm luận án họp tại: Phịng A116, Trường Đại học Cơng nghệ thơng tin – ĐHQG TP.HCM Vào lúc 30 ngày 10 tháng 01 năm 2022 Có thể tìm luận án tại: • • Thư viện Quốc gia Việt Nam Thư viện Trường Đại học Công nghệ Thông tin, ĐHQGHCM CHƯƠNG TỔNG QUAN 1.1 Dẫn nhập Trong luận án này, nghiên cứu sinh nghiên cứu, đề xuất cấu trúc liệu phát triển số thuật toán hiệu để giải số toán liên quan khai thác mẫu phổ biến sở liệu có trọng số Cụ thể sau: Đề xuất cấu trúc liệu WN-list thuật toán NFWI tương ứng để khai thác mẫu phổ biến có trọng số (FWI – frequent weighted itemset) cách hiệu WN-list mở rộng cấu trúc N-list (Deng et al (2012)) để biểu diễn liệu có trọng số Sự vượt trội cấu trúc WNlist đến từ ưu điểm sau: (1) Dữ liệu nén dạng FPtree; (2) Quan hệ tổ tiên nốt xác định cách so sánh giá trị pre pos nốt; (3) Nội dung chuyển sang dạng tuyến tính theo dạng {(prei, posi, weighti)} tương ứng với WNlist tập danh mục phần tử trình khai thác thực đó; (4) Độ hỗ trợ trọng số ws tập danh mục tính dễ dàng tổng giá trị weighti WN-list nó; (5) Độ phức tạp phép giao WN-list O(n) kích thước WN-list kết giảm thiểu đáng kể nhờ vào việc kết hợp phần tử chung (pre, pos) lại với Thuật toán NFWI tận dụng ưu điểm cấu trúc WN-list để nén liệu cây, sau trích xuất khai thác WN-list tập danh mục phần tử Các ứng viên lớp k tạo tương ứng từ lớp (k-1) phương pháp chia để trị phép giao WNlist với độ phức tạp tuyến tính Một số định lý đề xuất để tính độ phổ biến trọng số tập danh mục dựa WN-list, xác định nhanh giá trị số trường hợp mà không cần thực phép giao WN-list Bảng 1.1 Các đóng góp khoa học luận án Công bố Thách thức Các phương pháp khai thác FWI có điểm yếu Số mẫu phổ biến tìm lớn Vấn đề luật dư thừa Khai thác mẫu theo định hướng người dùng CT 2018 (ESWA – Q1) CT2 2020 (APIN – Q2) 1 2 X CT3 2020 (KNOSYS – Q1) CT4 2021 (IEEE Access – Q1) X 3 4 X Các đóng góp khoa học Cấu trúc WN-tree lưu trữ hiệu CSDL có trọng số Cấu trúc liệu WN-list dùng để khai thác hiệu FWI 3 Phép giao WN-list có độ phức tập O(n) 4 Cơng thức tính độ phổ biến có trọng số ws (X) dựa WN-list itemset X X 5 Định lý xác định nhanh ws số itemset đặc biệt 6 Thuật toán NFWI khai thác hiệu FWI X 7 Quan hệ tổ tiên WN-list định lý tỉa nhánh số ứng viên X 8 Thuật toán NFWCI khai thác hiệu FWCI 9 Mơ hình hóa tốn khai thác Top-rank-k FWI 10 10 Ba thuật toán sở khai thác Top-rank-k FWI X Công CT 2018 (ESWA – Q1) bố Thách thức CT2 2020 (APIN – Q2) CT3 2020 (KNOSYS – Q1) CT4 2021 (IEEE Access – Q1) 11 Thuật toán TFWIN+ khai thác hiệu Toprank-k FWI dựa chiến lược tăng ngưỡng chiến lược tỉa nhánh 11 Trích xuất xử lý liệu theo thời gian thực Các đóng góp khoa học X 12 12 Mơ hình hóa tốn khai thác FWI theo luồng liệu có trọng số 13 13 Cấu trúc SWN-tree lưu trữ hiệu luồng liệu có trọng số 14 14 Thuật tốn FWPODS khai thác hiệu FWI theo luồng liệu Đề xuất thuật toán NFWCI khai thác hiệu mẫu phổ biến đóng có trọng số (FWCI – frequent weighted closed itemset) dựa cấu trúc WN-list chiến lược tỉa nhánh nhanh Luận án giới thiệu khái niệm quan hệ tổ tiên WN-list đề xuất định lý để loại bỏ nhanh ứng viên không thỏa mãn dựa quan hệ tổ tiên WN-list Thuật toán NFWCI đề xuất áp dụng tính chất phép giao WN-list kết hợp hai ứng viên không thỏa mãn lớp tương đương để giảm kích thước WN-list ứng viên kết hợp, từ tăng tốc tính tốn bước Mơ hình hóa tốn khai thác top-rank-k mẫu phổ biến có trọng số Khai thác top-rank-k mẫu phổ biến có trọng số xác định mẫu phổ biến có độ phổ biến trọng số nằm k ngưỡng lớn nhất, nhằm thỏa mãn nhu cầu người dùng mà khơng thời gian xem xét tồn mẫu phổ biến có trọng số Ba thuật toán sở TFWIT, TFWID TFWIN đề xuất để giải toán khai thác top-rank-k mẫu phổ biến có trọng số tương ứng dựa ba cấu trúc liệu hành tidset, diffset WN-list Các chiến lược tăng ngưỡng tỉa nhánh sớm đề xuất để cải tiến thuật toán TFWIN, từ đề xuất thuật tốn TFWIN+ khai thác top-rank-k mẫu phổ biến có trọng số Mơ hình hóa tốn khai thác mẫu phổ biến có trọng số theo luồng liệu sử dụng mơ hình cửa sổ trượt Luận án đề xuất cấu trúc SWNtree để lưu trữ trì hiệu cửa sổ liệu trượt theo luồng liệu Trên sở đó, thuật tốn FWPODS đề xuất để khai thác hiệu mẫu phổ biến có trọng số theo luồng liệu 1.2 Động lực nghiên cứu Hiện nay, với phát triển nhanh chóng kỷ nguyên số, dạng liệu thu từ ứng dụng IoT ngày đa dạng ln có đặc trưng đối tượng sở liệu thường có mức độ quan trọng khác cần ý với mức độ khác trình xử lý khai thác liệu Một số ví dụ cảm biến hệ thống IoT có tầm quan trọng khác nhau, mặt hàng có giả hay lợi nhuận khác nhau, trang web có trọng số khác nhau, gen hay triệu chứng bệnh có ý nghĩa khác phân tích gen chữa bệnh hay nốt đồ thị biểu diễn mạng xã hội có trọng số khác dựa theo liên kết nốt đồ thị Hiện tại, phương pháp có để giải tốn khai thác mẫu phổ biến có trọng số tồn số điểm yếu Ngoài ra, việc khai thác mẫu phổ biến có trọng số giới hạn theo định hướng nhu cầu người sử dụng số lượng, thời gian chưa quan tâm nghiên cứu Như vậy, nhu cầu khai thác mẫu phổ biến sở liệu trọng số đặt cấp thiết cần phải giải Bảng 1.2 Ưu nhược điểm thuật toán khai thác mẫu phổ biến có Thuật tốn khai thác mẫu phổ biến có trọng số trọng số có Quét Quét Nén cây tìm liệu nén kiếm liệu Tỉa nhánh Hiệu loại CSDL WIT-FWIs-Tid (Vo et al (2013)) X X All WIT-FWIs-Diff (Vo et al (2013)) X X All IWS (Nguyen et al (2016)) X X Sparse FWI-WSD (Lee et al (2017)) X X All FWI-TCD (Lee et al (2017)) X X All 1.3 Mục đích, đối tượng phạm vi nghiên cứu • Mục đích nghiên cứu: Nghiên cứu phát triển cấu trúc liệu thuật toán giải hiệu toán khai thác mẫu phổ biến có trọng số • Đối tượng nghiên cứu: Các tốn: khai thác mẫu phổ biến có trọng số, khai thác mẫu phổ biến đóng có trọng số, khai thác top-rank-k mẫu phổ biến có trọng số khai thác mẫu phổ biến có trọng số theo luồng liệu • Phạm vi nghiên cứu: Giới hạn liệu có trọng số 1.4 Ý nghĩa khoa học thực tiễn đề tài • Ý nghĩa khoa học đề tài: Nội dung luận án nghiên cứu đề xuất phương pháp để giải hiệu toán: khai thác mẫu phổ biến có trọng số, khai thác mẫu phổ biến đóng có trọng số, khai thác top-rank-k mẫu phổ biến có trọng số khai thác mẫu phổ biến có trọng số theo luồng liệu Các đóng góp luận án góp phần bổ sung tảng lý thuyết khai thác mẫu phổ biến sở liệu có trọng số nói riêng tốn khai thác mẫu nói chung • Ý nghĩa thực tiễn đề tài: Luận án cung cấp cấu trúc liệu thuật toán cụ thể để giải toán liên quan khai thác mẫu phổ biến có trọng số, từ nhà phát triển áp dụng vào ứng dụng 1.5 Bố cục luận án Nội dung luận án bố cục gồm chương tài liệu tham khảo: • Chương 1: Tổng quan: Chương bao gồm phần giới thiệu tóm tắt cơng trình nghiên cứu, động lực nghiên cứu, mục đích, đối tượng phạm vi nghiên cứu, ý nghĩa khoa học thực tiễn đề tài • Chương 2: Cơ sở lý thuyết: Nội dung chương giới thiệu cụ thể toán quan tâm giải luận án, khảo sát nghiên cứu liên quan, vấn đề cịn tồn Từ đề mục tiêu luận án • Chương 3: Khai thác mẫu phổ biến có trọng số cấu trúc WN-list: Chương trình bày cấu trúc liệu WN-list thuật toán NFWI để giải toán khai thác mẫu phổ biến có trọng số • Chương 4: Khai thác mẫu phổ biến đóng có trọng số cấu trúc WNlist chiến lược tỉa nhánh sớm: Trình bày phương pháp đề xuất để giải toán khai thác mẫu phổ biến đóng có trọng số • Chương 5: Khai thác top-rank-k mẫu phổ biến có trọng số: Giới thiệu mơ hình thuật tốn khai thác top-rank-k mẫu phổ biến có trọng số • Chương 6: Khai thác mẫu phổ biến có trọng số theo dịng liệu dựa mơ hình cửa sổ trượt: Giới thiệu đưa mơ hình thuật tốn khai thác mẫu phổ biến có trọng số theo dịng liệu dựa cửa sổ trượt • Chương 7: Kết luận hướng phát triển: Trình bày tóm tắt kết nghiên cứu đạt được, ưu điểm hạn chế thuật toán đề xuất hướng nghiên cứu CHƯƠNG CƠ SỞ LÝ THUYẾT 2.1 Giới thiệu toán 2.1.1 Bài toán khai thác mẫu phổ biến có trọng số Định nghĩa 2.1 Cơ sở liệu định lượng (QD - Quantitative database) ba T, I, W, đó: 𝐼 = {𝑖𝑗 | 𝑗 ∈ [1, 𝑛]}; 𝑊 = {𝑤𝑗 | 𝑗 ∈ [1, 𝑛] ∧ 𝑤𝑗 𝑙à 𝑡𝑟ọ𝑛𝑔 𝑠ố 𝑐ủ𝑎 𝑖𝑡𝑒𝑚 𝑖𝑗 } 𝑇 = {𝑡𝑘 |𝑘 ∈ [1, 𝑚] ∧ 𝑡𝑘 = {𝑥𝑘𝑗 | 𝑗 ∈ [1, 𝑛] ∧ 𝑥𝑘𝑗 𝑙à 𝑠ố 𝑙ượ𝑛𝑔 𝑖𝑡𝑒𝑚 𝑖𝑗 𝑡𝑟𝑜𝑛𝑔 𝑡𝑘 }} Định nghĩa 2.2: Cơ sở liệu có trọng số (WD – Weighted database) ba T, I, W, đó: 𝐼 = {𝑖𝑗 | 𝑗 ∈ [1, 𝑛]}; 𝑊 = {𝑤𝑗 |𝑗 ∈ [1, 𝑛] ∧ 𝑤𝑗 𝑙à 𝑡𝑟ọ𝑛𝑔 𝑠ố 𝑐ủ𝑎 𝑖𝑡𝑒𝑚 𝑖𝑗 } 𝑇 = {𝑡𝑘 |𝑘 ∈ [1, 𝑚] ∧ 𝑡𝑘 ⊆ 𝐼 } Định nghĩa 2.3 (Trọng số dòng liệu) (Tao et al (2003)): Trọng số dòng liệu tk ∈ T ký hiệu tw(tk) tính tốn sau: ∑𝑖𝑗 𝑡𝑘 𝑤𝑗 𝑡𝑤( 𝑡𝑘 ) = |𝑡𝑘 | Định nghĩa 2.4 (Độ hỗ trợ trọng số) (Tao et al (2003)): Cho tập danh mục (itemset) X, độ hỗ trợ trọng số X ký hiệu ws(X) tính tốn sau: ∑𝑡𝑘 𝑡(𝑋) 𝑡𝑤(𝑡𝑘 ) 𝑤𝑠( 𝑋) = 𝑠𝑢𝑚𝑡𝑤 Trong t(X) tập dịng liệu chứa itemset X sumtw tổng giá trị tw tất dòng liệu Định nghĩa 2.5 (Mẫu phổ biến có trọng số) (Tao et al (2003)): Cho itemset 𝑋 ⊆ 𝐼 ngưỡng hỗ trợ trọng số tối thiểu minws, X gọi mẫu phổ biến có trọng số (FWI – frequent weighted itemset) ws(X) ≥ minws Bài toán (Khai thác FWI): Cho WD ngưỡng tối thiểu minws Khai thác mẫu phổ biến có trọng số tìm tập FWI thỏa mãn: 𝑭𝑾𝑰 = {𝑿 ∈ 𝑾𝑫 | 𝒘𝒔(𝑿) ≥ 𝒎𝒊𝒏𝒘𝒔} 2.1.2 Bài toán khai thác mẫu phổ biến đóng có trọng số Định nghĩa 2.10 (Mẫu phổ biến đóng có trọng số) (Vo (2017)): Cho itemset X ⊆ I FWI, X mẫu phổ biến đóng có trọng số (FWCI - frequent weighted closed itemset) không tồn itemset Y cho 𝑋 ⊂ 𝑌 ws(X) = ws(Y) Bài toán (Khai thác FWCI): Cho WD ngưỡng tối thiểu minws Bài tốn khai thác mẫu phổ biến đóng có trọng số tìm tập FWCI thỏa mãn: 𝑭𝑾𝑪𝑰 = {𝑿 ∈ 𝑾𝑫 | 𝒘𝒔(𝑿) ≥ 𝒎𝒊𝒏𝒘𝒔 ∧ (∄ 𝒀 | 𝒀 ⊃ 𝑿 ∧ 𝒘𝒔(𝑿) = 𝒘𝒔(𝒀)) } 2.1.3 Bài tốn khai thác top-rank-k mẫu phổ biến có trọng số Định nghĩa 2.11 (Rank mẫu phổ biến có trọng số): Cho sở liệu có trọng số WD, rank mẫu phổ biến có trọng số X ký hiệu r(X) xác định sau: 𝑟(𝑋) = |{𝑤𝑠(𝑌)|𝑌 ⊆ 𝐼 ∧ 𝑤𝑠(𝑌) ≥ 𝑤𝑠(𝑋)}| Định nghĩa 2.12 (Top-rank-k mẫu phổ biến có trọng số): Một mẫu X (⊆ 𝐼) gọi top-rank-k mẫu phổ biến có trọng số 𝑟(𝑋) ≤ k Bài toán (Khai thác Top-rank-k FWI): Cho WD ngưỡng k, toán khai thác Top-rank-k mẫu phổ biến có trọng số tốn tìm tập TR thỏa mãn: 𝑻𝑹 = {𝑿 ∈ 𝑾𝑫 | 𝒓(𝑿) ≤ 𝒌 } 2.2.4 Bài toán khai thác mẫu phổ biến có trọng số theo dịng liệu Bài toán (Khai thác FWI theo luồng liệu): Cho WD luồng liệu cập nhật theo thời gian với bước nhảy p giao dịch ngưỡng tối thiểu minws I tập item WD 𝑾𝑫𝒊 = {𝒕𝒌 | 𝒕𝒌 ⊆ 𝑰 ∧ 𝒌 ∈ [𝒑 ∗ (𝒊 − 𝟏) + 𝒊, 𝒑 ∗ (𝒊 − 𝟏) + 𝒔]} cửa sổ trượt có kích thước cố định s lần cập nhật thứ i Bài toán khai thác FWI theo luồng liệu là tìm tập FWIi thỏa mãn: 𝑭𝑾𝑰𝒊 = {𝑿 ∈ 𝑾𝑫𝒊 | 𝒘𝒔(𝑿) ≥ 𝒎𝒊𝒏𝒘𝒔} Định lý 3.2 (Deng et al (2012)): Cho hai WN-code C1(x1, y1, w1) C2(x2, y2, w2), C1 tổ tiên C2 x1 < x2 y1 > y2 Định nghĩa 3.3 (WN-list item): Cho WN-Tree, WN-list item X, ký hiệu WL(X), dãy có thứ tự WN-code nốt đại diện cho item X WN-Tree, WN-code dãy xếp tăng dần theo giá trị pre chúng Định lý 3.3: Cho A item với WN-list A WL(A) = {(𝑥1 , 𝑦1 , 𝑤1 ), (𝑥2 , 𝑦2 , 𝑤2 ), … , (𝑥𝑛 , 𝑦𝑛 , 𝑤𝑛 )} Độ phổ biến trọng số A 𝑤𝑠(𝐴) tính sau: 𝑤𝑠(𝐴) = ∑𝑛𝑖=1 𝑤𝑖 ∑𝑡𝑘𝑇 𝑡𝑤(𝑡𝑘 ) (3.1) Định nghĩa 3.4 (WN-list k-itemset): Cho XA XB hai (k-1)itemset có phần tiền tố X, A xếp sau B theo thứ tự I1 WL(XA) WL(XB) hai WN-list tương ứng XA XB Ta có WL(XAB) WN-list k-itemset XAB xác định sau: Với cặp Ci(xi, yi, wi) ∈WL(XA) Cj(xj, yj, wj) ∈WL(XB), Cj tổ tiên Ci ta thêm (xj, yj, wi) vào WL(XAB) Duyệt WL(XAB) tổ hợp WN-code có (pre, pos) thành WN-code có weight tổng giá trị weight WN-code xét Định lý 3.4: Cho X itemset với WN-list X WL(X) = {(𝑥1 , 𝑦1 , 𝑤1 ), (𝑥2 , 𝑦2 , 𝑤2 ), … , (𝑥𝑛 , 𝑦𝑛 , 𝑤𝑛 )} Độ phổ biến trọng số X 𝑤𝑠(𝑋) tính sau: 𝑤𝑠(𝑋) = ∑𝑛𝑖=1 𝑤𝑖 ∑𝑡𝑘 𝑇 𝑡𝑤(𝑡𝑘 ) (3.2) Định lý 3.6: Cho itemset P item i (𝑖 ∉ 𝑃), 𝑤𝑠(𝑃) = 𝑤𝑠(𝑃 ∪ {𝑖}) với itemset A thỏa mãn điều kiện (𝐴 ∩ 𝑃 = ∅ ∧ 𝑖 ∉ 𝐴, ta có: 𝑤𝑠(𝐴 ∪ 𝑃) = 𝑤𝑠(𝐴 ∪ 𝑃 ∪ {𝑖}) 12 3.3 Thuật toán khai thác mẫu phổ biến có trọng số dựa WN-list Thuật tốn 3.3: Thuật toán NFWI Input: The weighted database WD and a threhold minws Output:FWI, the set of all frequent weighted itemsets Method name: NFWI(WD, minws) Call Construction_WN_Tree(WD, minws) to generate Tree and I1 Scan Tree to generate WN-lists of items in I1 Let FWI←I1 Call Find_FWI(I1, ∅, ∅) return FWI Procedure Find_FWI(Lk, Prek, Sk) Prenext = Prek for i = Lk.size downto Prenext← 𝐿i Lnext = ∅ Snext = Sk for j = i-1 downto NSij = WL_Intersection(WLi, WLj) if ws(WLij) ≥minws then if ws(WLij) = ws(WLi) then Snext←Lj 10 else FWI← {Prek∪{Li}∪{Lj}} 11 Inext←Li 12 if Snext ≠ ∅ then Find_FWI_notWL(Prenext, Snext) 13 if Lnext ≠ ∅ then Find_FWI(Lnext, Prenext, Snext) 14 remove last item of Prenext 15 Prenext←L1 16 if Sk≠ ∅ then Find_FWI_notWL(Prenext, Sk) Procedure Find_FWI_notWL(Pre, S) Childs = all subset of S for each s ∈ Childs FWI← {Pre ∪ s} 3.4 Kết thực nghiệm Thuật toán NFWI so sánh với thuật tốn khai thác FWI có bao gồm: WIT-FWIs-Diff (Vo et al (2013)), IWS (Nguyen et al (2016)), FWI-WSD 13 FWI-TCD (Lee et al (2017)) mặt thời gian chạy, nhớ sử dụng khả mở rộng Các liệu Chess, PAMP, BMS-POS, Retail, Kosarak, Chainstore Sale_Fact_sync sử dụng để thực nghiệm thời gian chạy nhớ sử dụng Dữ liệu dùng để thực nghiệm khả mở rộng trích xuất từ liệu Chainstore Kết thực nghiệm cho thấy thuật toán đề xuất NFWI cho kết chạy nhanh hai loại liệu (thưa dày) Thuật tốn NFWI sử dụng nhớ hầu hết liệu thực nghiệm Chess, PAMP, BMS-POS Sale_Fact_Sync Thực nghiệm cho thấy thuật toán NFWI cho thấy khả mở rộng tốt mặt thời gian chạy, khả mở rộng nhớ sử dụng tốt 3.5 Đánh giá phương pháp đề xuất Trong chương này, luận án giới thiệu cấu trúc WN-list để biểu diễn CSDL có trọng số Luận án đề xuất số định lý để tính tốn độ phổ biến trọng số itemset, xác định nhanh giá trị số trường hợp mà khơng cần thực phép giao WN-list Dựa vào để xây dựng thuật toán NFWI để khai thác nhanh mẫu phổ biến có trọng số Sự hiệu thuật toán NFWI thu nhờ ưu điểm cấu trúc WN-list Các ưu điểm là: khả nén liệu cao khiến kích thước WN-list nhỏ, dễ dàng tính độ phổ biến trọng số thơng qua qt WN-list thuật tốn giao hai WN-list có độ phức tạp tuyến tính Các thực nghiệm nhiều loại CSDL cho thấy NFWI hoạt động hiệu thuật tốn khai thác FWI có Kết nghiên cứu chương công bố cơng trình [CT.1] [CT.6] Trong thuật tốn NFWI đề xuất [CT.1] xem thuật tốn tốt có khai thác mẫu phổ biến có trọng số 14 CHƯƠNG KHAI THÁC MẪU PHỔ BIẾN ĐÓNG CÓ TRỌNG SỐ BẰNG CẤU TRÚC WN-LIST VÀ CHIẾN LƯỢC TỈA NHÁNH SỚM 4.1 Giới thiệu Trong nội dung chương này, luận án đề xuất thuật tốn NFWCI để khai thác mẫu phổ biến đóng có trọng số dựa cấu trúc liệu WN-list Nghiên cứu sinh giới thiệu khái niệm phép toán tổ tiên WN-list đề xuất định lý để loại bỏ nhanh ứng viên không thỏa mãn dựa phép toán tổ tiên WN-list Thuật toán NFWCI áp dụng tính chất phép giao WN-list kết hợp hai ứng viên không thỏa mãn lớp tương đương để giảm kích thước WN-list ứng viên kết hợp, từ giúp cho việc tăng tốc tính tốn 4.2 Quan hệ tổ tiên WN-list chiến lược tỉa nhánh sớm dựa quan hệ tổ tiên WN-list Định nghĩa 4.1 (Quan hệ tổ tiên WN-list): Cho PA1 PA2 hai mẫu phổ biến có trọng số (A1 đứng trước A2 theo thứ tự I1 P rỗng) Ta nói 𝑊𝐿(𝑃𝐴1 ) tổ tiên 𝑊𝐿(𝑃𝐴2 ), ký hiệu 𝑊𝐿(𝑃𝐴1 ) ⊳ 𝑊𝐿(𝑃𝐴2 ) ∀𝐶𝑖 ∈ 𝑊𝐿(𝑃𝐴2 ), ∃𝐶𝑗 ∈ 𝑊𝐿(𝑃𝐴1 ) cho Cj tổ tiên Ci Định lý 4.1: Cho PA1 PA2 hai mẫu phổ biến có trọng số (A1 đứng trước A2 theo thứ tự I1 P rỗng) a Nếu WL(PA1) ⊳ WL(PA2), PA2 khơng phải mẫu phổ biến đóng có trọng số b Nếu WL(PA1) ⊳ WL(PA2) ws(PA1) = ws(PA2), PA1 PA2 khơng phải mẫu phổ biến đóng có trọng số 4.3 Thuật tốn khai thác mẫu phổ biến đóng có trọng số dựa WN-list Thuật tốn 4.1: Thuật toán NFWCI Input: WD and minws Output: FWCIs Method name: NFWCI(WD, minws) Construction_WN_Tree(WD, minws) Scan WN-Tree to find {SWL(Ai), Ai ∈ I1} Set FWCIs ← ∅ 15 Find_FWCI(I1) Return FWCIs Procedure Find_FWCI(Is) for i ← |Is|-1 down to Inext = ∅ for j ← i -1 to WL(XiXj) ← WL_Intersection(WL(Xi), WL(Xj)) 10 if WL(Xi) ⊆ WL(Xj) then 11 Xi = Xi ⋃ Xj 12 for each Xk in Inext 13 update Xk = Xk ⋃ Xj 14 end for 15 if ws(Xi) = ws(Xj) then 16 Remove Xj 17 i18 end if 19 else 20 if ws(XiXj) ≥ minws and XiXj ∉ FWCIs then 21 Inext ← XiXj 22 end for 23 Find_FWCI(FWCInext) 24 FWCIs ← Xi 25 end for 4.4 Kết thực nghiệm Các thực nghiệm tiến hành để so sánh hiệu thuật toán đề xuất NFWCI với thuật tốn có WIT-FWCI-Diff (Vo (2017)), so sánh với thuật toán sở DiffNFWCI, áp dụng phương pháp khai thác dựa cấu trúc liệu DiffNodeset (Deng (2016)) Lí để tạo sử dụng thuật toán DiffNFWCI cho việc so sánh cấu trúc DiffNodeset cấu trúc liệu khai thác mẫu phổ biến Dữ liệu thực nghiệm thời gian chạy nhớ sử dụng bao gồm 09 liệu Accidents, Connect, PAMP, Chess, PowerC, OnlineRetail, Retail, Kosarak Sale_Fact_Sync Dữ liệu thực nghiệm khả mở rộng lấy từ hai liệu lớn Chainstore Susy 16 Kết thực nghiệm cho thấy thuật toán NFWCI chạy nhanh nhiều so với thuật toán WIT-FWCI-Diff DiffNFWCI liệu Accidents, Connect, Retail, PALM, Sale_Fact_sync, PowerC Kosarak Đặc biệt NFWCI thể vượt trội sở liệu lớn Kosarak PAMP Về nhớ sử dụng, thuật toán NFWCI thuật toán hiệu mặt nhớ sử dụng so sánh với hai thuật tốn cịn lại DiffNFWCI WIT-FWCI-Diff Về khả mở rộng, NFWCI tốt WIT-FWCI-Diff số lượng giao dịch tăng lên, WIT-FWCI-Diff số danh mục tăng lên Khả mở rộng nhớ sử dụng NFWCI DiffNFWCI tương đương so với WITFWCI-Diff 4.5 Đánh giá phương pháp đề xuất Đóng góp nội dung chương đề xuất thuật tốn hiệu NFWCI để khai thác mẫu phổ biến đóng có trọng số Thuật toán NFWCI xây dựng dựa cấu trúc WN-list Dựa việc giới thiệu khái niệm phép toán tổ tiên WN-list, định lý đề xuất để loại bỏ nhanh chóng ứng viên khơng thỏa mãn q trình khai thác mẫu phổ biến đóng có trọng số Kết thực nghiệm thực để so sánh hiệu thuật toán đề xuất so với thuật tốn có WIT-FWCI-Diff (Vo (2017)) thuật toán áp dụng phương pháp tiếp cận tương tự dựa cấu trúc liệu khai thác mẫu phổ biến DiffNodeset (Deng (2016)) Kết thực nghiệm thuật toán đề xuất có hiệu vượt trội so với thuật tốn lại mặt thời gian chạy, nhớ sử dụng khả mở rộng Kết nghiên cứu chương công bố cơng trình [CT.2] Thuật tốn NFWCI đề xuất xem thuật tốn tốt có khai thác mẫu phổ biến đóng có trọng số 17 CHƯƠNG KHAI THÁC TOP-RANK-K MẪU PHỔ BIẾN CÓ TRỌNG SỐ BẰNG CẤU TRÚC WN-LIST 5.1 Giới thiệu Trong nội dung chương này, luận án giới thiệu mô hình hóa tốn khai thác top-rank-k mẫu phổ biến có trọng số Khai thác top-rank-k mẫu phổ biến có trọng số xác định mẫu phổ biến có độ phổ biến trọng số nằm k ngưỡng lớn nhất, nhằm thỏa mãn nhu cầu người dùng mà khơng thời gian xem xét tồn mẫu phổ biến có trọng số Các chiến lược tăng ngưỡng tỉa nhánh sớm đề xuất đưa thuật toán TFWIN+ khai thác top-rank-k mẫu phổ biến có trọng số hiệu 5.2 Phương pháp đề xuất Chiến lược 5.1 (RTS - raising threshold strategy): Đầu tiên, tập top-rank-k ký hiệu TR rỗng, ngưỡng khởi tạo đặt minws = Khi tập FWI ký hiệu I tìm thấy, độ hỗ trợ trọng số khơng nhỏ ngưỡng minws, I thêm vào TR Nếu TR có nhiều k rank, ngưỡng minws tăng lên tới độ hỗ trợ trọng số mục cuối TR Định lý 5.1: Cho XA XB hai tập FWIs lớp tương đương Nếu ws(XA) < minws ws(XB) < minws XAB không thuộc TR Chiến lược 5.2 (EPS - early pruning strategy): Trong suốt thủ tục TFWIN_Plus_CandidateGen, thuật toán TFWIN+ không tạo ứng viên hai FWI cu cv với cu.ws < minws cv.ws < minws dựa Định lý 5.1 Bên cạnh đó, thuật tốn loại bỏ ứng viên có độ hỗ trợ trọng số nhỏ ngưỡng thủ tục Thuật toán 5.4 TFWIN+ algorithm Input: a weighted database WD and a threshold k Output: the complete set of top-rank-k FWI (TR) Let TR   and Ck   Build WN-tree from WD Determine I1 and its WN-lists 18 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 Sort I1 in weighted support ascending order for j = to m-1 if TR.count > and TR.last_entry.ws = I1[j].ws then Add I1[j] to TR.last_entry.list and I1[j] to Ck else Let R is new rank, R.ws = I1[j].ws and R.list.add(I1[j]) Add R to TR and I1[j] to Ck end for Let minws TR.last_entry.ws // using RTS while Ck ≠  C ← TFWIN_Plus_CandidateGen(Ck) Sort C in weighted support ascending order Let Ck  , x  and l  while l < C.count and x < TR.count if TR[x].ws = C[l].ws then Add C[l] to TR[x].list and C[l] to Ck l++ else if TR[x].ws > C[l].ws then Let R be the new rank R.ws = C[l].ws and R.list.add(C[l]) Insert R to TR at position x if TR.count > k then Remove the last tuple in TR Update minws TR.last_entry.ws // using RTS Add C[l] to Ck l++ else x++ end while if TR.count < k then Let t  min(k – TR.count, C.count - l + 1) For (x = l; x < l + t; x++) R.ws = C[x].ws and R.list.add(C[x]) Add R to TR end while Procedure TFWIN_Plus_CandidateGen(Ck) Let Cnext   for each cu  Ck for each cv  Ck with u < v 19 10 11 if cu and cv are in the same equivalence class then if cu.ws < minws or cv.ws < minws then Continue c.WN-list = cv.WN-list interest with cu.WN-list ∑𝑛 𝑤 c.ws = 𝑖=1 𝑖 𝑇𝑇𝑊 if c.ws < minws then Continue // Using EPS c = cu cv Add c to Cnext Return Cnext 5.3 Kết thực nghiệm Thực nghiệm so sánh thời gian chạy thuật toán TFWIT, TFWID, TFWIN TFWIN+ bốn liệu thực nghiệm Accident, Chess, Connect Pumsb Kết thực nghiệm cho thấy TFWIN+ thuật toán tốt khai thác top-rank-k mặt thời gian chạy TFWIN+ vượt trội TFWIT, TFWID TFWIN mặt nhớ sử dụng 5.4 Đánh giá phương pháp đề xuất Nội dung chương giới thiệu toán khai thác top-rank-k FWI, với cách tiếp cận kết hợp hai pha khai thác xếp hạng vào pha mà khơng cần tìm tất FWI, từ tăng hiệu hệ thống thông minh Các chiến lược tăng ngưỡng tỉa nhánh sớm áp dụng để tăng tính hiệu trình khai thác top-rank-k FWI Áp dụng chiến lược với hỗ trợ định lý, từ phát triển thuật tốn TFWIN+ để khai thác hiệu top-rank-k FWI Cuối cùng, thực nghiệm thực liệu chuẩn để so sánh mặt thời gian chạy nhớ sử dụng thuật tốn đề xuất nói Kết thực nghiệm cho thấy thuật toán TFWIN+ thuật toán tốt khai thác top-rank-k FWI mặt thời gian chạy nhớ sử dụng Nội dung nghiên cứu chương công bố cơng trình [CT.3] thuật tốn TFWIN+ thuật tốn tốt có khai thác top-rankk mẫu phổ biến có trọng số 20 CHƯƠNG KHAI THÁC MẪU PHỔ BIẾN CÓ TRỌNG SỐ THEO LUỒNG DỮ LIỆU BẰNG MƠ HÌNH CỬA SỔ TRƯỢT 6.1 Giới thiệu Trong chương này, luận án đề xuất thuật tốn để khai thác mẫu phổ biến có trọng số liệu tăng trưởng Đầu tiên, mơ hình khai thác mẫu phổ biến có trọng số theo luồng liệu giới thiệu dựa mơ hình cửa sổ trượt Sau đó, cấu trúc SWN-tree, phiên cải tiến WN-tree [CT.1], đề xuất để xây dựng liệu cửa sổ ban đầu Một thuật tốn trì SWN-tree trượt cửa sổ liệu xây dựng, nhằm mục đích tối ưu hóa q trình cập nhật liệu theo luồng liệu, hạn chế việc đọc lại toàn liệu cửa sổ trước Cuối cùng, thuật tốn tên FWPDOS (Frequent weighted patterns over data stream) đề xuất để khai thác mẫu phổ biến có trọng số theo luồng liệu dựa mơ hình cửa sổ trượt Kết thực nghiệm mặt thời gian xây dựng bảo trì cây, thời gian khai thác mẫu khả mở rộng cho thấy thuật toán đề xuất có hiệu vượt trội so với thuật tốn sở NFWI [CT.1] áp dụng luồng liệu 6.2 Thuật tốn khai thác mẫu phổ biến có trọng số theo luồng liệu mơ hình cửa sổ trượt Định nghĩa 6.1 (Cây SWN-tree): Cây SWN-tree bao gồm thành phần name, weight, pre, pos, child-list, parent Trong name định danh item, weight tổng trọng số dòng liệu chứa item, pre thứ tự duyệt trước, pos thứ tự duyệt sau, child-list danh sách nốt parent nốt cha Thuật tốn 6.2 Thuậtt tốn trì SWN-tree Input: SWN-tree R and T – new inserted transactions Output: Updated SWN-tree for the new window Method name: Maintaining_SWN_Tree(R, T) for each Ti in T Call Insert_tree(Ti, R) 21 for i  to |T| Let l be the first element in TAIL, N = l.Parent and t = 𝑙 𝑇𝐼𝐷 N.weight = N.weight – 𝑡𝑤(𝑡) if N.weight = then Let N’ = N.Parent Delete N Let N = N’ 10 else 11 N = N.Parent 12 while (N is not the ROOT of R) 13 Delete l in TAIL 14 Return R Thuật toán FWPODS đề xuất dựa kết hợp thuật tốn NFWI thuật tốn Maintaining_SWN_Tree nói để khai thác FWI thơng qua luồng liệu mơ hình cửa sổ trượt 6.3 Kết thực nghiệm Thực nghiệm so sánh thời gian xử lý thuật toán FWPODS thuật toán NFWI [CT.1] việc xây dựng trì liệu Accidents, Connect, Kosarak, Pumsb Retail Tổng thời gian xử lý lơ cửa sổ trượt FWPODS nhiều so với tổng thời gian tương ứng NFWI FWPODS thể khả mở rộng tốt mặt thời gian chạy kích thước cửa sổ trượt panel tăng lên 6.4 Đánh giá phương pháp đề xuất Trong chương luận án phát triển thuật toán FWPODS [CT.4] để khai thác mẫu phổ biến có trọng số theo luồng liệu Đầu tiên, mơ hình khai thác mẫu phổ biến có trọng số theo luồng liệu giới thiệu thông qua cách tiếp cận cửa sổ liệu trượt Sau đó, cấu trúc SWN-tree đề xuất từ việc cải tiến cấu trúc WN-tree [CT.1] để trì thơng tin hiệu theo luồng liệu Thuật toán FWPODS phát triển dựa SWN-tree Thực nghiệm thực kết thực nghiệm cho thấy hiệu phương pháp đề xuất khai thác mẫu phổ biến có trọng số theo mơ hình cửa sổ trượt 22 CHƯƠNG KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 7.1 Kết luận Trong luận án này, nghiên cứu sinh nghiên cứu, đề xuất cấu trúc liệu phát triển số thuật toán hiệu để giải số tốn khai thác mẫu mẫu đóng sở liệu có trọng số Đóng góp luận án đề xuất cấu trúc liệu WN-list thuật toán NFWI tương ứng để khai thác mẫu phổ biến có trọng số cách hiệu WN-list mở rộng cấu trúc N-list để biểu diễn liệu có trọng số Sự vượt trội cấu trúc WN-list đến từ ưu điểm sau: (1) Dữ liệu nén dạng FP-tree; (2) Quan hệ tổ tiên nốt xác định cách so sánh giá trị pre pos nốt; (3) Nội dung chuyển sang dạng tuyến tính theo dạng {(prei, posi, weighti)} tương ứng với WN-list tập danh mục phần tử trình khai thác thực đó; (4) Độ hỗ trợ trọng số ws tập danh mục tính dễ dàng tổng giá trị weighti WN-list nó; (5) Độ phức tạp phép giao WN-list O(n) kích thước WN-list kết giảm thiểu đáng kể nhờ vào việc kết hợp phần tử chung (pre, pos) lại với Thuật toán NFWI tận dụng ưu điểm cấu trúc WN-list để nén liệu cây, sau trích xuất khai thác WN-list 1-itemset phổ biến Các ứng viên lớp k tạo tương ứng từ lớp (k-1) phương pháp chia để trị phép giao WN-list với độ phức tạp tuyến tính Một số định lý đề xuất để tính độ phổ biến trọng số itemset dựa WN-list, xác định nhanh giá trị số trường hợp mà không cần thực phép giao WN-list Kết thực nghiệm nhiều loại sở liệu cho thấy thuật toán NFWI hoạt động hiệu thuật toán khai thác mẫu phổ biến có trọng số có Đóng góp thứ hai luận án đề xuất thuật toán NFWCI khai thác hiệu mẫu phổ biến đóng có trọng số dựa cấu trúc WN-list chiến lược 23 tỉa nhánh nhanh Nghiên cứu sinh giới thiệu khái niệm phép toán tổ tiên WNlist đề xuất định lý để loại bỏ nhanh ứng viên khơng thỏa mãn dựa phép tốn tổ tiên WN-list Thuật tốn NFWCI áp dụng tính chất phép giao WN-list kết hợp hai ứng viên không thỏa mãn lớp tương đương để giảm kích thước WN-list ứng viên kết hợp, từ tăng tốc tính tốn bước Thực nghiệm nhiều sở liệu thưa dày cho thấy hiệu thuật toán NFWCI so với thuật tốn có khai thác mẫu phổ biến đóng có trọng số Đóng góp thứ ba luận án giới thiệu mơ hình hóa tốn khai thác top-rank-k mẫu phổ biến có trọng số Khai thác top-rank-k mẫu phổ biến có trọng số xác định mẫu phổ biến có độ phổ biến trọng số nằm k ngưỡng lớn nhất, nhằm mục đích thỏa mãn nhu cầu người dùng mà khơng thời gian xem xét toàn mẫu phổ biến có trọng số Ba thuật tốn sở TFWIT, TFWID TFWIN đề xuất để giải tốn khai thác top-rank-k mẫu phổ biến có trọng số tương ứng dựa ba cấu trúc liệu hành tidset, diffset WN-list Các chiến lược tăng ngưỡng tỉa nhánh sớm đề xuất để cải tiến thuật tốn TFWIN, từ đề xuất thuật tốn TFWIN+ khai thác toprank-k mẫu phổ biến có trọng số Kết thực nghiệm mặt thời gian chạy nhớ sử dụng cho thấy thuật toán TFWIN+ thuật toán hiệu khai thác top-rank-k mẫu phổ biến có trọng số Cuối cùng, luận án mơ hình hóa tốn khai thác mẫu phổ biến có trọng số theo luồng liệu cách tiếp cận cửa sổ liệu trượt Khai thác mẫu phổ biến có trọng số theo luồng liệu giúp cho kết khai thác tiếp cận với nhu cầu người dùng theo giới hạn thời gian với chi phí nhớ tối thiểu Cấu trúc SWN-tree đề xuất sở cải tiến cấu trúc WN-tree, để xây dựng trì hiệu lưu liệu trượt theo cửa sổ liệu Thuật toán FWPODS xây dựng tảng SWN-tree để khai thác 24 hiệu mẫu phổ biến có trọng số theo luồng liệu, kết thực nghiệm liệu thưa dày chứng minh tính hiệu thuật tốn đề xuất Các kết nghiên cứu liên quan nội dung cơng bố bốn tạp chí chun ngành uy tín ([CT.1], [CT.2], [CT.3] [CT.4]) hội thảo chuyên ngành phản biện độc lập ([CT.5], [CT.6] [CT.7]) 7.2 Hướng phát triển Hướng phát triển nghiên cứu tương lai tập trung giải số toán khai thác mẫu sở liệu có trọng số là: khai thác tập đối đại có trọng số, khai thác mẫu phổ biến đóng có trọng số sở liệu tăng trưởng, khai thác mẫu phổ biến có trọng số sở liệu không chắn nghiên cứu triển khai giải pháp khai thác mẫu phổ biến có trọng số hệ thống multicore hệ thống phân tán Nghiên cứu sinh nghiên cứu cải tiến áp dụng cấu trúc WN-list để giải lớp toán khai thác mẫu sở liệu có trọng số, dạng sở liệu thông dụng hành ứng dụng IoT Bên cạnh đó, nghiên cứu sinh nghiên cứu việc áp dụng nội dung nghiên cứu vào giải toán ứng dụng cụ thể khai thác liệu văn khai thác liệu không gian Cuối cùng, nghiên cứu sinh nghiên cứu triển khai ứng dụng sử dụng tảng khai thác mẫu có trọng số khai thác đồ thị, khai thác mạng xã hội, khai thác liệu văn khai thác liệu IoT 25 DANH MỤC CƠNG BỐ KHOA HỌC Các cơng trình [CT.1] Bui, H., Vo, B., Nguyen, H., Nguyen-Hoang, T A., & Hong, T P (2018) A weighted N-list-based method for mining frequent weighted itemsets Expert Systems with Applications, vol 96, 388-405 (SCIE, 2018 IF= 4.292, Q1) [CT.2] Bui, H., Vo, B., Nguyen-Hoang, T A., & Yun, U (2020) Mining frequent weighted closed itemsets using the WN-list structure and an early pruning strategy Applied Intelligence, vol 51, no 3, 1439-1459 (SCIE, 2018 IF= 3.325, Q2) [CT.3] Vo, B., Bui, H., Vo, T., & Le, T (2020) Mining top-rank-k frequent weighted itemsets using WN-list structures and an early pruning strategy Knowledge-Based Systems, vol 201, 106064 (SCIE, 2019 IF= 5.921, Q1) [CT.4] Bui, H., Nguyen-Hoang, T A., Vo, B., Nguyen, H., & Le, T (2021) A Sliding Window-based Approach for Mining Frequent Weighted Patterns over Data Streams IEEE Access, vol 9, 56318-56329 (SCIE, 2019 IF=3.745, Q1) Các cơng trình có liên quan [CT.5] Bui, H., Vo, B., & Nguyen, H (2016) WUN-miner: A new method for mining frequent weighted utility itemsets In 2016 IEEE International Conference on Systems, Man, and Cybernetics (SMC) (pp 001365001370) IEEE [CT.6] Bùi Danh Hường, Võ Đình Bảy, Nguyễn Duy Hàm Khai thác tập phổ biến có trọng số dựa cấu trúc N-list Hội nghị Quốc gia lần thứ IX Nghiên cứu ứng dụng Công nghệ thông tin (FAIR) Cần Thơ, 2016 [CT.7] Bùi Danh Hường, Võ Đình Bảy, Nguyễn Hồng Tú Anh “SWUN-Miner: Phương pháp khai thác tập phổ biến có trọng số hữu ích” Hội thảo quốc gia lần thứ XX: Một số vấn đề chọn lọc Công nghệ thông tin truyền thông – Quy Nhơn, 2017 26 ... giải số toán khai thác mẫu sở liệu có trọng số là: khai thác tập đối đại có trọng số, khai thác mẫu phổ biến đóng có trọng số sở liệu tăng trưởng, khai thác mẫu phổ biến có trọng số sở liệu không... số thuật toán hiệu để giải số toán khai thác mẫu mẫu đóng sở liệu có trọng số Đóng góp luận án đề xuất cấu trúc liệu WN-list thuật toán NFWI tương ứng để khai thác mẫu phổ biến có trọng số cách... hiệu toán: khai thác mẫu phổ biến có trọng số, khai thác mẫu phổ biến đóng có trọng số, khai thác top-rank-k mẫu phổ biến có trọng số khai thác mẫu phổ biến có trọng số theo luồng liệu Các đóng

Định dạng
Số trang	28
Dung lượng	0,98 MB