Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 26 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
26
Dung lượng
877 KB
Nội dung
1 MỞ ĐẦU Khai phá luật kết hợp kỹ thuật quan trọng khai phá liệu Mục đích khai phá luật kết hợp tìm mối quan hệ phần tử khác sở liệu Bài toán khai phá tập luật kết hợp gồm hai toán khai phá tập phổ biến sinh luật kết hợp Trong đó, tốn khai phá tập phổ biến thu hút nhiều nhà nghiên cứu nước giới quan tâm Nhưng khai phá tập phổ biến truyền thống thực tế nhiều hạn chế, không đáp ứng nhu cầu người sử dụng đánh giá quan trọng phần tử giao dịch hay sở liệu Để khắc phục hạn chế khai phá tập phổ biến truyền thống, nhiều nhà nghiên cứu đề xuất mơ hình mở rộng có tính đến mức độ quan trọng khác phần tử sở liệu như: khai phá tập phổ biến có trọng số WFI; khai phá tập lợi ích cao - HUI Một thách thức khai phá tập phổ biến có trọng số tập lợi ích cao tập phổ biến có trọng số, tập lợi ích cao khơng có tính chất đóng - tính chất làm giảm số lượng ứng viên sinh khơng gian tìm kiếm Hầu hết thuật tốn khai phá tập lợi ích cao sử dụng tính chất đóng lợi ích trọng số giao dịch – TWU Liu cộng cơng bố năm 2005 Tuy nhiên, ngưỡng TWU cịn cao so với lợi ích thực tế tập phần tử, cịn phát sinh số lượng lớn ứng viên không cần thiết, tiêu tốn thời gian khơng gian tìm kiếm Trên sở nghiên cứu, nhận xét đánh giá trên, nghiên cứu sinh chọn đề tài “Nghiên cứu phát triển mơ hình, thuật tốn khai phá tập phần tử có trọng số lợi ích cao” làm đề tài nghiên cứu cho luận án tiến sĩ Mục tiêu nghiên cứu - Nghiên cứu thuật toán khai phá tập phổ biến, tập phổ biến có trọng số tập lợi ích cao Xây dựng mơ hình, điều kiện, cấu trúc liệu nhằm giảm khơng gian tìm kiếm dựa sở để xây dựng thuật tốn khai phá tập phổ biến có trọng số tập lợi ích cao TỔNG QUAN VỀ KHAI PHÁ TẬP PHỔ BIẾN 1.1 Giới thiệu chung Khai phá tập phổ biến tìm tập phần tử có số lần xuất lớn ngưỡng hỗ trợ tối thiểu (minsupp) Tuy nhiên, khai phá tập phổ biến có hạn chế Thứ nhất, xử lý tất phần tử có tầm quan trọng Thứ hai, giao dịch phần tử có trạng thái xuất không xuất Rõ ràng hạn chế làm cho toán khai phá tập phổ biến truyền thống không phù hợp với sở liệu thực tế, ví dụ sở liệu siêu thị, mặt hàng có tầm quan trọng hay giá khác nhau, số lượng mua mặt hàng giao dịch khác nhau,… Vì vậy, mơ hình khai phá tập phổ biến phản ánh mối tương quan phần tử xuất sở liệu, không phản ánh ý nghĩa phần tử liệu Để khắc phục nhược điểm có hai mơ hình đưa ra: Tập phổ biến có trọng số - WFI Tập lợi ích cao - HUI 1.2 Tập phổ biến Khai phá tập phổ biến trình tìm kiếm tập phần tử có số lần xuất lớn ngưỡng cho trước sở liệu lớn R Agrawal, T Imielinski A Swami đề xuất năm 1993, xuất phát từ nhu cầu tốn phân tích liệu sở liệu giao dịch, để phát mối quan hệ tập hàng hóa bán siêu thị Việc xác định không phân biệt khác hàng hóa mà dựa vào xuất chúng Một số phương pháp khai phá tập phổ biến: - Phương pháp dựa quan hệ kết nối - Phương pháp sử dụng cấu trúc - Phương pháp tăng trưởng đệ quy dựa hậu tố - Một số phương pháp song song 1.3 Tập phổ biến có trọng số Năm 1998, nhóm Ramkumar đưa mơ hình khai phá tập phổ biến có trọng số (Weight Frequent Itemsets – WFI) Trong đó, phần tử có trọng số khác như: lợi ích, giá cả, độ quan trọng hay số lượng,…Một tập phần tử phổ biến có trọng số giá trị có trọng số chúng lớn ngưỡng cho trước Dựa mô hình có nhiều thuật tốn khai phá tập phổ biến có trọng số cơng bố Một số phương pháp khai phá tập phổ biến có trọng số: - Thuật toán dựa khoảng trọng số - Thuật toán sử dụng bảng băm - Thuật toán dựa trọng số phổ biến xấp xỉ - Thuật toán dựa WIT 1.4 Đề xuất thuật toán khai phá mẫu phổ biến có trọng số theo chiều dọc Dựa ưu điểm thuật toán VMDG khai phá tập phổ biến, đề xuất thuật toán khai phá tập phổ biến có trọng số với tên gọi VMWFP (Vertical Mining of Weighted Frequent Patterns Using Diffset Groups) sử dụng cấu trúc Từ thuật toán VMWFP xây dựng thuật tốn song song PVMWFP mơ hình chia sẻ nhớ Kết thử nghiệm sở liệu với 52 phần tử 3984 giao dịch sinh ngẫu nhiên để tiến hành so sánh thuật toán song song PVMWFP với thuật toán VMWFP kết Hình 1.1 Thởi gian thực (s) Hình 1.1 Kết so sánh PVMWFP VMWFP 150 100 50 90 80 70 Độ hỗ trợ (%) PVMWFP 60 50 VMWFP 1.5 Tập lợi ích cao Năm 2003 Chan cộng đưa mơ hình khai phá tập lợi ích cao (High Utility Itemsets – HUI), để khắc phục hạn chế mơ hình khai phá tập phổ biến tập phổ biến có trọng số Trong mơ hình cho phép người sử dụng đánh giá tầm quan trọng phần tử qua hai trọng số khác gọi lợi ích lợi ích ngồi Năm 2005, Ying Liu cộng đưa khái niệm lợi ích giao dịch có trọng số tập phần tử X, ký hiệu TWU(X) tính tổng lợi ích giao dịch có chứa tập phần tử X Đây giá trị có tính chất đóng, tính chất đảm bảo TWU(X) nhỏ ngưỡng lợi ích tối thiểu tập X khơng có khả sinh tập lợi ích cao chứa tập X Một thách thức khai phá tập lợi ích cao: - Tập lợi ích khơng có tính chất đóng, tính chất đảm bảo tập tập lợi ích cao tập tập lợi ích cao - Đa số thuật tốn khai phá tập lợi ích cao sử dụng ngưỡng TWU để cắt tỉa tập ứng viên Đây ngưỡng cao nhiều so với giá trị lợi ích thực tế tập phần tử Do vậy, số lượng ứng cử viên sinh lớn dẫn đến khơng gian tìm kiếm thời gian kiểm tra ứng viên có chi phí cao Một số phương pháp khai phá tập lợi ích cao hiệu gần như: sử dụng danh sách lợi ích (utility-list) Liu (2012); bảng số kết hợp bảng ứng viên Guo (2013); ước tính lợi ích cặp phần tử xuất Philippe (2014); sử dụng dụng lợi ích (utility sub-tree) và lợi ích cục (local utility) Zida (2016) THUẬT TỐN KHAI PHÁ TẬP LỢI ÍCH CAO DỰA TRÊN MƠ HÌNH CWU 2.1 Mơ hình hiệu khai phá tập lợi ích cao Đặt vấn đề Như biết, đa số thuật toán khai phá tập lợi ích cao phân tích sử dụng mơ hình TWU làm sở để cắt tỉa tập ứng viên Với phần tử a, tập phần tử {X} tập phần tử có a tiền tố {aX}, ta có TWU({aX}) cận AU({aX}) Tương tự, có TWU({X}) cận AU({X}) Ta thấy {X} {aX} nên số giao dịch chứa {X} lớn số giao dịch chứa {aX} Vậy, TWU({X}) tổng lợi ích giao dịch chứa {X} lớn TWU({aX}) tổng lợi ích giao dịch chứa {aX} Trong thuật tốn khai phá tập lợi ích cao theo chiều sâu Giả sử, {aX} tất tập có tiền tố phần tử a, {bX} tất tập có tiền tố phần tử b Khi khai phá tập {bX} không cịn chứa phần tử a Nhưng tính TWU({bX}) gồm giá trị lợi ích phần tử a Điều làm TWU({bX}) cận AU({bX}) lớn mức cần thiết dùng TWU({bX}) để tỉa tập ứng viên không hiệu Từ phân tích trên, luận án đề xuất mơ hình CWU (Candidate Weight Utility) thuật tốn HP khai phá tập lợi ích cao dựa mơ hình nhằm giảm số lượng tập ứng viên [II] Đề xuất mơ hình CWU Từ nhận xét trên, luận án đề xuất mơ hình CWU để khắc phục nhược điểm mơ hình TWU Định nghĩa 2.1 [II] Tập tiền tố phần tử It tập phần tử tập I mà đứng trước phần tử It: SetPrefix(It) = {∪ j ∈ I | j ≺ It} Định nghĩa 2.2 [II] Tiền tố tập phần tử có thứ tự Y tập phần tử I đứng trước phần tử y1 tập Y, kí hiệu SetPrefix(Y) SetPrefix(Y) = {∪ j ∈ I | j ≺ y1} (2.1) Định nghĩa 2.3 [II] Lợi ích ứng viên có trọng số (CWU – Candidate Weighted Utility) tập phần tử Y, ký hiệu CWU(Y) xác định sau:Đặt X = SetPrefix(Y), Nếu X = ∑ Y Tj 𝑈(𝑋 ∩ 𝑇𝑗 , 𝑇𝑗 ) = Định nghĩa 2.4 [II] Khi CWU(Y) ≥ α với α ngưỡng tối thiểu lợi ích ứng viên cho trước, ta gọi Y tập lợi ích ứng viên có trọng số cao (HCWU- High Candidate Weighted Utility) Ngược lại, Y gọi tập lợi ích ứng viên có trọng số thấp (LCWU – Low Candidate Weighted Utility) Tính chất 2.1 [II] Cho tập phần tử có thứ tự I, Yk-1,Yk thỏa mãn Yk-1 I, Yk I Yk-1 tiền tố Yk Cụ thể: Yk-1 = {y1, y2,…, yk-1 | yi ≺ yi+1 với i=1 k-2} tiền tố tập Yk = {y1, y2,…, yk-1, yk | yi ≺ yi+1 với i=1 k-1} SetPrefix(Yk-1) = SetPrefix(Yk) Định lý 2.1 [II] Xét tập phần tử có thứ tự, Yk tập k-phần tử, Yk-1 tập (k-1)-phần tử tiền tố Yk Nếu Yk HCWUs Yk-1 HCWUs Đây tính chất đóng tập phần tử theo mơ hình CWU Nghĩa là, CWU(Yk-1) < α CWU(Yk) < α Định lý 2.2 [II] Giả sử HCWUs gồm tập Y có CWU(Y) ≥ α, HUs gồm tập Y có AU(Y) ≥ α với α ngưỡng lợi ích tối thiểu cho trước Khi HUs HCWUs Để khẳng định mơ hình CWU có số ứng viên mơ hình TWU, luận án đưa hai bổ đề sau Mệnh đề 2.1 [II] Cho tập Y, ta ln có CWU(Y) ≤ TWU(Y) Mệnh đề 2.2 [II] Cho HCWUs gồm tập Y có CWU(Y) ≥ α HTWUs gồm tập Y có TWU(Y) ≥ α, với α ngưỡng lợi ích tối thiểu cho trước, HCWUs HTWUs 2.2 Thuật toán HP khai phá tập lợi ích cao dựa số hình chiếu mơ hình CWU Trong phần này, luận án trình bày thuật toán HP cải tiến từ thuật toán PB Gou (2013) với số cải tiến sau: - Sử dụng kết hợp hai mơ hình TWU CWU; - Sếp phần tử giao dịch giảm dần theo AU sau loại phần tử nhỏ ngưỡng lợi ích tối thiểu Một số cấu trúc sử dụng thuật toán: - Bảng ứng viên TCk gồm: tập k-phần tử, lợi ích ứng viên có trọng số - CWU lợi ích thực tế tập ứng viên - AU 10 - Bảng số ITX tập X gồm: giao dịch Tj chứa tập X, vị trí p phần tử cuối tập X xuất giao dịch Tj U(X,Tj) Từ bảng số ITX gồm k-phần tử tính nhanh tập ứng viên gồm (k+1)-phần tử với tiền tố tập phần tử X - Bảng giao dịch lợi ích - UTi chứa giá trị lợi ích phần tử i giao dịch gồm: giao dịch Tj chứa i U(i, Tj) Sau tìm tất tập lợi ích cao với tiền tố phần tử i dựa vào bảng UTi tính CWU(Y) với phần tử i = ListItemPrefix(Y) Kết thực nghiệm Kết thử nghiệm, so sánh thuật toán HP với thuật toán Two Phase, PB liệu T30I4D100K Mushroom Hình 2.1 Số lượng ứng viên Hình 2.2 Thời gian thực sinh T30I4D100K T30I4D100K 12 - Bảng số ITX tập X gồm: giao dịch Tj chứa tập X; vị trí p phần tử cuối tập X xuất giao dịch Tj; itutil(X, Tj) – giá trị lợi ích tập X giao dịch Tj; rutil(X, Tj) – giá trị lợi ích phần tử cịn lại sau tập X giao dịch Tj Kết thực nghiệm Kết thử nghiệm, so sánh thuật toán PPB-Miner với thuật toán HP [II] liệu T30I4D100K Mushroom Hình 2.5 so sánh thời gian thực khai phá tập lợi ích cao thay đổi ngưỡng lợi ích tối thiểu, Hình 2.6 so sánh số lượng ứng viên sinh tương ứng với ngưỡng lợi ích tối thiểu khác Hình 2.7 Hình 2.8 so sánh thời gian thực khai phá tập lợi ích cao số ứng viên sinh hai thuật tốn tương ứng với ngưỡng lợi ích tối thiểu khác liệu Mushroom Hình 2.5 Thời gian thực Hình 2.6 Số lượng ứng viên T30I4D100K sinh T30I4D100K 13 Hình 2.7 Thời gian thực Mushroom Hình 2.8 Số lượng ứng viên sinh Mushroom 2.4 Thuật toán CTU-PRO+ Thuật toán CTU-PRO+ [III] cho khai phá tập lợi ích cao cải tiến từ thuật toán CTU-PRO sử dụng mơ hình CWU [II] giới thiệu phần 2.2 Thuật toán CTU-PRO+ sử dụng cấu trúc mẫu lợi ích nén, phần tử xếp tăng dần theo lợi ích AU để phần tử có lợi ích cao tiền tố tập lợi ích khai phá trước Sau đó, giá trị CWU cập nhật lại cách trừ lợi ích tiền tố khai phá Một số cấu trúc Các phần tử CSDL đánh số 1, 2, 3,… theo thứ tự tăng dần theo AU Bảng phần tử chung – GlobalItemTable gồm phần tử ứng viên lợi ích có trọng số cao xếp tăng dần theo AU Trong bảng gồm: số (index), phần tử (item), lợi ích đơn vị phần tử (utility), tổng số lượng phần tử (quantity), lợi ích ứng viên có trọng số (CWU), lợi ích thực tế phần tử (AU) trỏ trỏ đến gốc nhánh mẫu lợi ích nén chung (GlobalCUP-Tree) 14 Mỗi nút GlobalCUP-Tree bao gồm: số (index), mảng CWU tương ứng với giá trị lợi ích ứng viên có trọng số tập, mảng trỏ chứa số lượng tương ứng phần tử giao dịch, trỏ trỏ đến nút anh em mức, trỏ trỏ đến nút cha Mảng CWU[] = {T0, T1,…, Tn}, đó: Ti giá trị CWU tập phần tử từ nút số i đến nút chứa Ti Tập I = {i1, i2,…, in} tập hợp phần tử HCWU giao dịch ánh xạ tương ứng với số GlobalItemTable sau chèn số index vào mẫu lợi ích nén, nút gốc nhánh trỏ trỏ PST phần tử i1 GlobalItemTable Kết thực nghiệm Kết thử nghiệm, so sánh thuật toán CTU-PRO+ với thuật toán TwoPhase, CTU-PRO so sánh thời gian thực liệu T5N5D100K T10N5D100K với ngưỡng lợi ích tối thiểu khác Hình 2.9 Thời gian thực Hình 2.10 Thời gian thực T5N5D100K T10N5D100K 15 THUẬT TOÁN KHAI PHÁ TẬP LỢI ÍCH CAO TRÊN CÂY DANH SÁCH LỢI ÍCH VÀ ĐIỀU KIỆN RTWU 3.1 Cấu trúc liệu hiệu cho khai phá tập lợi ích cao Trong thuật tốn khai phá tập lợi ích cao sử dụng cấu trúc có hạn chế nút lưu trữ phần tử, dẫn đến khả nén không cao Hơn nữa, phần tử xếp giảm dần theo TWU nên số nút nhiều xếp giảm dần theo tần suất làm tốn không gian lưu trữ tìm kiếm Năm 2012, Liu cộng (2012) trình bày thuật tốn khai phá tập lợi ích cao khơng sinh viên ứng viên Trong thuật tốn nhóm tác giả sử dụng cấu trúc danh sách lợi ích (utility list) để lưu trữ thông tin tập phần tử thơng tin cắt tỉa khơng gian tìm kiếm Để khắc phục hạn chế cấu trúc tận dụng ưu điểm danh sách lợi ích, phần luận án trình bày cấu trúc mẫu lợi ích nén (CUP) kết hợp danh sách lợi ích, nút chứa tập phần tử danh sách lợi ích Cấu trúc cắt tỉa hiệu tập ứng viên làm giảm khơng gian tìm kiếm lưu trữ Trong phần tử xếp giảm dần theo tần suất xuất hiện, làm giảm số nút xuất so với việc xếp theo TWU Mô tả cấu trúc CUP 16 Trong phần này, luận án trình bày khái niệm, cấu trúc CUP Quá trình xây dựng CUP mô tả chi tiết thuật tốn phần cuối Hình 3.1 Ví dụ nút CUP Ví dụ Hình 3.1, mơ tả nút N CUP bao gồm: N.Itemset, N.IUtil, N.RUtil, N.TList, N.UList, N.Parent, N.Links N.Childs Trong đó, N.Itemsets tập phần tử nút, N.IUtil giá trị lợi ích N.Itemsets, N.RUTil lợi ích cịn lại N.Itemsets, N.TList danh sách giao dịch chứa N.Itemsets, N.UList danh sách lợi ích phần tử N.Itemsets tương ứng với N.TList, N.Parent trỏ trỏ đến cha nút N, N.Links danh sách trỏ trỏ đến nút có phần tử cây, N.Childs danh sách trỏ trỏ đến nút Q trình xây dựng CUP gồm bước mô tả sau: Để đơn giản luận án mô tả q trình chèn phần tử vào cây, cịn phần tính tốn giá trị RUtil, TList, UList mơ tả phần mơ tả thuật tốn Bước 1, duyệt liệu lần để đếm độ hỗ trợ (support) tính TWU cho phần tử 17 Bước 2, duyệt giao dịch, đưa phần tử có TWU lớn ngưỡng lợi ích tối thiểu vào danh sách Sau xếp phần tử giảm dần theo tần suất Bước 3, xây dựng CUP Thực chèn cách lưu giao dịch vào danh sách phần tử chèn danh sách phần tử vào nút gốc sau: Bước 3.1, kiểm tra nút N nút so sánh phần tử N.Itemset với phần tử danh sách chèn lại với khả xảy sau: - Nếu tất phần tử giống thêm tid vào TList - Nếu khơng có nhiều phần tử giống tạo nút nút gồm: itemsets phần tử cịn lại danh sách - Nếu có nhiều phần tử giống nút N gồm phần giống nhau, phần tử khác lại nút N thành nút nút N, phần tử khác danh Thuật toán khai phá tập lợi HUI-Growth Sau xây dựng CUP tập lợi ích cao tìm phương pháp đệ quy tương tự thuật tốn FP-Growth Han (2000) Q trình khai phá tập lợi ích cao CUP duyệt từ lên dựa vào bảng HeaderTable Đầu tiên, lấy phần tử cuối bảng HeaderTable, dựa vào trỏ liên kết trỏ vào nút Ni để tìm mẫu điều kiện với hậu tố Chi tiết thuật tốn mơ tả phía Kết thực nghiệm 18 Trong phần này, luận án so sánh kết thực thuật toán HUI-Growth [IV] với thuật toán: UP-Growth, HUI-Miner Kết thử nghiệm, Hình 3.2 Hình 3.3 so sánh thời gian thực với ngưỡng lợi ích khác với hai liệu Mushroom T40I4D100K Hình 3.2 Thời gian thực với liệu Mushroom Hình 3.3 Thời gian thực với liệu T40I4D100K 3.2 Điều kiện RTWU cho tỉa tập ứng viên Thuật tốn FHM nhóm Fournier-Viger (2014) hạn chế phép nối có chi phí cao thuật tốn HUI-Miner dựa tính chất đóng TWU (Transaction-Weighted Utility) Đó là, khơng kết nối tập sinh có chứa cặp (x, y) mà TWU(x, y) nhỏ ngưỡng lợi ích tối thiểu cho trước Tuy nhiên, phân tích TWU ngưỡng cao mức cần thiết Trong thuật toán FHM để giảm số lượng phép nối phương pháp cắt tỉa ước lượng giá trị lợi ích xuất (EUCP - Estimated Utility Co-occurrence Pruning) dựa cấu trúc ước lượng giá trị lợi ích xuất (EUCS - Estimated Utility Co-Occurrence Structure) Một cách cụ thể thuật toán FHM sử dụng EUCS để lưu trữ TWU tất cặp phần tử (a, b) Dựa vào tính chất đóng TWU, tất tập chứa cặp phần tử (a, b) có TWU(ab) nhỏ ngưỡng lợi ích tối thiểu 19 khơng phải tập lợi ích cao để ngừng việc ghép nối danh sách lợi ích Tuy nhiên, thuật tốn FHM khai phá tập lợi ích cao theo chiều sâu Giả sử, phần tử xếp theo thứ tự từ điển, {aX} tất tập có tiền tố phần tử a, {bX} tất tập có tiền tố phần tử b Như vậy, tập chứa {bX} khơng cịn chứa phần tử a Nhưng tính TWU({bX}) gồm giá trị lợi ích phần tử a Điều làm TWU({bX}) cận U({bX}) lớn mức cần thiết dùng TWU({bX}) để tỉa tập ứng viên không hiệu Để khắc phục nhược điểm thuật toán FHM, luận án đề xuất cấu trúc RTWU (Retail Transaction-Weighted Utility), xây dựng thuật toán EAHUI-Miner sử dụng cấu trúc RTWU thuật tốn song song PEAHUI-Miner theo mơ hình hạt mịn (fine-grain) từ thuật toán EAHUI-Miner Định nghĩa 3.1 [VI] Danh sách lợi ích mở rộng tập phần tử Px ký hiệu exLstPx định nghĩa danh sách phần tử, phần tử bao gồm bốn trường: tid, iutil, itemutil rutil, đó: - tid định danh giao dịch chứa Px iutil lợi ích tập phần tử P giao dịch tid chứa Px itemutil lợi ích phần tử x giao dịch tid chứa Px rutil lợi ích cịn lại phần tử lại giao dịch tid chứa Px, tính từ phần tử sau phần tử x 20 Ngồi ra, danh sách lợi ích mở rộng tập Px cịn có trường sau: - sumiutils tổng lợi ích tập phần tử P giao dịch tid chứa Px sumitemutils tổng lợi ích phần tử x giao dịch tid chứa Px sumrutils tổng lợi ích cịn lại giao dịch có thứ tự tid chứa Px, bắt đầu tính từ phần tử sau phần tử x Định nghĩa 3.2 [VI] Giá trị lợi ích giao dịch cịn lại cặp phần tử xy giao dịch Tj chứa cặp phần tử xy tổng lợi ích phần tử cịn lại giao dịch có thứ tự Tj tính từ phần tử x Kí hiệu RTWU(xy, Tj), [Tj\ SetPrefix(xy)] – giao dịch Tj chứa cặp phần tử xy bỏ phần tử đứng trước phần tử x Định nghĩa 3.3 [VI] Giá trị lợi ích giao dịch cịn lại cặp phần tử xy CSDL tổng giá trị lợi ích giao dịch lại cặp phần tử xy giao dịch Tj chứa cặp phần tử xy CSDL Kí hiệu RTWU(xy) Định nghĩa 3.4 [VI] Cấu trúc RTWU xác định tập ba: (x; y; c) ∈ I x I x R Trong đó: - I tập phần tử thuộc sở liệu; 21 - x, y phần tử thuộc I (x đứng trước y theo cách xếp đó); R tập số thực c = RTWU(xy) Định lý 3.1 [VI] Cho hai tập Px, Py mở rộng tập P hai danh sách lợi ích mở rộng Px Py exLstPx exLstPy Nếu min(exLstPx.sumiutls, exLstPy.sumiutls) + RTWU(xy) < minUtil Pxy các tập mở rộng tập lợi ích thấp Dựa Định lý 3.1, luận án đề xuất cải tiến thuật toán FHM dựa cấu trúc RTWU, trình bày phần tiếp 3.3 Thuật tốn EAHUI-Miner dựa điều kiện RTWU Trong thuật tốn EAHUI-Miner gồm phần chính: - Xây dựng danh sách lợi ích mở rộng Khai phá tập lợi ích cao EAHUI-Miner Danh sách lợi ích mở rộng tập chứa phần tử xây dựng theo Định nghĩa 3.1 với tập P rỗng (nghĩa iutil=0) quét CSDL lần 3.3.1 Thuật toán song song PEAHUI-Miner Thuật toán PEAHUI-Miner xây dựng tảng OpenMP hỗ trợ lập trình song song mơi trường nhở chia sẻ Thuật toán song song phân tải động theo mơ hình hạt mịn (finegrain) nhằm nâng cao khả cân tải tiến trình 22 3.3.2 Kết thực nghiệm Số lượng ứng viên:Bảng 3.1 thể số lượng tập ứng viên hai thuật toán sinh Kết cho thấy thuật toán FHM sinh nhiều tập ứng viện so với thuật toán EAHUI-Miner Bảng 3.1 So sánh số lượng tập ứng viên Dataset minutil FHM EAHUI-Miner 10I4D100K 2500 153.016 125.647 10I4D100K 2500 153.016 125.647 Foodmart 1000 259.876 258.921 Mushroom 100K 1.588.018 1.587.927 Thời gian thực Thời gian thực thuật toán: EFIM, FHM EAHUI-Miner thể hình Hình 3.4, Hình 3.5, Hình 3.6 Hình 3.7 Kết cho thấy, thuật tốn EFIM thực nhanh sở liệu mà kích thước tập phần tử I nhỏ, cịn hai thuật tốn FHM EAHUI-Miner thực nhanh thuật toán EFIM sở liệu mà kích thước tập phần tử I lớn Hình 3.4 Thời gian thực Hình 3.5 Thời gian thực Mushroom Foodmart 23 Hình 3.6 Thời gian thực Hình 3.7 Thời gian thực T10I4D100K T10I4D200K Hình 3.8 Hình 3.9 so sánh thời gian thực thuật toán EAHUI-Miner thuật toán song song PEAHUIMiner sở liệu T10I4D100K, T10I4D200K Hình 3.8 Thời gian thực Hình 3.9 Thời gian thực T10I4D100K T10I4D200K 24 KẾT LUẬN VÀ KIẾN NGHỊ Kết luận án: Với mục tiêu xây dựng mơ hình, cấu trúc liệu thuật toán nhằm nâng cao hiệu thuật toán khai phá tập phổ biến có trọng số tập lợi ích cao Luận án đạt kết sau: Mơ hình lợi ích ứng viên có trọng số (CWU – Candidate Weighted Utility) [II] dựa phân tích cho thấy mơ hình TWU nhiều thuật toán sử dụng để cắt tỉa ứng viên khơng hiệu đánh giá ngưỡng cao nhiều so với giá trị lợi ích thực tế Từ mơ hình CWU đề xuất hai thuật tốn khai phá tập lợi ích cao HP [II] sử dụng số hình chiếu, CTU-PRO+ [III] sử dụng cấu trúc cho số lượng ứng viên thời gian thực nhanh so với số thuật toán Cấu trúc RTWU (Remaining Transaction-Weighted Utility) dựa giá trị lợi ích giao dịch cịn lại kết hợp với danh sách lợi ích mở rộng cặp phần tử cho cắt tỉa tập ứng viên Phân tích thuật tốn FHM [26] cho thấy để làm giảm chi phí kết nối (join) danh sách lợi ích dựa vào lưu trữ giá trị TWU cặp phần tử Tuy nhiên, mô hình TWU đánh giá khơng hiệu cho cắt tỉa ứng viên Do đó, luận án đề xuất cấu trúc RTWU làm giảm chi phí kết nối tập ứng viên Dựa cấu trúc RTWU, đề xuất thuật toán EAHUI-Miner [VI] 25 khai phá tập lợi ích cao thuật toán song song PEAHUIMiner [VI] khai phá tập lợi ích cao cho kết thực nghiệm có số lượng tập ứng viên thời gian thực nhanh sở liệu thưa nhiều giao dịch Thuật toán song song PPB khai phá tập lợi ích cao kết hợp số hình chiếu, danh sách lợi ích phương pháp lưu trữ giá trị lợi ích phần tử giao dịch để tính nhanh giá trị iutil rutil danh sách lợi ích Cấu trúc mẫu lợi ích nén (CUP) kết hợp với danh sách lợi ích [IV] Mỗi nút CUP lưu trữ tập phần tử danh sách lợi ích Các phần tử xếp giảm dần theo tần suất xuất cho số nút Để khai phá tập lợi ích cao CUP, luận án đề xuất thuật toán HUI-Growth [IV] Thuật toán VMWFP [I] khai phá tập phổ biến lợi ích cao dựa cấu trúc diffset Từ thuật tốn VMWFP cho thấy nhóm, lớp nhóm xử lý độc lập Do đó, luận án đề xuất thuật toán song song PVMWFP [I] mơ hình chia sẻ nhớ Hướng phát triển Luận án tập trung vào bước quan trọng khai phá luật kết hợp khai phá tập phổ biến có trọng số tập lợi ích 26 cao Cụ thể, đề xuất mơ hình, cấu trúc, thuật tốn song song khai phá tập phổ biến có trọng số tập lợi ích cao sở liệu giao dịch Tuy nhiên, khối lượng liệu ngày lớn phức tạp, cần có có cấu trúc thuật tốn phù hợp Do vậy, luận án tiếp tục hướng nghiên cứu sau: Nghiên cứu mơ hình, cấu trúc thuật tốn hiệu khai tập phổ biến có trọng số tập lợi ích cao Đưa kỹ thuật khai phá liệu mờ vào thuật toán đề xuất Cài đặt, thử nghiệm thuật toán tảng lập trình Hadoop mơ hình Map-Reduce cho toán liệu lớn ...2 Trên sở nghiên cứu, nhận xét đánh giá trên, nghiên cứu sinh chọn đề tài ? ?Nghiên cứu phát triển mơ hình, thuật tốn khai phá tập phần tử có trọng số lợi ích cao? ?? làm đề tài nghiên cứu cho luận... Tập lợi ích khơng có tính chất đóng, tính chất đảm bảo tập tập lợi ích cao tập tập lợi ích cao - Đa số thuật toán khai phá tập lợi ích cao sử dụng ngưỡng TWU để cắt tỉa tập ứng viên Đây ngưỡng cao. .. T10N5D100K 15 THUẬT TOÁN KHAI PHÁ TẬP LỢI ÍCH CAO TRÊN CÂY DANH SÁCH LỢI ÍCH VÀ ĐIỀU KIỆN RTWU 3.1 Cấu trúc liệu hiệu cho khai phá tập lợi ích cao Trong thuật tốn khai phá tập lợi ích cao sử dụng