1. Trang chủ
  2. » Luận Văn - Báo Cáo

Nghiên cứu phát triển mô hình, thuật toán khai phá tập phần tử có trọng số và lợi ích cao tt

28 9 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 28
Dung lượng 379,45 KB

Nội dung

1 MỞ ĐẦU Khai phá luật kết hợp kỹ thuật quan trọng khai phá liệu Mục đích khai phá luật kết hợp tìm mối quan hệ phần tử khác sở liệu Bài toán khai phá tập luật kết hợp gồm hai toán khai phá tập phổ biến sinh luật kết hợp Trong đó, tốn khai phá tập phổ biến thu hút nhiều nhà nghiên cứu nước giới quan tâm Nhưng khai phá tập phổ biến truyền thống thực tế nhiều hạn chế, không đáp ứng nhu cầu người sử dụng đánh giá quan trọng phần tử giao dịch hay sở liệu Để khắc phục hạn chế khai phá tập phổ biến truyền thống, nhiều nhà nghiên cứu đề xuất mơ hình mở rộng có tính đến mức độ quan trọng khác phần tử sở liệu như: khai phá tập phổ biến có trọng số - WFI; khai phá tập lợi ích cao - HUI Một thách thức khai phá tập phổ biến có trọng số tập lợi ích cao tập phổ biến có trọng số, tập lợi ích cao khơng có tính chất đóng - tính chất làm giảm số lượng ứng viên sinh khơng gian tìm kiếm Hầu hết thuật tốn khai phá tập lợi ích cao sử dụng tính chất đóng lợi ích trọng số giao dịch – TWU Liu cộng công bố năm 2005 Tuy nhiên, ngưỡng TWU cịn cao so với lợi ích thực tế tập phần tử, cịn phát sinh số lượng lớn ứng viên không cần thiết, tiêu tốn thời gian khơng gian tìm kiếm Trên sở nghiên cứu, nhận xét đánh giá trên, nghiên cứu sinh chọn đề tài “Nghiên cứu phát triển mơ hình, thuật tốn khai phá tập phần tử có trọng số lợi ích cao” làm đề tài nghiên cứu cho luận án tiến sĩ Mục tiêu nghiên cứu - Nghiên cứu thuật toán khai phá tập phổ biến, tập phổ biến có trọng số tập lợi ích cao Xây dựng mơ hình, điều kiện, cấu trúc liệu nhằm giảm khơng gian tìm kiếm dựa sở để xây dựng thuật tốn khai phá tập phổ biến có trọng số tập lợi ích cao Chương TỔNG QUAN VỀ KHAI PHÁ TẬP PHỔ BIẾN 1.1 Giới thiệu chung Khai phá tập phổ biến tìm tập phần tử có số lần xuất lớn ngưỡng hỗ trợ tối thiểu (minsupp) Tuy nhiên, khai phá tập phổ biến có hạn chế Thứ nhất, xử lý tất phần tử có tầm quan trọng Thứ hai, giao dịch phần tử có trạng thái xuất khơng xuất Rõ ràng hạn chế làm cho toán khai phá tập phổ biến truyền thống không phù hợp với sở liệu thực tế, ví dụ sở liệu siêu thị, mặt hàng có tầm quan trọng hay giá khác nhau, số lượng mua mặt hàng giao dịch khác nhau,… Vì vậy, mơ hình khai phá tập phổ biến phản ánh mối tương quan phần tử xuất sở liệu, không phản ánh ý nghĩa phần tử liệu Để khắc phục nhược điểm có hai mơ hình đưa ra: Tập phổ biến có trọng số - WFI Tập lợi ích cao - HUI 1.2 Tập phổ biến Khai phá tập phổ biến q trình tìm kiếm tập phần tử có số lần xuất lớn ngưỡng cho trước sở liệu lớn R Agrawal, T Imielinski A Swami đề xuất năm 1993, xuất phát từ nhu cầu tốn phân tích liệu sở liệu giao dịch, để phát mối quan hệ tập hàng hóa bán siêu thị Việc xác định khơng phân biệt khác hàng hóa mà dựa vào xuất chúng Một số phương pháp khai phá tập phổ biến: - Phương pháp dựa quan hệ kết nối - Phương pháp sử dụng cấu trúc - Phương pháp tăng trưởng đệ quy dựa hậu tố - Một số phương pháp song song 1.3 Tập phổ biến có trọng số Năm 1998, nhóm Ramkumar đưa mơ hình khai phá tập phổ biến có trọng số (Weight Frequent Itemsets – WFI) Trong đó, phần tử có trọng số khác như: lợi ích, giá cả, độ quan trọng hay số lượng,…Một tập phần tử phổ biến có trọng số giá trị có trọng số chúng lớn ngưỡng cho trước Dựa mơ hình có nhiều thuật tốn khai phá tập phổ biến có trọng số cơng bố Một số phương pháp khai phá tập phổ biến có trọng số: - Thuật toán dựa khoảng trọng số - Thuật toán sử dụng bảng băm - Thuật toán dựa trọng số phổ biến xấp xỉ - Thuật toán dựa WIT 1.4 Đề xuất thuật toán khai phá mẫu phổ biến có trọng số theo chiều dọc Thở i g ian thực hiệ n (s) Dựa 150ưu điểm thuật toán VMDG khai phá tập phổ biến, đề xuất thuật toán khai phá tập phổ biến có trọng số 100 (Vertical Mining of Weighted Frequent với tên gọi VMWFP Patterns Using Diffset Groups) sử dụng cấu trúc Từ thuật toán 50 VMWFP xây dựng thuật tốn song song PVMWFP mơ hình chia sẻ nhớ Kết thử nghiệm sở liệu 90 giao dịch 80 sinh ngẫu 70 nhiên60để tiến hành 50 với 52 phần tử 3984 VMWFP PVMWFP Độ hỗ trợvới (%) so sánh thuật toán song song PVMWFP thuật toán VMWFP kết Hình 1.1 Hình 1.1 Kết so sánh PVMWFP VMWFP 1.5 Tập lợi ích cao Năm 2003 Chan cộng đưa mơ hình khai phá tập lợi ích cao (High Utility Itemsets – HUI), để khắc phục hạn chế mơ hình khai phá tập phổ biến tập phổ biến có trọng số Trong mơ hình cho phép người sử dụng đánh giá tầm quan trọng phần tử qua hai trọng số khác gọi lợi ích lợi ích Năm 2005, Ying Liu cộng đưa khái niệm lợi ích giao dịch có trọng số tập phần tử X, ký hiệu TWU(X) tính tổng lợi ích giao dịch có chứa tập phần tử X Đây giá trị có tính chất đóng, tính chất đảm bảo TWU(X) nhỏ ngưỡng lợi ích tối thiểu tập X khơng có khả sinh tập lợi ích cao chứa tập X Một thách thức khai phá tập lợi ích cao: - Tập lợi ích khơng có tính chất đóng, tính chất đảm bảo tập tập lợi ích cao tập tập lợi ích cao - Đa số thuật tốn khai phá tập lợi ích cao sử dụng ngưỡng TWU để cắt tỉa tập ứng viên Đây ngưỡng cao nhiều so với giá trị lợi ích thực tế tập phần tử Do vậy, số lượng ứng cử viên sinh lớn dẫn đến khơng gian tìm kiếm thời gian kiểm tra ứng viên có chi phí cao Một số phương pháp khai phá tập lợi ích cao hiệu gần như: sử dụng danh sách lợi ích (utility-list) Liu (2012); bảng số kết hợp bảng ứng viên Guo (2013); ước tính lợi ích cặp phần tử xuất Philippe (2014); sử dụng dụng lợi ích (utility sub-tree) và lợi ích cục (local utility) Zida (2016) Chương THUẬT TỐN KHAI PHÁ TẬP LỢI ÍCH CAO DỰA TRÊN MƠ HÌNH CWU 2.1 Mơ hình hiệu khai phá tập lợi ích cao a Đặt vấn đề Như biết, đa số thuật toán khai phá tập lợi ích cao phân tích sử dụng mơ hình TWU làm sở để cắt tỉa tập ứng viên Với phần tử a, tập phần tử {X} tập phần tử có a tiền tố {aX}, ta có TWU({aX}) cận AU({aX}) Tương tự, có TWU({X}) cận AU({X}) Ta thấy {X}  {aX} nên số giao dịch chứa {X} lớn số giao dịch chứa {aX} Vậy, TWU({X}) tổng lợi ích giao dịch chứa {X} lớn TWU({aX}) tổng lợi ích giao dịch chứa {aX} Trong thuật toán khai phá tập lợi ích cao theo chiều sâu Giả sử, {aX} tất tập có tiền tố phần tử a, {bX} tất tập có tiền tố phần tử b Khi khai phá tập {bX} khơng cịn chứa phần tử a Nhưng tính TWU({bX}) gồm giá trị lợi ích phần tử a Điều làm TWU({bX}) cận AU({bX}) lớn mức cần thiết dùng TWU({bX}) để tỉa tập ứng viên khơng hiệu Từ phân tích trên, luận án đề xuất mơ hình CWU (Candidate Weight Utility) thuật tốn HP khai phá tập lợi ích cao dựa mơ hình nhằm giảm số lượng tập ứng viên [II] b Đề xuất mơ hình CWU Từ nhận xét trên, luận án đề xuất mơ hình CWU để khắc phục nhược điểm mơ hình TWU Định nghĩa 2.1 [II] Tập tiền tố phần tử It tập phần tử tập I mà đứng trước phần tử It: SetPrefix(It) = {j I | j It} Định nghĩa 2.2 [II] Tiền tố tập phần tử có thứ tự Y tập phần tử I đứng trước phần tử y tập Y, kí hiệu SetPrefix(Y) SetPrefix(Y) = {j I | j y1} (2.1) Định nghĩa 2.3 [II] Lợi ích ứng viên có trọng số (CWU – Candidate Weighted Utility) tập phần tử Y, ký hiệu CWU(Y) xác định sau:Đặt X = SetPrefix(Y), Nếu X =  Định nghĩa 2.4 [II] Khi CWU(Y) α với α ngưỡng tối thiểu lợi ích ứng viên cho trước, ta gọi Y tập lợi ích ứng viên có trọng số cao (HCWU- High Candidate Weighted Utility) Ngược lại, Y gọi tập lợi ích ứng viên có trọng số thấp (LCWU – Low Candidate Weighted Utility) Tính chất 2.1 [II] Cho tập phần tử có thứ tự I, Yk-1,Yk thỏa mãn Yk-1  I, Yk  I Yk-1 tiền tố Yk Cụ thể: Yk-1 = {y1, y2,…, yk-1 | yi yi+1 với i=1 k-2} tiền tố tập Yk = {y1, y2,…, yk-1, yk | yi yi+1 với i=1 k-1} SetPrefix(Yk-1) = SetPrefix(Yk) Định lý 2.1 [II] Xét tập phần tử có thứ tự, Y k tập k-phần tử, Yk-1 tập (k-1)-phần tử tiền tố Y k Nếu Yk  HCWUs Yk-1  HCWUs Đây tính chất đóng tập phần tử theo mơ hình CWU Nghĩa là, CWU(Yk-1) < CWU(Yk) < Định lý 2.2 [II] Giả sử HCWUs gồm tập Y có CWU(Y) α, HUs gồm tập Y có AU(Y) α với α ngưỡng lợi ích tối thiểu cho trước Khi HUs  HCWUs Để khẳng định mơ hình CWU có số ứng viên mơ hình TWU, luận án đưa hai bổ đề sau Mệnh đề 2.1 [II] Cho tập Y, ta ln có CWU(Y) ≤ TWU(Y) Mệnh đề 2.2 [II] Cho HCWUs gồm tập Y có CWU(Y) α HTWUs gồm tập Y có TWU(Y) α, với α ngưỡng lợi ích tối thiểu cho trước, HCWUs  HTWUs 2.2 Thuật tốn HP khai phá tập lợi ích cao dựa số hình chiếu mơ hình CWU Trong phần này, luận án trình bày thuật toán HP cải tiến từ thuật toán PB Gou (2013) với số cải tiến sau: - Sử dụng kết hợp hai mơ hình TWU CWU; 10 - Sếp phần tử giao dịch giảm dần theo AU sau loại phần tử nhỏ ngưỡng lợi ích tối thiểu a Một số cấu trúc sử dụng thuật toán: - Bảng ứng viên TCk gồm: tập k-phần tử, lợi ích ứng viên có trọng số - CWU lợi ích thực tế tập ứng viên AU - Bảng số ITX tập X gồm: giao dịch Tj chứa tập X, vị trí p phần tử cuối tập X xuất giao dịch Tj U(X,Tj) Từ bảng số ITX gồm k-phần tử tính nhanh tập ứng viên gồm (k+1)-phần tử với tiền tố tập phần tử X - Bảng giao dịch lợi ích - UT i chứa giá trị lợi ích phần tử i giao dịch gồm: giao dịch T j chứa i U(i, Tj) Sau tìm tất tập lợi ích cao với tiền tố phần tử i dựa vào bảng UTi tính CWU(Y) với phần tử i = ListItemPrefix(Y) c Kết thực nghiệm Kết thử nghiệm, so sánh thuật toán HP với thuật toán Two Phase, PB liệu T30I4D100K Mushroom 14 a Một số cấu trúc Các phần tử CSDL đánh số 1, 2, 3,… theo thứ tự tăng dần theo AU  Bảng phần tử chung – GlobalItemTable gồm phần tử ứng viên lợi ích có trọng số cao xếp tăng dần theo AU Trong bảng gồm: số (index), phần tử (item), lợi ích đơn vị phần tử (utility), tổng số lượng phần tử (quantity), lợi ích ứng viên có trọng số (CWU), lợi ích thực tế phần tử (AU) trỏ trỏ đến gốc nhánh mẫu lợi ích nén chung (GlobalCUP-Tree)  Mỗi nút GlobalCUP-Tree bao gồm: số (index), mảng CWU tương ứng với giá trị lợi ích ứng viên có trọng số tập, mảng trỏ chứa số lượng tương ứng phần tử giao dịch, trỏ trỏ đến nút anh em mức, trỏ trỏ đến nút cha  Mảng CWU[] = {T0, T1,…, Tn}, đó: Ti giá trị CWU tập phần tử từ nút số i đến nút chứa Ti  Tập I = {i1, i2,…, in} tập hợp phần tử HCWU giao dịch ánh xạ tương ứng với số GlobalItemTable sau chèn số index vào mẫu lợi ích nén, nút gốc nhánh trỏ trỏ PST phần tử i1 GlobalItemTable e Kết thực nghiệm Kết thử nghiệm, so sánh thuật toán CTU-PRO+ với thuật toán TwoPhase, CTU-PRO so sánh thời gian thực liệu T5N5D100K T10N5D100K với ngưỡng lợi ích tối thiểu khác 15 Hình 2.10 Thời gian thực Hình 2.11 Thời gian thực T5N5D100K T10N5D100K 16 Chương THUẬT TỐN KHAI PHÁ TẬP LỢI ÍCH CAO TRÊN CÂY DANH SÁCH LỢI ÍCH VÀ ĐIỀU KIỆN RTWU 3.1 Cấu trúc liệu hiệu cho khai phá tập lợi ích cao Trong thuật tốn khai phá tập lợi ích cao sử dụng cấu trúc có hạn chế nút lưu trữ phần tử, dẫn đến khả nén không cao Hơn nữa, phần tử xếp giảm dần theo TWU nên số nút nhiều xếp giảm dần theo tần suất làm tốn khơng gian lưu trữ tìm kiếm Năm 2012, Liu cộng (2012) trình bày thuật tốn khai phá tập lợi ích cao khơng sinh viên ứng viên Trong thuật tốn nhóm tác giả sử dụng cấu trúc danh sách lợi ích (utility list) để lưu trữ thông tin tập phần tử thông tin cắt tỉa khơng gian tìm kiếm Để khắc phục hạn chế cấu trúc tận dụng ưu điểm danh sách lợi ích, phần luận án trình bày cấu trúc mẫu lợi ích nén (CUP) kết hợp danh sách lợi ích, nút chứa tập phần tử danh sách lợi ích Cấu trúc cắt tỉa hiệu tập ứng viên làm giảm khơng gian tìm kiếm lưu trữ Trong phần tử xếp giảm dần theo tần suất xuất hiện, làm giảm số nút xuất so với việc xếp theo TWU a Mô tả cấu trúc CUP 17 Trong phần này, luận án trình bày khái niệm, cấu trúc CUP Quá trình xây dựng CUP mơ tả chi tiết thuật tốn phần cuối Hình 3.12 Ví dụ nút CUP Ví dụ Hình 3.1, mơ tả nút N CUP bao gồm: N.Itemset, N.IUtil, N.RUtil, N.TList, N.UList, N.Parent, N.Links N.Childs Trong đó, N.Itemsets tập phần tử nút, N.IUtil giá trị lợi ích N.Itemsets, N.RUTil lợi ích cịn lại N.Itemsets, N.TList danh sách giao dịch chứa N.Itemsets, N.UList danh sách lợi ích phần tử N.Itemsets tương ứng với N.TList, N.Parent trỏ trỏ đến cha nút N, N.Links danh sách trỏ trỏ đến nút có phần tử cây, N.Childs danh sách trỏ trỏ đến nút f Q trình xây dựng CUP gồm bước mô tả sau: Để đơn giản luận án mô tả trình chèn phần tử vào cây, cịn phần tính tốn giá trị RUtil, TList, UList mơ tả phần mơ tả thuật tốn Bước 1, duyệt liệu lần để đếm độ hỗ trợ (support) tính TWU cho phần tử 18 Bước 2, duyệt giao dịch, đưa phần tử có TWU lớn ngưỡng lợi ích tối thiểu vào danh sách Sau xếp phần tử giảm dần theo tần suất Bước 3, xây dựng CUP Thực chèn cách lưu giao dịch vào danh sách phần tử chèn danh sách phần tử vào nút gốc sau: Bước 3.1, kiểm tra nút N nút so sánh phần tử N.Itemset với phần tử danh sách chèn lại với khả xảy sau: - Nếu tất phần tử giống thêm tid vào TList - Nếu khơng có nhiều phần tử giống tạo nút nút gồm: itemsets phần tử cịn lại danh sách - Nếu có nhiều phần tử giống nút N gồm phần giống nhau, phần tử khác lại nút N thành nút nút N, phần tử khác danh g Thuật toán khai phá tập lợi HUI-Growth Sau xây dựng CUP tập lợi ích cao tìm phương pháp đệ quy tương tự thuật tốn FPGrowth Han (2000) Q trình khai phá tập lợi ích cao CUP duyệt từ lên dựa vào bảng HeaderTable Đầu tiên, lấy phần tử a i cuối bảng HeaderTable, 19 dựa vào trỏ liên kết trỏ vào nút Ni để tìm mẫu điều kiện với hậu tố Chi tiết thuật tốn mơ tả phía h Kết thực nghiệm Trong phần này, luận án so sánh kết thực thuật toán HUI-Growth [IV] với thuật toán: UP-Growth, HUI-Miner Kết thử nghiệm, Hình 3.2 Hình 3.3 so sánh thời gian thực với ngưỡng lợi ích khác với hai liệu Mushroom T40I4D100K Hình 3.13 Thời gian thực với Hình 3.14 Thời gian thực với liệu Mushroom liệu T40I4D100K 3.2 Điều kiện RTWU cho tỉa tập ứng viên Thuật toán FHM nhóm Fournier-Viger (2014) hạn chế phép nối có chi phí cao thuật tốn HUI-Miner dựa tính chất đóng TWU (Transaction-Weighted Utility) Đó là, khơng kết nối tập sinh có chứa cặp (x, y) mà TWU(x, y) nhỏ ngưỡng lợi ích tối thiểu cho trước Tuy nhiên, phân tích TWU ngưỡng cao mức cần thiết Trong thuật toán FHM để giảm số lượng phép nối phương pháp cắt tỉa ước lượng giá trị lợi ích xuất (EUCP - Estimated Utility Co-occurrence Pruning) dựa cấu trúc ước lượng giá trị lợi ích xuất (EUCS - 20 Estimated Utility Co-Occurrence Structure) Một cách cụ thể thuật toán FHM sử dụng EUCS để lưu trữ TWU tất cặp phần tử (a, b) Dựa vào tính chất đóng TWU, tất tập chứa cặp phần tử (a, b) có TWU(ab) nhỏ ngưỡng lợi ích tối thiểu khơng phải tập lợi ích cao để ngừng việc ghép nối danh sách lợi ích Tuy nhiên, thuật tốn FHM khai phá tập lợi ích cao theo chiều sâu Giả sử, phần tử xếp theo thứ tự từ điển, {aX} tất tập có tiền tố phần tử a, {bX} tất tập có tiền tố phần tử b Như vậy, tập chứa {bX} không cịn chứa phần tử a Nhưng tính TWU({bX}) gồm giá trị lợi ích phần tử a Điều làm TWU({bX}) cận U({bX}) lớn mức cần thiết dùng TWU({bX}) để tỉa tập ứng viên không hiệu Để khắc phục nhược điểm thuật toán FHM, luận án đề xuất cấu trúc RTWU (Retail TransactionWeighted Utility), xây dựng thuật toán EAHUI-Miner sử dụng cấu trúc RTWU thuật toán song song PEAHUIMiner theo mơ hình hạt mịn (fine-grain) từ thuật tốn EAHUIMiner Định nghĩa 3.1 [VI] Danh sách lợi ích mở rộng tập phần tử Px ký hiệu exLstPx định nghĩa danh sách phần tử, phần tử bao gồm bốn trường: tid, iutil, itemutil rutil, đó: - tid định danh giao dịch chứa Px - iutil lợi ích tập phần tử P giao dịch tid chứa Px 21 - itemutil lợi ích phần tử x giao dịch tid chứa Px - rutil lợi ích cịn lại phần tử cịn lại giao dịch tid chứa Px, tính từ phần tử sau phần tử x Ngoài ra, danh sách lợi ích mở rộng tập Px cịn có trường sau: - sumiutils tổng lợi ích tập phần tử P giao dịch tid chứa Px - sumitemutils tổng lợi ích phần tử x giao dịch tid chứa Px - sumrutils tổng lợi ích cịn lại giao dịch có thứ tự tid chứa Px, bắt đầu tính từ phần tử sau phần tử x Định nghĩa 3.2 [VI] Giá trị lợi ích giao dịch cịn lại cặp phần tử xy giao dịch Tj chứa cặp phần tử xy tổng lợi ích phần tử cịn lại giao dịch có thứ tự Tj tính từ phần tử x Kí hiệu RTWU(xy, Tj), [Tj\ SetPrefix(xy)] – giao dịch Tj chứa cặp phần tử xy bỏ phần tử đứng trước phần tử x Định nghĩa 3.3 [VI] Giá trị lợi ích giao dịch lại cặp phần tử xy CSDL tổng giá trị lợi ích giao dịch cịn lại cặp phần tử xy giao dịch T j chứa cặp phần tử xy CSDL Kí hiệu RTWU(xy) 22 Định nghĩa 3.4 [VI] Cấu trúc RTWU xác định tập ba: (x; y; c) I x I x R Trong đó: - I tập phần tử thuộc sở liệu; - x, y phần tử thuộc I (x đứng trước y theo cách xếp đó); - R tập số thực c = RTWU(xy) Định lý 3.1 [VI] Cho hai tập Px, Py mở rộng tập P hai danh sách lợi ích mở rộng Px Py exLstPx exLstPy Nếu min(exLstPx.sumiutls, exLstPy.sumiutls) + RTWU(xy) < minUtil Pxy các tập mở rộng tập lợi ích thấp Dựa Định lý 3.1, luận án đề xuất cải tiến thuật toán FHM dựa cấu trúc RTWU, trình bày phần tiếp 3.3 Thuật tốn EAHUI-Miner dựa điều kiện RTWU Trong thuật toán EAHUI-Miner gồm phần chính: - Xây dựng danh sách lợi ích mở rộng - Khai phá tập lợi ích cao EAHUI-Miner Danh sách lợi ích mở rộng tập chứa phần tử xây dựng theo Định nghĩa 3.1 với tập P rỗng (nghĩa iutil=0) quét CSDL lần 23 3.3.1 Thuật toán song song PEAHUIMiner Thuật toán PEAHUI-Miner xây dựng tảng OpenMP hỗ trợ lập trình song song mơi trường nhở chia sẻ Thuật toán song song phân tải động theo mơ hình hạt mịn (fine-grain) nhằm nâng cao khả cân tải tiến trình 3.3.2 Kết thực nghiệm  Số lượng ứng viên:Bảng 3.1 thể số lượng tập ứng viên hai thuật toán sinh Kết cho thấy thuật toán FHM sinh nhiều tập ứng viện so với thuật toán EAHUI-Miner Bảng 3.1 So sánh số lượng tập ứng viên Dataset minutil FHM EAHUI-Miner 10I4D100K 2500 153.016 125.647 10I4D100K 2500 153.016 125.647 Foodmart 1000 259.876 258.921 Mushroom 100K 1.588.01 1.587.92  Thời gian thực Thời gian thực thuật toán: EFIM, FHM EAHUI-Miner thể hình Hình 3.4, Hình 3.5, Hình 3.6 Hình 3.7 Kết cho thấy, thuật toán EFIM thực nhanh sở liệu mà kích thước tập phần tử I nhỏ, cịn hai thuật tốn FHM EAHUI-Miner thực 24 nhanh thuật toán EFIM sở liệu mà kích thước tập phần tử I lớn Hình 3.15 Thời gian thực Hình 3.16 Thời gian thực Mushroom Foodmart Hình 3.17 Thời gian thực Hình 3.18 Thời gian thực T10I4D100K T10I4D200K Hình 3.8 Hình 3.9 so sánh thời gian thực thuật toán EAHUI-Miner thuật toán song song PEAHUIMiner sở liệu T10I4D100K, T10I4D200K 25 Hình 3.19 Thời gian thực Hình 3.20 Thời gian thực T10I4D100K T10I4D200K 26 KẾT LUẬN VÀ KIẾN NGHỊ Kết luận án: Với mục tiêu xây dựng mơ hình, cấu trúc liệu thuật toán nhằm nâng cao hiệu thuật tốn khai phá tập phổ biến có trọng số tập lợi ích cao Luận án đạt kết sau: Mơ hình lợi ích ứng viên có trọng số (CWU – Candidate Weighted Utility) [II] dựa phân tích cho thấy mơ hình TWU nhiều thuật tốn sử dụng để cắt tỉa ứng viên khơng hiệu đánh giá ngưỡng cao nhiều so với giá trị lợi ích thực tế Từ mơ hình CWU đề xuất hai thuật tốn khai phá tập lợi ích cao HP [II] sử dụng số hình chiếu, CTU-PRO+ [III] sử dụng cấu trúc cho số lượng ứng viên thời gian thực nhanh so với số thuật toán Cấu trúc RTWU (Remaining Transaction-Weighted Utility) dựa giá trị lợi ích giao dịch cịn lại kết hợp với danh sách lợi ích mở rộng cặp phần tử cho cắt tỉa tập ứng viên Phân tích thuật tốn FHM [26] cho thấy để làm giảm chi phí kết nối (join) danh sách lợi ích dựa vào lưu trữ giá trị TWU cặp phần tử Tuy nhiên, mơ hình TWU đánh giá khơng hiệu cho cắt tỉa ứng viên Do đó, luận án đề xuất cấu trúc RTWU làm giảm chi phí kết nối tập ứng viên Dựa 27 cấu trúc RTWU, đề xuất thuật toán EAHUI-Miner [VI] khai phá tập lợi ích cao thuật tốn song song PEAHUI-Miner [VI] khai phá tập lợi ích cao cho kết thực nghiệm có số lượng tập ứng viên thời gian thực nhanh sở liệu thưa nhiều giao dịch Thuật tốn song song PPB khai phá tập lợi ích cao kết hợp số hình chiếu, danh sách lợi ích phương pháp lưu trữ giá trị lợi ích phần tử giao dịch để tính nhanh giá trị iutil rutil danh sách lợi ích Cấu trúc mẫu lợi ích nén (CUP) kết hợp với danh sách lợi ích [IV] Mỗi nút CUP lưu trữ tập phần tử danh sách lợi ích Các phần tử xếp giảm dần theo tần suất xuất cho số nút Để khai phá tập lợi ích cao CUP, luận án đề xuất thuật toán HUI-Growth [IV] Thuật toán VMWFP [I] khai phá tập phổ biến lợi ích cao dựa cấu trúc diffset Từ thuật tốn VMWFP cho thấy nhóm, lớp nhóm xử lý độc lập Do đó, luận án đề xuất thuật tốn song song PVMWFP [I] mơ hình chia sẻ nhớ Hướng phát triển 28 Luận án tập trung vào bước quan trọng khai phá luật kết hợp khai phá tập phổ biến có trọng số tập lợi ích cao Cụ thể, đề xuất mơ hình, cấu trúc, thuật toán song song khai phá tập phổ biến có trọng số tập lợi ích cao sở liệu giao dịch Tuy nhiên, khối lượng liệu ngày lớn phức tạp, cần có có cấu trúc thuật tốn phù hợp Do vậy, luận án tiếp tục hướng nghiên cứu sau:    Nghiên cứu mơ hình, cấu trúc thuật tốn hiệu khai tập phổ biến có trọng số tập lợi ích cao Đưa kỹ thuật khai phá liệu mờ vào thuật toán đề xuất Cài đặt, thử nghiệm thuật tốn tảng lập trình Hadoop mơ hình Map-Reduce cho tốn liệu lớn ... thiểu tập X khơng có khả sinh tập lợi ích cao chứa tập X Một thách thức khai phá tập lợi ích cao: - Tập lợi ích khơng có tính chất đóng, tính chất đảm bảo tập tập lợi ích cao tập tập lợi ích cao. ..2 Trên sở nghiên cứu, nhận xét đánh giá trên, nghiên cứu sinh chọn đề tài ? ?Nghiên cứu phát triển mơ hình, thuật tốn khai phá tập phần tử có trọng số lợi ích cao? ?? làm đề tài nghiên cứu cho luận... hiệu khai phá tập lợi ích cao a Đặt vấn đề Như biết, đa số thuật toán khai phá tập lợi ích cao phân tích sử dụng mơ hình TWU làm sở để cắt tỉa tập ứng viên Với phần tử a, tập phần tử {X} tập phần

Ngày đăng: 29/05/2021, 10:30

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w