Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 26 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
26
Dung lượng
877 KB
Nội dung
1 MỞ ĐẦU Khaiphá luật kết hợp kỹ thuật quan trọngkhaiphá liệu Mục đích khaiphá luật kết hợp tìm mối quan hệ phầntử khác sở liệu Bài toánkhaiphátập luật kết hợp gồm hai toánkhaiphátập phổ biến sinh luật kết hợp Trong đó, tốn khaiphátập phổ biến thu hút nhiều nhà nghiêncứu nước giới quan tâm Nhưng khaiphátập phổ biến truyền thống thực tế nhiều hạn chế, không đáp ứng nhu cầu người sử dụng đánh giá quan trọngphầntử giao dịch hay sở liệu Để khắc phục hạn chế khaiphátập phổ biến truyền thống, nhiều nhà nghiêncứu đề xuất mơ hình mở rộng có tính đến mức độ quan trọng khác phầntửsở liệu như: khaiphátập phổ biến cótrọngsố WFI; khaiphátậplợiíchcao - HUI Một thách thức khaiphátập phổ biến cótrọngsốtậplợiíchcaotập phổ biến cótrọng số, tậplợiíchcao khơng có tính chất đóng - tính chất làm giảm số lượng ứng viên sinh khơng gian tìm kiếm Hầu hết thuật tốn khaiphátậplợiíchcao sử dụng tính chất đóng lợiíchtrọngsố giao dịch – TWU Liu cộng cơng bố năm 2005 Tuy nhiên, ngưỡng TWU caoso với lợiích thực tế tậpphần tử, phát sinh số lượng lớn ứng viên không cần thiết, tiêu tốn thời gian khơng gian tìm kiếm Trên sởnghiên cứu, nhận xét đánh giá trên, nghiêncứu sinh chọn đề tài “Nghiên cứupháttriểnmơhình,thuật tốn khaiphátậpphầntửcótrọngsốlợiích cao” làm đề tài nghiêncứu cho luận án tiến sĩ Mục tiêu nghiêncứu - Nghiêncứuthuậttoánkhaiphátập phổ biến, tập phổ biến cótrọngsốtậplợiíchcao Xây dựng mơhình, điều kiện, cấu trúc liệu nhằm giảm khơng gian tìm kiếm dựa sở để xây dựng thuật tốn khaiphátập phổ biến cótrọngsốtậplợiíchcao TỔNG QUAN VỀ KHAIPHÁTẬP PHỔ BIẾN 1.1 Giới thiệu chung Khaiphátập phổ biến tìm tậpphầntửcósố lần xuất lớn ngưỡng hỗ trợ tối thiểu (minsupp) Tuy nhiên, khaiphátập phổ biến có hạn chế Thứ nhất, xử lý tất phầntửcó tầm quan trọng Thứ hai, giao dịch phầntửcó trạng thái xuất không xuất Rõ ràng hạn chế làm cho toánkhaiphátập phổ biến truyền thống không phù hợp với sở liệu thực tế, ví dụ sở liệu siêu thị, mặt hàng có tầm quan trọng hay giá khác nhau, số lượng mua mặt hàng giao dịch khác nhau,… Vì vậy, mơ hình khaiphátập phổ biến phản ánh mối tương quan phầntử xuất sở liệu, không phản ánh ý nghĩa phầntử liệu Để khắc phục nhược điểm có hai mơ hình đưa ra: Tập phổ biến cótrọngsố - WFI Tậplợiíchcao - HUI 1.2 Tập phổ biến Khaiphátập phổ biến trình tìm kiếm tậpphầntửcósố lần xuất lớn ngưỡng cho trước sở liệu lớn R Agrawal, T Imielinski A Swami đề xuất năm 1993, xuất pháttừ nhu cầu tốn phân tích liệu sở liệu giao dịch, để phát mối quan hệ tập hàng hóa bán siêu thị Việc xác định không phân biệt khác hàng hóa mà dựa vào xuất chúng Một số phương pháp khaiphátập phổ biến: - Phương pháp dựa quan hệ kết nối - Phương pháp sử dụng cấu trúc - Phương pháp tăng trưởng đệ quy dựa hậu tố - Một số phương pháp song song 1.3 Tập phổ biến cótrọngsố Năm 1998, nhóm Ramkumar đưa mơ hình khaiphátập phổ biến cótrọngsố (Weight Frequent Itemsets – WFI) Trong đó, phầntửcótrọngsố khác như: lợi ích, giá cả, độ quan trọng hay số lượng,…Một tậpphầntử phổ biến cótrọngsố giá trị cótrọngsố chúng lớn ngưỡng cho trước Dựa mô hình có nhiều thuật tốn khaiphátập phổ biến cótrọngsố cơng bố Một số phương pháp khaiphátập phổ biến cótrọng số: - Thuậttoán dựa khoảng trọngsố - Thuậttoán sử dụng bảng băm - Thuậttoán dựa trọngsố phổ biến xấp xỉ - Thuậttoán dựa WIT 1.4 Đề xuất thuậttoánkhaiphá mẫu phổ biến cótrọngsố theo chiều dọc Dựa ưu điểm thuậttoán VMDG khaiphátập phổ biến, đề xuất thuậttoánkhaiphátập phổ biến cótrọngsố với tên gọi VMWFP (Vertical Mining of Weighted Frequent Patterns Using Diffset Groups) sử dụng cấu trúc Từthuậttoán VMWFP xây dựng thuật tốn song song PVMWFP mơ hình chia sẻ nhớ Kết thử nghiệm sở liệu với 52 phầntử 3984 giao dịch sinh ngẫu nhiên để tiến hành so sánh thuậttoán song song PVMWFP với thuậttoán VMWFP kết Hình 1.1 Thởi gian thực (s) Hình 1.1 Kết so sánh PVMWFP VMWFP 150 100 50 90 80 70 Độ hỗ trợ (%) PVMWFP 60 50 VMWFP 1.5 Tậplợiíchcao Năm 2003 Chan cộng đưa mơ hình khaiphátậplợiíchcao (High Utility Itemsets – HUI), để khắc phục hạn chế mơ hình khaiphátập phổ biến tập phổ biến cótrọngsốTrongmơ hình cho phép người sử dụng đánh giá tầm quan trọngphầntử qua hai trọngsố khác gọi lợiíchlợiích ngồi Năm 2005, Ying Liu cộng đưa khái niệm lợiích giao dịch cótrọngsốtậpphầntử X, ký hiệu TWU(X) tính tổng lợiích giao dịch có chứa tậpphầntử X Đây giá trị có tính chất đóng, tính chất đảm bảo TWU(X) nhỏ ngưỡng lợiích tối thiểu tập X khơng có khả sinh tậplợiíchcao chứa tập X Một thách thức khaiphátậplợiích cao: - Tậplợiích khơng có tính chất đóng, tính chất đảm bảo tậptậplợiíchcaotậptậplợiíchcao - Đa sốthuật tốn khaiphátậplợiíchcao sử dụng ngưỡng TWU để cắt tỉa tập ứng viên Đây ngưỡng cao nhiều so với giá trị lợiích thực tế tậpphầntử Do vậy, số lượng ứng cử viên sinh lớn dẫn đến khơng gian tìm kiếm thời gian kiểm tra ứng viên có chi phí cao Một số phương pháp khaiphátậplợiíchcao hiệu gần như: sử dụng danh sách lợiích (utility-list) Liu (2012); bảng số kết hợp bảng ứng viên Guo (2013); ước tính lợiích cặp phầntử xuất Philippe (2014); sử dụng dụng lợiích (utility sub-tree) vàlợiích cục (local utility) Zida (2016) THUẬT TỐN KHAIPHÁTẬPLỢIÍCHCAO DỰA TRÊN MƠ HÌNH CWU 2.1 Mơ hình hiệu khaiphátậplợiíchcao Đặt vấn đề Như biết, đa sốthuậttoánkhaiphátậplợiíchcaophân tích sử dụng mơ hình TWU làm sở để cắt tỉa tập ứng viên Với phầntử a, tậpphầntử {X} tậpphầntửcó a tiền tố {aX}, ta có TWU({aX}) cận AU({aX}) Tương tự, có TWU({X}) cận AU({X}) Ta thấy {X} {aX} nên số giao dịch chứa {X} lớn số giao dịch chứa {aX} Vậy, TWU({X}) tổng lợiích giao dịch chứa {X} lớn TWU({aX}) tổng lợiích giao dịch chứa {aX} Trongthuật tốn khaiphátậplợiíchcao theo chiều sâu Giả sử, {aX} tất tậpcó tiền tố phầntử a, {bX} tất tậpcó tiền tố phầntử b Khi khaiphátập {bX} không chứa phầntử a Nhưng tính TWU({bX}) gồm giá trị lợiíchphầntử a Điều làm TWU({bX}) cận AU({bX}) lớn mức cần thiết dùng TWU({bX}) để tỉa tập ứng viên không hiệu Từphân tích trên, luận án đề xuất mơ hình CWU (Candidate Weight Utility) thuật tốn HP khaiphátậplợiíchcao dựa mơ hình nhằm giảm số lượng tập ứng viên [II] Đề xuất mơ hình CWU Từ nhận xét trên, luận án đề xuất mơ hình CWU để khắc phục nhược điểm mơ hình TWU Định nghĩa 2.1 [II] Tập tiền tố phầntử It tậpphầntửtập I mà đứng trước phầntử It: SetPrefix(It) = {∪ j ∈ I | j ≺ It} Định nghĩa 2.2 [II] Tiền tố tậpphầntửcó thứ tự Y tậpphầntử I đứng trước phầntử y1 tập Y, kí hiệu SetPrefix(Y) SetPrefix(Y) = {∪ j ∈ I | j ≺ y1} (2.1) Định nghĩa 2.3 [II] Lợiích ứng viên cótrọngsố (CWU – Candidate Weighted Utility) tậpphầntử Y, ký hiệu CWU(Y) xác định sau:Đặt X = SetPrefix(Y), Nếu X = ∑ Y Tj 𝑈(𝑋 ∩ 𝑇𝑗 , 𝑇𝑗 ) = Định nghĩa 2.4 [II] Khi CWU(Y) ≥ α với α ngưỡng tối thiểu lợiích ứng viên cho trước, ta gọi Y tậplợiích ứng viên cótrọngsốcao (HCWU- High Candidate Weighted Utility) Ngược lại, Y gọi tậplợiích ứng viên cótrọngsố thấp (LCWU – Low Candidate Weighted Utility) Tính chất 2.1 [II] Cho tậpphầntửcó thứ tự I, Yk-1,Yk thỏa mãn Yk-1 I, Yk I Yk-1 tiền tố Yk Cụ thể: Yk-1 = {y1, y2,…, yk-1 | yi ≺ yi+1 với i=1 k-2} tiền tố tập Yk = {y1, y2,…, yk-1, yk | yi ≺ yi+1 với i=1 k-1} SetPrefix(Yk-1) = SetPrefix(Yk) Định lý 2.1 [II] Xét tậpphầntửcó thứ tự, Yk tập k-phần tử, Yk-1 tập (k-1)-phần tử tiền tố Yk Nếu Yk HCWUs Yk-1 HCWUs Đây tính chất đóng tậpphầntử theo mơ hình CWU Nghĩa là, CWU(Yk-1) < α CWU(Yk) < α Định lý 2.2 [II] Giả sử HCWUs gồm tập Y có CWU(Y) ≥ α, HUs gồm tập Y có AU(Y) ≥ α với α ngưỡng lợiích tối thiểu cho trước Khi HUs HCWUs Để khẳng định mơ hình CWU cósố ứng viên mơ hình TWU, luận án đưa hai bổ đề sau Mệnh đề 2.1 [II] Cho tập Y, ta ln có CWU(Y) ≤ TWU(Y) Mệnh đề 2.2 [II] Cho HCWUs gồm tập Y có CWU(Y) ≥ α HTWUs gồm tập Y có TWU(Y) ≥ α, với α ngưỡng lợiích tối thiểu cho trước, HCWUs HTWUs 2.2 Thuậttoán HP khaiphátậplợiíchcao dựa số hình chiếu mơ hình CWU Trongphần này, luận án trình bày thuậttoán HP cải tiến từthuậttoán PB Gou (2013) với số cải tiến sau: - Sử dụng kết hợp hai mơ hình TWU CWU; - Sếp phầntử giao dịch giảm dần theo AU sau loại phầntử nhỏ ngưỡng lợiích tối thiểu Một số cấu trúc sử dụng thuật toán: - Bảng ứng viên TCk gồm: tập k-phần tử, lợiích ứng viên cótrọngsố - CWU lợiích thực tế tập ứng viên - AU 10 - Bảng số ITX tập X gồm: giao dịch Tj chứa tập X, vị trí p phầntử cuối tập X xuất giao dịch Tj U(X,Tj) Từ bảng số ITX gồm k-phần tử tính nhanh tập ứng viên gồm (k+1)-phần tử với tiền tố tậpphầntử X - Bảng giao dịch lợiích - UTi chứa giá trị lợiíchphầntử i giao dịch gồm: giao dịch Tj chứa i U(i, Tj) Sau tìm tất tậplợiíchcao với tiền tố phầntử i dựa vào bảng UTi tính CWU(Y) với phầntử i = ListItemPrefix(Y) Kết thực nghiệm Kết thử nghiệm, so sánh thuậttoán HP với thuậttoán Two Phase, PB liệu T30I4D100K Mushroom Hình 2.1 Số lượng ứng viên Hình 2.2 Thời gian thực sinh T30I4D100K T30I4D100K 12 - Bảng số ITX tập X gồm: giao dịch Tj chứa tập X; vị trí p phầntử cuối tập X xuất giao dịch Tj; itutil(X, Tj) – giá trị lợiíchtập X giao dịch Tj; rutil(X, Tj) – giá trị lợiíchphầntử lại sau tập X giao dịch Tj Kết thực nghiệm Kết thử nghiệm, so sánh thuậttoán PPB-Miner với thuậttoán HP [II] liệu T30I4D100K Mushroom Hình 2.5 so sánh thời gian thực khaiphátậplợiíchcao thay đổi ngưỡng lợiích tối thiểu, Hình 2.6 so sánh số lượng ứng viên sinh tương ứng với ngưỡng lợiích tối thiểu khác Hình 2.7 Hình 2.8 so sánh thời gian thực khaiphátậplợiíchcaosố ứng viên sinh hai thuật tốn tương ứng với ngưỡng lợiích tối thiểu khác liệu Mushroom Hình 2.5 Thời gian thực Hình 2.6 Số lượng ứng viên T30I4D100K sinh T30I4D100K 13 Hình 2.7 Thời gian thực Mushroom Hình 2.8 Số lượng ứng viên sinh Mushroom 2.4 Thuậttoán CTU-PRO+ Thuậttoán CTU-PRO+ [III] cho khaiphátậplợiíchcao cải tiến từthuậttoán CTU-PRO sử dụng mơ hình CWU [II] giới thiệu phần 2.2 Thuậttoán CTU-PRO+ sử dụng cấu trúc mẫu lợiích nén, phầntử xếp tăng dần theo lợiích AU để phầntửcólợiíchcao tiền tố tậplợiíchkhaiphá trước Sau đó, giá trị CWU cập nhật lại cách trừ lợiích tiền tố khaiphá Một số cấu trúc Các phầntử CSDL đánh số 1, 2, 3,… theo thứ tự tăng dần theo AU Bảng phầntử chung – GlobalItemTable gồm phầntử ứng viên lợiíchcótrọngsốcao xếp tăng dần theo AU Trong bảng gồm: số (index), phầntử (item), lợiích đơn vị phầntử (utility), tổng số lượng phầntử (quantity), lợiích ứng viên cótrọngsố (CWU), lợiích thực tế phầntử (AU) trỏ trỏ đến gốc nhánh mẫu lợiích nén chung (GlobalCUP-Tree) 14 Mỗi nút GlobalCUP-Tree bao gồm: số (index), mảng CWU tương ứng với giá trị lợiích ứng viên cótrọngsố tập, mảng trỏ chứa số lượng tương ứng phầntử giao dịch, trỏ trỏ đến nút anh em mức, trỏ trỏ đến nút cha Mảng CWU[] = {T0, T1,…, Tn}, đó: Ti giá trị CWU tậpphầntửtừ nút số i đến nút chứa Ti Tập I = {i1, i2,…, in} tập hợp phầntử HCWU giao dịch ánh xạ tương ứng với số GlobalItemTable sau chèn số index vào mẫu lợiích nén, nút gốc nhánh trỏ trỏ PST phầntử i1 GlobalItemTable Kết thực nghiệm Kết thử nghiệm, so sánh thuậttoán CTU-PRO+ với thuậttoán TwoPhase, CTU-PRO so sánh thời gian thực liệu T5N5D100K T10N5D100K với ngưỡng lợiích tối thiểu khác Hình 2.9 Thời gian thực Hình 2.10 Thời gian thực T5N5D100K T10N5D100K 15 THUẬTTOÁNKHAIPHÁTẬPLỢIÍCHCAO TRÊN CÂY DANH SÁCH LỢIÍCHVÀ ĐIỀU KIỆN RTWU 3.1 Cấu trúc liệu hiệu cho khaiphátậplợiíchcaoTrongthuật tốn khaiphátậplợiíchcao sử dụng cấu trúc có hạn chế nút lưu trữ phần tử, dẫn đến khả nén không cao Hơn nữa, phầntử xếp giảm dần theo TWU nên số nút nhiều xếp giảm dần theo tần suất làm tốn không gian lưu trữ tìm kiếm Năm 2012, Liu cộng (2012) trình bày thuật tốn khaiphátậplợiíchcao khơng sinh viên ứng viên Trongthuật tốn nhóm tác giả sử dụng cấu trúc danh sách lợiích (utility list) để lưu trữ thông tin tậpphầntử thơng tin cắt tỉa khơng gian tìm kiếm Để khắc phục hạn chế cấu trúc tận dụng ưu điểm danh sách lợi ích, phần luận án trình bày cấu trúc mẫu lợiích nén (CUP) kết hợp danh sách lợi ích, nút chứa tậpphầntử danh sách lợiích Cấu trúc cắt tỉa hiệu tập ứng viên làm giảm khơng gian tìm kiếm lưu trữ Trongphầntử xếp giảm dần theo tần suất xuất hiện, làm giảm số nút xuất so với việc xếp theo TWU Mô tả cấu trúc CUP 16 Trongphần này, luận án trình bày khái niệm, cấu trúc CUP Quá trình xây dựng CUP mô tả chi tiết thuật tốn phần cuối Hình 3.1 Ví dụ nút CUP Ví dụ Hình 3.1, mơ tả nút N CUP bao gồm: N.Itemset, N.IUtil, N.RUtil, N.TList, N.UList, N.Parent, N.Links N.Childs Trong đó, N.Itemsets tậpphầntử nút, N.IUtil giá trị lợiích N.Itemsets, N.RUTil lợiích lại N.Itemsets, N.TList danh sách giao dịch chứa N.Itemsets, N.UList danh sách lợiíchphầntử N.Itemsets tương ứng với N.TList, N.Parent trỏ trỏ đến cha nút N, N.Links danh sách trỏ trỏ đến nút cóphầntử cây, N.Childs danh sách trỏ trỏ đến nút Q trình xây dựng CUP gồm bước mô tả sau: Để đơn giản luận án mô tả q trình chèn phầntử vào cây, phần tính tốn giá trị RUtil, TList, UList mơ tả phầnmơ tả thuật tốn Bước 1, duyệt liệu lần để đếm độ hỗ trợ (support) tính TWU cho phầntử 17 Bước 2, duyệt giao dịch, đưa phầntửcó TWU lớn ngưỡng lợiích tối thiểu vào danh sách Sau xếp phầntử giảm dần theo tần suất Bước 3, xây dựng CUP Thực chèn cách lưu giao dịch vào danh sách phầntử chèn danh sách phầntử vào nút gốc sau: Bước 3.1, kiểm tra nút N nút so sánh phầntử N.Itemset với phầntử danh sách chèn lại với khả xảy sau: - Nếu tất phầntử giống thêm tid vào TList - Nếu khơng có nhiều phầntử giống tạo nút nút gồm: itemsets phầntử lại danh sách - Nếu có nhiều phầntử giống nút N gồm phần giống nhau, phầntử khác lại nút N thành nút nút N, phầntử khác danh Thuậttoánkhaiphátậplợi HUI-Growth Sau xây dựng CUP tậplợiíchcao tìm phương pháp đệ quy tương tựthuật tốn FP-Growth Han (2000) Q trình khaiphátậplợiíchcao CUP duyệt từ lên dựa vào bảng HeaderTable Đầu tiên, lấy phầntử cuối bảng HeaderTable, dựa vào trỏ liên kết trỏ vào nút Ni để tìm mẫu điều kiện với hậu tố Chi tiết thuật tốn mơ tả phía Kết thực nghiệm 18 Trongphần này, luận án so sánh kết thực thuậttoán HUI-Growth [IV] với thuật toán: UP-Growth, HUI-Miner Kết thử nghiệm, Hình 3.2 Hình 3.3 so sánh thời gian thực với ngưỡng lợiích khác với hai liệu Mushroom T40I4D100K Hình 3.2 Thời gian thực với liệu Mushroom Hình 3.3 Thời gian thực với liệu T40I4D100K 3.2 Điều kiện RTWU cho tỉa tập ứng viên Thuật tốn FHM nhóm Fournier-Viger (2014) hạn chế phép nối có chi phí caothuật tốn HUI-Miner dựa tính chất đóng TWU (Transaction-Weighted Utility) Đó là, khơng kết nối tập sinh có chứa cặp (x, y) mà TWU(x, y) nhỏ ngưỡng lợiích tối thiểu cho trước Tuy nhiên, phân tích TWU ngưỡng cao mức cần thiết Trongthuậttoán FHM để giảm số lượng phép nối phương pháp cắt tỉa ước lượng giá trị lợiích xuất (EUCP - Estimated Utility Co-occurrence Pruning) dựa cấu trúc ước lượng giá trị lợiích xuất (EUCS - Estimated Utility Co-Occurrence Structure) Một cách cụ thể thuậttoán FHM sử dụng EUCS để lưu trữ TWU tất cặp phầntử (a, b) Dựa vào tính chất đóng TWU, tất tập chứa cặp phầntử (a, b) có TWU(ab) nhỏ ngưỡng lợiích tối thiểu 19 khơng phải tậplợiíchcao để ngừng việc ghép nối danh sách lợiích Tuy nhiên, thuật tốn FHM khaiphátậplợiíchcao theo chiều sâu Giả sử, phầntử xếp theo thứ tựtừ điển, {aX} tất tậpcó tiền tố phầntử a, {bX} tất tậpcó tiền tố phầntử b Như vậy, tập chứa {bX} khơng chứa phầntử a Nhưng tính TWU({bX}) gồm giá trị lợiíchphầntử a Điều làm TWU({bX}) cận U({bX}) lớn mức cần thiết dùng TWU({bX}) để tỉa tập ứng viên không hiệu Để khắc phục nhược điểm thuậttoán FHM, luận án đề xuất cấu trúc RTWU (Retail Transaction-Weighted Utility), xây dựng thuậttoán EAHUI-Miner sử dụng cấu trúc RTWU thuật tốn song song PEAHUI-Miner theo mơ hình hạt mịn (fine-grain) từthuậttoán EAHUI-Miner Định nghĩa 3.1 [VI] Danh sách lợiíchmở rộng tậpphầntử Px ký hiệu exLstPx định nghĩa danh sách phần tử, phầntử bao gồm bốn trường: tid, iutil, itemutil rutil, đó: - tid định danh giao dịch chứa Px iutil lợiíchtậpphầntử P giao dịch tid chứa Px itemutil lợiíchphầntử x giao dịch tid chứa Px rutil lợiích lại phầntử lại giao dịch tid chứa Px, tính từphầntử sau phầntử x 20 Ngồi ra, danh sách lợiíchmở rộng tập Px có trường sau: - sumiutils tổng lợiíchtậpphầntử P giao dịch tid chứa Px sumitemutils tổng lợiíchphầntử x giao dịch tid chứa Px sumrutils tổng lợiích lại giao dịch có thứ tự tid chứa Px, bắt đầu tính từphầntử sau phầntử x Định nghĩa 3.2 [VI] Giá trị lợiích giao dịch lại cặp phầntử xy giao dịch Tj chứa cặp phầntử xy tổng lợiíchphầntử lại giao dịch có thứ tự Tj tính từphầntử x Kí hiệu RTWU(xy, Tj), [Tj\ SetPrefix(xy)] – giao dịch Tj chứa cặp phầntử xy bỏ phầntử đứng trước phầntử x Định nghĩa 3.3 [VI] Giá trị lợiích giao dịch lại cặp phầntử xy CSDL tổng giá trị lợiích giao dịch lại cặp phầntử xy giao dịch Tj chứa cặp phầntử xy CSDL Kí hiệu RTWU(xy) Định nghĩa 3.4 [VI] Cấu trúc RTWU xác định tập ba: (x; y; c) ∈ I x I x R Trong đó: - I tậpphầntử thuộc sở liệu; 21 - x, y phầntử thuộc I (x đứng trước y theo cách xếp đó); R tậpsố thực c = RTWU(xy) Định lý 3.1 [VI] Cho hai tập Px, Py mở rộng tập P hai danh sách lợiíchmở rộng Px Py exLstPx exLstPy Nếu min(exLstPx.sumiutls, exLstPy.sumiutls) + RTWU(xy) < minUtil Pxy các tậpmở rộng tậplợiích thấp Dựa Định lý 3.1, luận án đề xuất cải tiến thuậttoán FHM dựa cấu trúc RTWU, trình bày phần tiếp 3.3 Thuật tốn EAHUI-Miner dựa điều kiện RTWU Trongthuật tốn EAHUI-Miner gồm phần chính: - Xây dựng danh sách lợiíchmở rộng Khaiphátậplợiíchcao EAHUI-Miner Danh sách lợiíchmở rộng tập chứa phầntử xây dựng theo Định nghĩa 3.1 với tập P rỗng (nghĩa iutil=0) quét CSDL lần 3.3.1 Thuậttoán song song PEAHUI-Miner Thuậttoán PEAHUI-Miner xây dựng tảng OpenMP hỗ trợ lập trình song song mơi trường nhở chia sẻ Thuậttoán song song phân tải động theo mơ hình hạt mịn (finegrain) nhằm nâng cao khả cân tải tiến trình 22 3.3.2 Kết thực nghiệm Số lượng ứng viên:Bảng 3.1 thể số lượng tập ứng viên hai thuậttoán sinh Kết cho thấy thuậttoán FHM sinh nhiều tập ứng viện so với thuậttoán EAHUI-Miner Bảng 3.1 So sánh số lượng tập ứng viên Dataset minutil FHM EAHUI-Miner 10I4D100K 2500 153.016 125.647 10I4D100K 2500 153.016 125.647 Foodmart 1000 259.876 258.921 Mushroom 100K 1.588.018 1.587.927 Thời gian thực Thời gian thực thuật toán: EFIM, FHM EAHUI-Miner thể hình Hình 3.4, Hình 3.5, Hình 3.6 Hình 3.7 Kết cho thấy, thuật tốn EFIM thực nhanh sở liệu mà kích thước tậpphầntử I nhỏ, hai thuật tốn FHM EAHUI-Miner thực nhanh thuậttoán EFIM sở liệu mà kích thước tậpphầntử I lớn Hình 3.4 Thời gian thực Hình 3.5 Thời gian thực Mushroom Foodmart 23 Hình 3.6 Thời gian thực Hình 3.7 Thời gian thực T10I4D100K T10I4D200K Hình 3.8 Hình 3.9 so sánh thời gian thực thuậttoán EAHUI-Miner thuậttoán song song PEAHUIMiner sở liệu T10I4D100K, T10I4D200K Hình 3.8 Thời gian thực Hình 3.9 Thời gian thực T10I4D100K T10I4D200K 24 KẾT LUẬN VÀ KIẾN NGHỊ Kết luận án: Với mục tiêu xây dựng mơhình, cấu trúc liệu thuậttoán nhằm nâng cao hiệu thuậttoánkhaiphátập phổ biến cótrọngsốtậplợiíchcao Luận án đạt kết sau: Mơ hình lợiích ứng viên cótrọngsố (CWU – Candidate Weighted Utility) [II] dựa phân tích cho thấy mơ hình TWU nhiều thuậttoán sử dụng để cắt tỉa ứng viên khơng hiệu đánh giá ngưỡng cao nhiều so với giá trị lợiích thực tế Từmơ hình CWU đề xuất hai thuật tốn khaiphátậplợiíchcao HP [II] sử dụng số hình chiếu, CTU-PRO+ [III] sử dụng cấu trúc cho số lượng ứng viên thời gian thực nhanh so với sốthuậttoán Cấu trúc RTWU (Remaining Transaction-Weighted Utility) dựa giá trị lợiích giao dịch lại kết hợp với danh sách lợiíchmở rộng cặp phầntử cho cắt tỉa tập ứng viên Phân tích thuật tốn FHM [26] cho thấy để làm giảm chi phí kết nối (join) danh sách lợiích dựa vào lưu trữ giá trị TWU cặp phầntử Tuy nhiên, mô hình TWU đánh giá khơng hiệu cho cắt tỉa ứng viên Do đó, luận án đề xuất cấu trúc RTWU làm giảm chi phí kết nối tập ứng viên Dựa cấu trúc RTWU, đề xuất thuậttoán EAHUI-Miner [VI] 25 khaiphátậplợiíchcaothuậttoán song song PEAHUIMiner [VI] khaiphátậplợiíchcao cho kết thực nghiệm cósố lượng tập ứng viên thời gian thực nhanh sở liệu thưa nhiều giao dịch Thuậttoán song song PPB khaiphátậplợiíchcao kết hợp số hình chiếu, danh sách lợiích phương pháp lưu trữ giá trị lợiíchphầntử giao dịch để tính nhanh giá trị iutil rutil danh sách lợiích Cấu trúc mẫu lợiích nén (CUP) kết hợp với danh sách lợiích [IV] Mỗi nút CUP lưu trữ tậpphầntử danh sách lợiích Các phầntử xếp giảm dần theo tần suất xuất cho số nút Để khaiphátậplợiíchcao CUP, luận án đề xuất thuậttoán HUI-Growth [IV] Thuậttoán VMWFP [I] khaiphátập phổ biến lợiíchcao dựa cấu trúc diffset Từthuật tốn VMWFP cho thấy nhóm, lớp nhóm xử lý độc lập Do đó, luận án đề xuất thuậttoán song song PVMWFP [I] mơ hình chia sẻ nhớ Hướng pháttriển Luận án tập trung vào bước quan trọngkhaiphá luật kết hợp khaiphátập phổ biến cótrọngsốtậplợiích 26 cao Cụ thể, đề xuất mơhình, cấu trúc, thuật tốn song song khaiphátập phổ biến cótrọngsốtậplợiíchcaosở liệu giao dịch Tuy nhiên, khối lượng liệu ngày lớn phức tạp, cần cócó cấu trúc thuật tốn phù hợp Do vậy, luận án tiếp tục hướng nghiêncứu sau: Nghiêncứumơhình, cấu trúc thuật tốn hiệu khaitập phổ biến cótrọngsốtậplợiíchcao Đưa kỹ thuậtkhaiphá liệu mờ vào thuậttoán đề xuất Cài đặt, thử nghiệm thuậttoán tảng lập trình Hadoop mơ hình Map-Reduce cho toán liệu lớn ...2 Trên sở nghiên cứu, nhận xét đánh giá trên, nghiên cứu sinh chọn đề tài Nghiên cứu phát triển mơ hình, thuật tốn khai phá tập phần tử có trọng số lợi ích cao làm đề tài nghiên cứu cho luận... Tập lợi ích khơng có tính chất đóng, tính chất đảm bảo tập tập lợi ích cao tập tập lợi ích cao - Đa số thuật toán khai phá tập lợi ích cao sử dụng ngưỡng TWU để cắt tỉa tập ứng viên Đây ngưỡng cao. .. T10N5D100K 15 THUẬT TOÁN KHAI PHÁ TẬP LỢI ÍCH CAO TRÊN CÂY DANH SÁCH LỢI ÍCH VÀ ĐIỀU KIỆN RTWU 3.1 Cấu trúc liệu hiệu cho khai phá tập lợi ích cao Trong thuật tốn khai phá tập lợi ích cao sử dụng