Thuật toán khai phá nhanh tập lợi ích cao với số lượng phần tử tối thiểu

6 14 0
Thuật toán khai phá nhanh tập lợi ích cao với số lượng phần tử tối thiểu

Đang tải... (xem toàn văn)

Thông tin tài liệu

Bài viết trình bày đề xuất một chiến lược mới để tỉa tập ứng viên nhằm giảm không gian tìm kiếm và đề xuất thuật toán ImprovedMinFHM khai phá hiệu quả tập lợi ích cao với số lượng phần tử tối thiểu

Kỷ yếu Hội nghị KHCN Quốc gia lần thứ XI Nghiên cứu ứng dụng Công nghệ thông tin (FAIR); Hà Nội, ngày 09-10/8/2018 DOI: 10.15625/vap.2018.00066 THUẬT TỐN KHAI PHÁ NHANH TẬP LỢI ÍCH CAO VỚI SỐ LƯỢNG PHẦN TỬ TỐI THIỂU Nguyễn Mạnh Hùng 1, Đậu Hải Phong2 Phòng Sau đại học - Học viện Kỹ thuật Quân Khoa Toán Tin học, Trường Đại học Thăng Long manhhungk12@mta.edu.vn, phong4u@gmail.com TÓM TẮT: Khai phá tập lợi ích cao sở liệu giao dịch nhiệm vụ phổ biến khai phá liệu có ứng dụng rộng rãi nhiều lĩnh vực thực tế Các thuật toán truyền thống thường đưa số lượng lớn tập phần tử có lợi ích cao gây khó khăn cho phân tích người dùng Một khái niệm “tập lợi ích cao với số lượng phần tử tối thiểu” đề xuất năm 2016 tác giả Philippe Fournier-Viger đồng Thuật toán MinFHM khai phá tập lợi ích cao với số lượng phần tử tối thiểu dựa cấu trúc EUCS (Estimated Utility Co-Occurrence Structure) để loại bớt tập ứng viên nhằm giảm khơng gian tìm kiếm Tuy nhiên, cấu trúc EUCS sử dụng ngưỡng TWU (Transaction Weighted Utility), ngưỡng cao mức cần thiết Do đó, số lượng tập ứng viên sinh lớn nhiều so với thực tế tập lợi ích cao với số lượng phần tử tối thiểu sinh Trong báo đề xuất chiến lược để tỉa tập ứng viên nhằm giảm khơng gian tìm kiếm đề xuất thuật tốn ImprovedMinFHM khai phá hiệu tập lợi ích cao với số lượng phần tử tối thiểu Kết thử nghiệm liệu cho thấy thuật tốn ImprovedMinFHM có tốc độ thực nhanh sinh số lượng ứng viên so với thuật tốn MinFHM Từ khóa: High Utility Mining, TWU, EUCS, ImprovedMinFHM I GIỚI THIỆU Ngày nay, việc tìm kiếm tri thức tiềm ẩn khối lượng liệu khổng lồ gia tăng nhanh chóng tốn quan tâm Khai phá tập lợi ích cao (HUIs) dạng tốn khó để tìm kiếm tập có giá trị lợi ích lớn ngưỡng cho trước Khơng giống tìm tập phổ biến, tốn tìm tập lợi ích cao cho phép đánh giá mức độ quan trọng phần tử liệu Trong thuật tốn khai phá tập lợi ích cao truyền thống [1], [2], [3], [4], [5], [6], [7],… chúng sinh số lượng lớn tập lợi ích cao Điều làm tốn dung lượng lưu trữ thời gian để phân tích lượng lớn tập lợi ích cao [8], [9] Để giải vấn đề này, có số nhóm thuật tốn khai phá tập lợi ích cao đại diện đề xuất như: tập lợi ích đóng (Closed HUIsCHUI)[8], tập lợi ích lớn (Maximal HUIs-MaxHUI) [10], sinh tập lợi ích cao (Generator of HUIs GHUI) [9] Năm 2016, nhóm Philippe Fournier Viger [11] cộng đề xuất tốn khai phá tập lợi ích cao với số lượng phần tử tối thiểu (MinHUIs) nhằm giải vấn đề thường thấy thuật toán khai phá tập lợi ích cao tập lợi ích cao sinh gồm nhiều phần tử lại đại diện cho trường hợp gặp Ví dụ, có vài khách hàng mua số lượng lớn mặt hàng dẫn đến mặt hàng có khả tập lợi ích cao Nhưng với mục đích quảng cáo, tiếp thị nhà bán hàng quan tâm đến tìm kiếm số mặt hàng sinh lợi nhuận cao Khi đó, nhà bán hàng tập trung giới thiệu, quảng cáo số mặt hàng cho số lượng lớn khách hàng nhiều mặt hàng cho số khách hàng Một thách thức khai phá tập lợi ích cao tập lợi ích khơng có tính chất đóng (closure properties) [12], điều làm bùng nổ số lượng ứng viên tăng thời gian duyệt liệu để kiểm tra ứng viên Để giảm số lượng ứng viên đa số thuật tốn sử dụng ngưỡng TWU (Transactions Weighted Utility) Liu[13] đề xuất Thuật toán MinFHM [11] mở rộng thuật toán FHM [2] sử dụng cấu trúc lượng giá lợi ích đồng xuất cặp phần tử (EUCS) làm điều kiện để cắt tỉa tập ứng viên kết hợp với vài thuộc tính cho khai phá MinHUIs Kết cho thấy thuật toán MinFHM nhanh nhiều so với thuật toán FHM [2], CHUD [8], GHUI-Miner [9] Trong báo này, đề xuất chiến lược cắt tỉa thuật tốn ImprovedMinFHM để giảm số lượng ứng viên khơng gian tìm kiếm cho tốn khai phá tập lợi ích cao với số lượng phần tử tối thiểu Nội dung báo tổ chức sau: Phần II, vấn đề liên quan đến khai phá tập lợi ích cao với số lượng phần tử tối thiểu; Phần III, đề xuất chiến lược cắt tỉa thuật toán ImprovedMinFHM; Phần IV, Kết đánh giá; Phần cuối kết luận II VẤN ĐỀ LIÊN QUAN Cho sở liệu gồm giao dịch Ti D ={T 1,T2,T3,…Tn}, giao dịch xác định tid, tập I={i1,i2,i3,…in} gồm phần tử (item) xuất giao dịch Một tập phần tử X với X I gọi tập k-phần tử số lượng phần tử X k Nguyễn Mạnh Hùng, Đậu Hải Phong 507 Để thuận tiện giải thích khái niệm, đưa sở liệu giao dịch Bảng lợi ích ngồi phần tử cho Bảng Bảng Cơ sở liệu giao dịch Tid Transactions a:1, b:5, c:1, d:3, e:1 b:4, c:3, d:3, e:1 a:1, c:1, d:1 a:2, c:6, e:2 b:2, c:2, e:1 Bảng Lợi ích phần tử Item Utility a b c d e Định nghĩa [2] - Lợi ích (internal utility) phần tử giá trị phần tử giao dịch Ký hiệu: O(ik,Tj) - lợi ích phần tử ik giao dịch Tj Định nghĩa [2] - Lợi ích ngồi (external utility) phần tử giá trị lợi ích phần tử bảng lợi ích Ký hiệu: S(ik) lợi ích ngồi phần tử ik Định nghĩa [2] - Lợi ích phần tử giao dịch tích lợi ích lợi ích ngồi phần tử Ký hiệu: U( ik,Tj) = S(ik) * O(ik,Tj) lợi ích phần tử ik giao dịch Tj Định nghĩa [2] - Lợi ích tập phần tử X giao dịch Tj tổng giá trị lợi ích tất phần tử tập X giao dịch Tj Ký hiệu: U(X,Tj) = ∑ ( ) - lợi ích tập phần tử X giao dịch Tj Ví dụ, U({cd},T2) = 3*1 + 3*2 = Định nghĩa [2] - Lợi ích tập phần tử X sở liệu tổng lợi ích tập phần tử X tất giao dịch chứa X Ký hiệu: U(X) = ∑ ( ) Ví dụ, xét tập {ad}, ta thấy {ad}, xuất giao dịch: T1, T5 nên ta có: U({cd}) = U({cd}, T1) + U({cd}, T2) + U({cd}, T3) = (1*1 +3*2) + (3*1 + 3*2) + (1*1 +1*2) = + + = 19 =∑ Định nghĩa [2] - Lợi ích giao dịch tổng lợi ích phần tử giao dịch Ký hiệu: TU(Tj) ( ) - lợi ích giao dịch Tj Ví dụ, TU(T3) = 1*5 + 1*1 + 1*2 = Định nghĩa [2] - Lợi ích giao dịch tập phần tử X tổng lợi ích giao dịch có chứa tập phần tử X Ký hiệu: TWU(X) = ∑ ( ) lợi ích giao dịch tập phần tử X Ví dụ: TWU({cd}) = TU(T1) + TU(T2) + TU(T3)= 25 + 20 + = 53 Định nghĩa [2] - Tập phần tử lợi ích cao: Tập phần tử X gọi tập phần tử lợi ích cao (HU - High Utility) U(X) ≥ minutil, ngược lại gọi X tập phần tử lợi ích thấp Trong minutil ngưỡng lợi ích tối thiểu cho trước Ví dụ, lợi ích tối thiểu minutil = 12 tập {ad} tập phần tử lợi ích cao Tính chất [7] Cho tập phần tử X Nếu TWU(X) < minutil tập phần tử X tất tập phần tử mở rộng tập X tập lợi ích thấp Định nghĩa 10 [6] Cho tập phần tử X giao dịch T với X ⊆ T, tập hợp tất phần tử sau phần tử cuối tập X giao dịch T ký hiệu T\X Ví dụ, bảng T2\{abc} = {de}, T2\{cd} = {e} Định nghĩa 11 [6] Lợi ích cịn lại tập phần tử X giao dịch T, ký hiệu ru(X,T), tổng lợi ích tất phần tử T\X T Ký hiệu: ru(X,T) = ∑i∈(T\X)U(i,T) Ví dụ, ru({abc},T2) = 5*1+4*1 = Định nghĩa 12 [6] Danh sách lợi ích (utility-list) tập X danh sách phần tử tập gồm tid, iutil, rutil Trong đó: - tid định danh giao dịch chứa X - iutil lợi ích X tid, hay U(X, tid) - rutil lợi ích cịn lại tập phần tử X giao dịch tid - ru(X, tid) 508 THUẬT TỐN KHAI PHÁ NHANH TẬP LỢI ÍCH CAO VỚI SỐ LƯỢNG PHẦN TỬ TỐI THIỀU Tính chất [6] Lợi ích tập phần tử tổng giá trị iutil danh sách lợi ích Tính chất [6] Cho tập phần tử X với danh sách lợi ích, tổng tất iutils rutils danh sách lợi ích mà nhỏ ngưỡng minutil tất tập X’ mở rộng X khơng tập lợi ích cao Năm 2016, Philippe Fournier cộng đề xuất khái niệm tập lợi ích cao với số lượng phần tử tối thiểu (Minimal HUIs - MinHUIs) nhằm khắc phục nhược điểm tập lợi cao truyền thống thường gồm nhiều phần tử, đại diện cho trường hợp gặp Định nghĩa 13 [11] Một tập X gọi tập lợi ích cao có số lượng phần tử tối thiểu U(X) ≥ minutil không tồn tập Y X mà U(Y) ≥ minutil Ví dụ, giả sử minutil = 15, với sở liệu giao dịch bảng lợi ích ngồi Bảng Bảng 2, ta có tập lợi ích sau: - MinHUIs: {ac}:28, {bc}:28, {bd}:30, {be}:31, {ce}:27 - MaxHUIs: {abcde}: 25 - CHUIs: {ac}:28, {ace}:31, {abcde}:25, {bce}:37, {bcde}:40, {ce}:27 - GHUIs: {a}:20, {ab}:15, {ae}:24, {b}:22, {bd}:30, {de}:18, {e}:15 - HUIs khác: {bc}:28, {bcd}:34, {bde}:36, {be}:31 Một vấn đề xảy với tập MaxHUIs, CHUIs, GHUIs số lượng tăng lên nhanh minutil giảm Nhưng với MinHUIs số lượng tăng, giảm giữ nguyên, điều thể qua tính chất Tính chất [11] Nếu minutil thấp số lượng MinHUIs tăng, giảm giữ ngun Ngồi ra, minutil = số lượng tập MinHUIs I Ví dụ, với minutil = 20 MinHUIs gồm: {a}, {b}, {ce}; với minutil = 25 MInHUIs gồm: {bc}, {bd}, {be}, {ac} {c, e}; với minutil=30 MinHUIs gồm: {bd}, {be}, and {ace} Tính chất [11] Nếu tập X MinHUIs tất tập chứa tập X không MinHUIs Để giảm số lượng kết nối thuật toán FHM [2] sử dụng phương pháp cắt tỉa ước lượng giá trị lợi ích xuất (EUCP - Estimated Utility Co-occurrence Pruning) dựa cấu trúc ước lượng giá trị lợi ích xuất (EUCS - Estimated Utility Co-Occurrence Structure) Một cách cụ thể thuật toán FHM sử dụng EUCS để lưu trữ TWU tất cặp phần tử (a, b) Dựa vào tính chất đóng TWU, tất tập chứa cặp phần tử (a, b) có TWU(ab) nhỏ ngưỡng lợi ích tối thiểu khơng phải tập lợi ích cao để ngừng việc ghép nối danh sách lợi ích Dựa ý tưởng thuật toán FHM [2] để khai phá tất tập lợi ích cao, Philippe Fournier cộng xây dựng thuật toán MinFHM [11] để khai phá tập lợi ích cao với số lượng phần tử tối thiểu Tuy nhiên, theo Định nghĩa 13 tập tập lợi ích cao với số lượng phần tử tối thiểu khơng tồn tập tập lợi ích cao với số lượng phần tử tối thiểu Dựa vào tính chất này, chúng tơi đề xuất chiến lược cắt tỉa giảm số lượng tập ứng viên, khơng gian tìm kiếm thuật tốn ImproveFHM để khai phá hiệu tập lợi ích cao với số lượng phần tử tối thiểu III ĐỀ XUẤT THUẬT TỐN Trong phần chúng tơi đề xuất thuật tốn ImprovedMinFHM cải tiến từ thuật toán MinFHM [11] cho tốn khai phá tập lợi ích cao với số lượng phần tử tối thiểu với chiến lược cắt tỉa làm giảm số lượng tập ứng viên Theo Định nghĩa 13, tập phần tử lợi ích cao tối thiểu khơng có tập tập phần tử lợi ích cao Trong thuật tốn MinFHM, để xác định tập lợi ích cao với số lượng phần tử tối thiểu có kích thước từ phần tử trở lên, cần phải xây dựng danh sách lợi ích cho tập phần tử Pxy Tuy nhiên, theo Định nghĩa 13, Pxy tập lợi ích cao với số lượng phần tử tối thiểu x, y xy khơng phải tập lợi ích cao Từ nhận xét trên, đề xuất chiến lược cắt tỉa tập ứng viên sau: - Xây dựng danh sách lợi ích cao tối thiểu - LstMinimalHUIs Định nghĩa 14 - Tỉa tập ứng viên Pxy x y xy thuộc LstMinimalHUIs Định nghĩa 14 Danh sách tập lợi ích cao với số lượng phần tử tối thiểu kí hiệu LstMinimalHUIs định nghĩa sau: LstMinimalHUIs ={ X| X tập lợi ích cao với số lượng phần tử tối thiểu} Thuật tốn ImprovedMinFHM chúng tơi đề xuất gồm thủ tục sau: - Thủ tục ImprovedMinFHM bổ sung thêm phần tạo danh sách lợi ích cao tối thiểu LstMinimalHUIs so với thuật toán MinFHM [11] Nguyễn Mạnh Hùng, Đậu Hải Phong 509 - Thủ tục Search bổ sung thêm cải tiến quan trọng điều kiện cắt tỉa theo LstMinimalHUIs với việc kiểm tra x, y xy có thuộc danh sách lợi ích cao tối thiểu - LstMinimalHUIs Nếu x, y xy khơng thuộc tiến hành xây dựng danh sách cho tập phần tử Pxy Điều làm giảm thời gian xây dựng tập danh sách cho tập Pxy số lượng ứng viên sinh - Thủ tục Construct giống thuật toán MinFHM [11] Dưới chi tiết thủ tục: Thuật toán: ImprovedMinFHM Input: D: a transaction database, minutil: a user-specified threshold Output: the minimal high-utility itemsets Scan D to calculate the TWU of single items; I∗ = each item i such that TWU(i) ≥ minutil; Let ≻ be the total order of TWU ascending values on I∗; Scan D to build the utility-list of each item i∈I∗ and build the EUCS; For each item i ∈ I∗ such that SUM({i}.utilitylist.iutils) ≥ minutil build the LstMinimalHUIs; Search (∅, I∗, minutil, EUCS); Procedure Search Input: P: an itemset; ExtensionsOfP: a set of extensions of P; minutil: a user-specified threshold; EUCS: the EUCS; LstMinimalHUIs: the current minimal high-utility itemsets Output: The minimal high-utility itemsets foreach itemset Px ∈ExtensionsOfP if SUM(Px.utilitylist.iutils)+SUM(Px.utilitylist.rutils) ≥ minutil then ExtensionsOfPx=∅ foreach itemset Py∈ExtensionsOfP such that y x if (x LstMinimalHUIs) and (y LstMinimalHUIs) and (xy if (x, y, c) ∈ EUCS such that c ≥ minutil) then Pxy.utilitylist =Construct (P, Px, Py); ExtensionsOfPx =ExtensionsOfPx Pxy; if SUM(Pxy.utilitylist.iutils) ≥ minutil then 10 insert Px into LstMinimalHUIs; 11 endif 12 endif 13 endfor 14 Search (Px, ExtensionsOfPx, minutil); 15 endif 16 endfor LstMinimalHUIs) then Procedure Construct Input: P: an itemset, Px: the extension of P with an item x, Py: the extension of P with an item y; Output: the utility-list of P xy UtilityListOfP xy ← ∅; foreach tuple ex ∈ P x.utilitylist if ey ∈ P y.utilitylist and ex.tid = exy.tid then if P.utilitylist 6= ∅ then Search element e ∈ P.utilitylist such that e.tid = ex.tid.; exy ← (ex.tid, ex.iutil + ey.iutil − e.iutil, ey.rutil); end else exy ← (ex.tid, ex.iutil + ey.iutil, ey.rutil); 10 end 11 UtilityListOfP xy ← UtilityListOfP xy {exy}; 12 end 13 end 14 return UtilityListPxy; THUẬT TOÁN KHAI PHÁ NHANH TẬP LỢI ÍCH CAO VỚI SỐ LƯỢNG PHẦN TỬ TỐI THIỀU 510 IV KẾT QUẢ ĐÁNH GIÁ 4.1 Mơi trường liệu Thuật tốn thực máy tính HP core due 2.4GHz với GB nhớ, chạy Windows Chương trình viết ngôn ngữ Java Dữ liệu thử nghiệm gồm: Mushroom_utility [14] Accidents_utility [14] Đặc điểm liệu mơ tả phía dưới: Bảng Bảng tham số tập liệu thử nghiệm Database T D N Accidents 30 340.194 145 Mushroom 23 8.124 119 Trong đó: T - số phần tử trung bình giao dịch; N - số phần tử khác nhau; D - số giao dịch Các phần tử liệu sinh lợi ích ngồi (external utility) với phân phối loga chuẩn (log-normal) khoảng từ đến 1.000, lợi ích (internal utility) sinh ngẫu nhiêu khoảng đến Tất mã nguồn thuật tốn dùng so sánh liệu lấy thư viện khai phá liệu mở SPMF [14] 4.2 Số lượng tập ứng viên Kết thực nghiệm hai thuật toán MinFHM [11] ImprovedMinFHM ngưỡng lợi ích tối thiểu khác cho số lượng ứng viên sinh khác có số lượng tập lợi ích cao Bảng 4, cho biết số lượng tập ứng viên gồm phần tử (3-itemsets) trở lên 02 thuật toán với ngưỡng lợi ích tối thiểu (minutil) khác Kết cho thấy thuật tốn ImprovedMinFHM khơng có tập ứng viên có kích thước từ phần tử trở lên Bảng So sánh số lượng ứng viên có kích thước từ phần tử trở lên sinh thuật toán MinFHM ImprovedMinFHM Mushroom Accidents minutil 250.000 220.000 200.000 12.000.000 11.000.000 10.000.000 MinFHM 945 1.073 1.029 2.019 2.184 1.980 ImprovedMinFHM 0 0 0 4.3 Thời gian thực Kết thử nghiệm, so sánh thuật toán ImprovedMinFHM thuật toán MinFHM [11] tập liệu Mushroom Accidents với ngưỡng lợi ích tối thiểu khác thể Hình Hình Hình So sánh thời gian thực tập liệu Mushroom Hình So sánh thời gian thực tập liệu Accidents Nguyễn Mạnh Hùng, Đậu Hải Phong 511 V KẾT LUẬN Trong báo chúng tơi tìm hiểu tốn khai phá tập lợi ích cao với số lượng phần tử tối thiểu, phân tích điểm hạn chế thuật toán MinFHM (thuật toán nay) đề xuất chiến lược cắt tỉa tập ứng viên theo LstMinimalHUIs Từ chiến lược đề xuất thuật toán MinFHM[11], chúng tơi đề xuất thuật tốn ImprovedMinFHM khai phá hiệu tập lợi ích cao với số lượng phần tử tối thiểu Kết thực nghiệm so sánh với thuật toán MinFHM số liệu cho thấy thuật toán đề xuất ImprovedMinFHM cho số lượng tập ứng viên thời gian thực nhanh VI TÀI LIỆU THAM KHẢO [1] A C F and T S K “Efficient Tree Structures for Highutility Pattern Mining in Incremental Databases” 2009 [2] P Fournier-Viger, C W Wu, S Zida, and V S Tseng “FHM: Faster High-Utility Itemset Mining Using Estimated Utility Co-occurrence Pruning” in Foundations of Intelligent Systems, 2014, pp 83-92 [3] G C Lan, T P Hong, and V S Tseng “An efficient projection-based indexing approach for mining high utility itemsets” Knowl Inf Syst., vol 38, no 1, pp 85-107, Jan 2014 [4] S Krishnamoorthy “Pruning Strategies for Mining High Utility Itemsets” Expert Syst Appl, vol 42, no 5, pp 2371-2381, Apr 2015 [5] Y C Li, J S Yeh, and C C Chang “Isolated items discarding strategy for discovering high utility itemsets” Data Knowl Eng., vol 64, no 1, pp 198-217, Jan 2008 [6] M Liu and J Qu “Mining High Utility Itemsets Without Candidate Generation” in Proceedings of the 21st ACM International Conference on Information and Knowledge Management, New York, NY, USA, 2012, pp 55-64 [7] Y Liu, W Liao, and A Choudhary “A Two-phase Algorithm for Fast Discovery of High Utility Itemsets” in Proceedings of the 9th Pacific-Asia Conference on Advances in Knowledge Discovery and Data Mining, Berlin, Heidelberg, 2005, pp 689-695 [8] “Efficient Algorithms for Mining the Concise and Lossless Representation of High Utility Itemsets - IEEE Journals & Magazine” [Online] Available: https://ieeexplore.ieee.org/document/6871427/ [Accessed: 16-May2018] [9] P Fournier-Viger, C W Wu, and V S Tseng “Novel Concise Representations of High Utility Itemsets Using Generator Patterns” in Advanced Data Mining and Applications, 2014, pp 30-43 [10] B E Shie, P S Yu, and V S Tseng “Efficient algorithms for mining maximal high utility itemsets from data streams with different models” Expert Syst Appl., vol 39, no 17, pp 12947-12960, Dec 2012 [11] P Fournier Viger, C W Lin, C W Wu, V S Tseng, and U Faghihi “Mining Minimal High-Utility Itemsets” 2016, vol 9827, pp 88-101 [12] R Agrawal and R Srikant “Fast Algorithms for Mining Association Rules in Large Databases”, presented at the Proceedings of the 20th International Conference on Very Large Data Bases, 1994, pp 487-499 [13] Y Liu, W Liao, and A Choudhary “A Fast High Utility Itemsets Mining Algorithm” in Proceedings of the 1st International Workshop on Utility-based Data Mining, New York, NY, USA, 2005, pp 90-99 [14] P Fournier-Viger, A Gomariz, T Gueniche, A Soltani, C W Wu, and V S Tseng “SPMF: A Java Open-source Pattern Mining Library” J Mach Learn Res, vol 15, no 1, pp 3389-3393, Jan 2014 FAST MINING MINIMAL HIGH-UTILITY ITEMSETS Nguyen Manh Hung, Dau Hai Phong ABSTRACT: Mining high utility itemsets in transaction databases is one of the common tasks in data mining and has wide applications in many areas Traditional mining high utility itemsets algorthithms often offer a large number of high utility itemsets causing difficulty for analyzing them A concept of "high utility itemsets with the minimum number of itemsets" proposed in 2016 by Philippe Fournier-Viger et al The MinFHM algorithm for high utility itemsets with the minimum number of itemsets based on the Estimated Utility Co-Occurrence Structure (EUCS) to prune candidate itemsets to reduce search space However, the EUCS structure uses the Transaction Weighted Utility (TWU) threshold, which is a higher threshold than required As a result, the number of candidate itemsets is much greater than the actual high utility itemsets with the minimum number of itemsets generated In this paper, we propose a new strategy for pruning candidate itemsets to reduce search space and propose ImprovedMinFHM algorithms for mining high utility itemsets with minimal number of itemsets The experimental results show that the ImprovedMinFHM algorithm is faster and produces fewer candidates itemsets than the MinFHM algorithm ... phá tập lợi ích cao với số lượng phần tử tối thiểu với chiến lược cắt tỉa làm giảm số lượng tập ứng viên Theo Định nghĩa 13, tập phần tử lợi ích cao tối thiểu khơng có tập tập phần tử lợi ích cao. .. lợi ích cao, Philippe Fournier cộng xây dựng thuật toán MinFHM [11] để khai phá tập lợi ích cao với số lượng phần tử tối thiểu Tuy nhiên, theo Định nghĩa 13 tập tập lợi ích cao với số lượng phần. .. lợi ích X tid, hay U(X, tid) - rutil lợi ích lại tập phần tử X giao dịch tid - ru(X, tid) 508 THUẬT TOÁN KHAI PHÁ NHANH TẬP LỢI ÍCH CAO VỚI SỐ LƯỢNG PHẦN TỬ TỐI THIỀU Tính chất [6] Lợi ích tập

Ngày đăng: 30/09/2021, 15:58

Tài liệu cùng người dùng

Tài liệu liên quan