1. Trang chủ
  2. » Giáo án - Bài giảng

Một thuật toán hiệu quả để trích xuất tập Skyline

14 5 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 14
Dung lượng 780,36 KB

Nội dung

Trong bài viết này, nhóm tác giả đề xuất thuật toán SkyMiner để khai thác tập SFUPs hiệu quả hơn bằng cách sử dụng cấu trúc lưu trữ utility-list kết hợp với các chiến lược cắt tỉa nhằm làm giảm đáng kể số lượng các ứng viên cần phải tìm kiếm trong quá trình khai thác.

N T T Thủy, M T Lý, N V Lễ, V V Vinh / Một thuật toán hiệu để trích xuất tập Skyline MỘT THUẬT TỐN HIỆU QUẢ ĐỂ TRÍCH XUẤT TẬP SKYLINE Nguyễn Thị Thanh Thủy, Mạnh Thiên Lý, Nguyễn Văn Lễ Vũ Văn Vinh Trường Đại học Cơng nghiệp Thực phẩm TP Hồ Chí Minh Ngày nhận 06/10/2020, ngày nhận đăng 23/12/2020 Tóm tắt: Khai thác tập hữu ích phổ biến thuộc đường chân trời (Skyline frequentutility patterns (SFUPs)) việc khám phá tập mặt hàng (itemset) vượt trội tập mặt hàng khác tần số độ hữu ích sở liệu giao dịch Trong năm gần đây, nhiều thuật toán đề xuất nhằm khai thác tập hữu ích phổ biến thuộc đường chân trời, SkyFUP thuật tốn hiệu Tuy nhiên, thuật tốn SkyFUP cịn hạn chế thời gian thực thi không gian lưu trữ Trong báo này, nhóm tác giả đề xuất thuật toán SkyMiner để khai thác tập SFUPs hiệu cách sử dụng cấu trúc lưu trữ utility-list kết hợp với chiến lược cắt tỉa nhằm làm giảm đáng kể số lượng ứng viên cần phải tìm kiếm trình khai thác Kết thực nghiệm cho thấy thuật tốn SkyMiner có hiệu suất thực thi tốt thuật toán SkyFUP thời gian thực thi, nhớ sử dụng số lượng ứng viên tạo Từ khóa: SFUPs; tập hữu ích phổ biến thuộc đường chân trời; EUCS; LA Giới thiệu Trong bối cảnh kinh tế xã hội ngày phát triển nhu cầu mua sắm khách hàng ngày đa dạng phong phú Sự cạnh tranh doanh nghiệp việc thu hút khách hàng tối đa hóa lợi nhuận ngày khốc liệt Để giúp doanh nghiệp khai thác thơng tin hữu ích từ thói quen mua hàng khách hàng, nghiên cứu khai thác tập phổ biến (Frequent Pattern Mining - FIM) [1-4] khai thác luật kết hợp (Association Rule Mining - ARM) [5-7] thực để tìm tập mặt hàng thường khách hàng mua sở liệu giao dịch Tuy nhiên, nghiên cứu quan tâm đến tập mặt hàng dựa vào tần suất xuất tập mặt hàng sở liệu giao dịch mà không xem xét đến lãi suất, lợi nhuận, trọng lượng rủi ro chúng Do đó, nghiên cứu khai thác tập hữu ích cao (Mining High Utility Itemsets - HUIM) đời nhằm khai thác tìm kiếm tập mặt hàng mang lại lợi nhuận cao cho nhà bán lẻ cách quan tâm số lượng lợi nhuận mặt hàng [8-12] Bên cạnh đó, để tối ưu hóa lợi nhuận định hướng chiến lược kinh doanh, ban đầu nghiên cứu top-k dựa luật kết hợp (Top-k Association-Rule Mining) [13-15] thực để giúp nhà quản lý tìm tập mặt hàng khách hàng mua nhiều lần Sau đó, nghiên cứu top-k tập hữu ích cao (Top-k High-Utility) [16-18] thực để tìm tập mặt hàng mang lại lợi nhuận cao cho doanh nghiệp Mặc dù nghiên cứu top-k hữu ích thực tế, nghiên cứu quan tâm đến hai khía cạnh tần suất độ hữu ích mà chưa có kết hợp hai yếu tố Để giải vấn đề này, số thuật toán gần đề xuất nhằm khai thác tập mặt hàng vượt trội tất tập mặt hàng khác tần suất Email: thuyntt@hufi.edu.vn (N T T Thủy) 68 Trường Đại học Vinh Tạp chí khoa học, Tập 49 - Số 4A/2020, tr 68-81 độ hữu ích, gọi tập hữu ích phổ biến thuộc đường chân trời (SFUPs) SKYMINE [19], SFU-Miner [20], SKYFUP-D [21] Tuy nhiên, thuật toán tốn thời gian thực không gian nhớ Trong báo này, chúng tơi đề xuất thuật tốn có tên SkyMiner để tìm tập SFUPs hiệu thuật toán trước cách áp dụng chiến lược cắt tỉa nhằm giảm thời gian thực không gian lưu trữ trình thực thi thuật tốn Những đóng góp quan trọng báo bao gồm: - Sử dụng cấu trúc utility-list để lưu trữ thông tin độ hữu ích tần suất xuất tập mặt hàng, làm sở cắt tỉa trình khai thác - Đề xuất thuật tốn SkyMiner để khai thác tập SFUPs cách hiệu Áp dụng chiến lược cắt tỉa U-Prune, LA-Prune EUCS-Prune trình khai thác giúp giảm thời gian tìm kiếm không gian lưu trữ - Kết thử nghiệm liệu thưa, dày liệu tăng trưởng theo độ lớn chứng tỏ thuật tốn SkyMiner mà chúng tơi đề xuất có hiệu suất thực tốt thuật toán SKYFUP thời gian thực thi, nhớ sử dụng số lượng ứng viên phát sinh Bài báo cấu trúc sau: Phần trình bày nghiên cứu liên quan đến khai thác tập SFUPs Phần trình bày định nghĩa quan trọng khai thác tập SFUPs Phần trình bày thuật tốn SkyMiner Phần trình bày kết thực nghiệm thuật tốn Cuối cùng, kết luận hướng nghiên cứu tương lai trình bày phần Các cơng trình liên quan Trong phần này, chúng tơi trình bày cơng trình nghiên cứu liên quan đến vấn đề đề xuất báo này, bao gồm: tập phổ biến (Frequent Itemsets FIs), tập hữu ích cao (High Utility Itemsets - HUIs) SFUPs 2.1 Tập phổ biến Từ năm 90 kỷ XX, nhiều nghiên cứu tập trung vào lĩnh vực khai thác tập phổ biến Khai thác tập phổ biến tìm tập hợp chứa mục, tập mục xuất thường xuyên Năm 1994, Agrawal cộng đề xuất thuật toán Apriori [5] để khám phá tất luật kết hợp quan trọng mặt hàng sở liệu giao dịch lớn Apriori thuật toán phổ biến phương pháp tiếp cận theo cấp độ (level-wise approach) với ứng viên tạo nhiều mức Nhiều nghiên cứu khác tập phổ biến thực [1-4] Tuy nhiên, nghiên cứu tập phổ biến FIM ARM trọng đến tần suất xuất tập mặt hàng mà quan tâm đến yếu tố khác như: lợi nhuận (unit profit), trọng lượng (weight) hay độ thú vị (interestingness) mặt hàng 2.2 Tập hữu ích cao HUIM hướng nghiên cứu mở rộng FIM xem xét số lượng (quanlity) lợi nhuận (profit) mặt hàng sở liệu để khai thác tập mục hữu ích cao Khai thác HUIs khám phá tập hợp chứa tất tập mặt hàng thỏa mãn ngưỡng độ hữu ích tối thiểu cho trước, ký hiệu minUtil Thơng thường, ngưỡng độ hữu ích tối thiểu người dùng xác định Trong thời gian qua, nhiều nghiên cứu thực lĩnh vực có nhiều thuật tốn đề xuất để nâng cao hiệu vấn đề khai thác HUIs 69 N T T Thủy, M T Lý, N V Lễ, V V Vinh / Một thuật toán hiệu để trích xuất tập Skyline Trong giai đoạn đầu, khai thác HUIs chủ yếu thực hai pha, pha thực tìm ứng viên có TWU cao, pha khai thác HUIs từ danh sách ứng viên tìm Các thuật tốn pha điển hình như: Two-Phase [8], TWU-Mining [22], UPGrowth [10], UP-Growth+ [23] Việc khai thác HUI thuật toán hai pha nhiều thời gian lãng phí nhớ số lượng ứng viên tìm thấy lớn số lượng HUI nhận nhỏ Để giải vấn đề này, năm 2012, Liu cộng đề xuất thuật tốn để khai thác HUI có tên HUI-Miner (High Utility Itemset Miner) [24] Ngoài ra, cấu trúc lưu trữ utility-list đề xuất để lưu trữ thơng tin hữu ích mặt hàng thông tin heuristic nhằm cắt tỉa khơng gian tìm kiếm Mỗi utility-list gồm thành phần: mã giao dịch (tid) chứa tập mặt hàng, độ hữu ích tập mặt hàng giao dịch (iutil) giá trị hữu ích cịn lại giao dịch (rutil) Năm 2017, Zida cộng đề xuất thuật tốn EFIM [25] khai thác tập hữu ích cao hiệu với việc đề xuất hai kỹ thuật nhằm giảm thời gian khai thác HUI phép chiếu giao dịch (High-utility Database Projection - HDP) phép trộn giao dịch (Highutility Transaction Merging - HTM) Ngồi ra, nhóm tác giả EFIM đề xuất hai ngưỡng giới hạn (upper-bounds) nhằm thu gọn khơng gian tìm kiếm, là: độ hữu ích (sub-tree utility) độ hữu ích cục (local utility) Cũng năm 2017, thuật toán HMiner đề xuất Krishnamoorthy [26], bật cấu trúc liệu Compact Utility List (CUL) kết hợp với nhiều chiến lược cắt tỉa khác để khai thác HUI cách hiệu 2.3 Tập hữu ích phổ biến thuộc đường chân trời Các thuật toán FIM HUIM đề xuất cho thấy hiệu khai thác cao Nhiều nghiên cứu thực nhằm xem xét kết hợp tần suất xuất độ hữu ích tập mặt hàng khai thác liệu [27, 28] Tuy nhiên, thuật toán chủ yếu xác định tập mục hữu ích phổ biến dựa vào hai ngưỡng độ hữu ích tối thiểu ngưỡng hỗ trợ tối thiểu Việc xác định ngưỡng xác tốn khai thác liệu ln vấn đề khó khăn quan trọng Một hướng nghiên cứu thực nhằm khai thác tập mặt hàng hữu ích theo quan điểm ưu tiên người sử dụng, theo tích hợp ý tưởng truy vấn đường chân trời việc khai thác mẫu Đường chân trời tập hợp điểm mà điểm không bị thống trị (dominate) điểm khác dựa nhiều chiều Nhiều nghiên cứu thực để khai thác mẫu sử dụng khái niệm đường chân trời Năm 2015, Goyal cộng đề xuất thuật tốn SKYMINE để tìm tập hữu ích phổ biến thuộc đường chân trời (SFUP) [19] SFUP tập mặt hàng không bị thống trị tập mặt hàng khác Việc tìm SFUPs thực cách xem xét độ hữu ích tần suất xuất tập mặt hàng Thuật toán SKYMINE dựa cấu trúc UPTree gồm hai giai đoạn gọi Filter Refine Năm 2017, Pan cộng đề xuất thuật toán SFU-Miner khai thác SFUPs hai pha [20] Pha đầu tìm tất ứng viên dự kiến SFUP, pha duyệt qua tất ứng viên để xác định ứng viên SFUP Năm 2018, hai thuật toán SKYFUP-D SKYFUP-B đề xuất Lin cộng [21] để khai thác SFUPs Ngoài ra, cấu trúc utility-list hiệu sử dụng để khai thác SFUPs thay cấu trúc UP-tree sử dụng thuật toán SKYMINE Các kết thực nghiệm cho thấy thuật toán SkyFUP đề xuất hiệu so với thuật toán SKYMINE đề xuất trước 70 Trường Đại học Vinh Tạp chí khoa học, Tập 49 - Số 4A/2020, tr 68-81 Các định nghĩa ký hiệu Cho tập hợp mặt hàng (item) khác sở liệu giao dịch có giao dịch (transaction), với , | , số lượng mặt hàng giao dịch Tj Mỗi mặt hàng có giá trị lợi nhuận (profit value) Mỗi mặt hàng giao dịch có số lượng mua Một ví dụ sở liệu giao dịch cho Bảng lợi nhuận mặt hàng cho Bảng Bảng 1: Cơ sở liệu giao dịch TID Giao dịch ( ) Số lượng mua ( ) 2, 2, 7, 10 1, 1, 2, 3, 2, 5, 5, 3, 1, 1, 4, 2, 5, 4, 2, 1, 2, Độ hữu ích ( ) 8, 6, 7, 20 4, 3, 6, 12, 18 6, 5, 20, 9, 4, 3, 4, 4, 15, 4, 10 6, 1, 4, Độ hữu ích giao dịch ( ) 41 15 30 15 32 32 14 20 Bảng 2: Lợi nhuận mặt hàng Mặt hàng Lợi nhuận 3 Tần số xuất tập mặt hàng , ký hiệu: , số lượng giao dịch sở liệu có chứa Ví dụ: Trong Bảng 1, Độ hữu ích mặt hàng giao dịch , ký hiệu: Ví dụ: Độ hữu ích mặt hàng giao dịch tính: Độ hữu ích tập mặt hàng giao ∑ dịch , ký hiệu: ( ) định nghĩa: ( ) Ví dụ: Độ hữu ích tập mặt hàng sở liệu giao dịch , ký hiệu: định nghĩa: ∑ Ví dụ: Độ hữu ích giao dịch sở liệu , ký hiệu: ( ) định nghĩa: ( ) ∑ Ví dụ: Độ hữu ích trọng số giao dịch tập mặt hàng sở liệu ∑ kí hiệu định nghĩa: ( ) Ví dụ: 71 N T T Thủy, M T Lý, N V Lễ, V V Vinh / Một thuật tốn hiệu để trích xuất tập Skyline Một thứ tự toàn phần xây dựng dựa việc xếp tăng dần theo mặt hàng sở liệu Trong sở liệu cho Bảng 1, thứ tự toàn phần mặt hàng là: Bảng thể mặt hàng sau tăng dần Bảng thể sở liệu sau tăng dần theo mặt hàng sau tăng dần Bảng 3: Items twu 47 122 122 129 150 155 Bảng 4: Cơ sở liệu sau tăng dần theo TID Giao dịch ( ) Số lượng mua Độ hữu ích giao Độ hữu ích ( ) ( ) dịch ( ) 7, 10, 2, 7, 20, 8, 41 2, 2, 1, 2, 6, 4, 15 6, 18, 12 30 5, 2, 1, 5, 2, 4, 2, 5, 1, 5, 4, 3, 20, 2, 4, 4, 15, 4, 15 32 4, 4, 10 1, 2, 3, 1, 4, 9, 14 20 32 Tập tất mặt hàng sau ký hiệu | Ví dụ: Trong Bảng 4, | | Độ hữu ích sau tập mặt hàng giao dịch , ký hiệu: ), tổng độ hữu ích tất mặt hàng sau , định nghĩa: ( ) ∑ Ví dụ: = | Để xem xét lúc hai yếu tố tần suất độ hữu ích, định nghĩa khai thác tập phổ biến hữu ích cao trình bày bên Định nghĩa Một tập mặt hàng thống trị/vượt trội tập mặt hàng và , ký hiệu: Ví dụ: Trong Bảng 1, xét tập mặt hàng Ta có , , , Do đó, Tương tự, tập mặt hàng Định nghĩa Một tập mặt hàng sở liệu tập hữu ích phổ biến thuộc đường chân trời (Skyline Frequent-Utility Pattern - SFUP) không bị thống trị tập mặt hàng khác sở liệu tần suất độ hữu ích (nghĩa khơng tồn tập mặt hàng thỏa điều kiện: 72 Trường Đại học Vinh Tạp chí khoa học, Tập 49 - Số 4A/2020, tr 68-81 Ví dụ: Trong Bảng 1, tần số độ hữu ích tính 33; tần số độ hữu ích tính 63; tần số độ hữu ích tính 82 Các tập tập mặt hàng , xem khơng tồn tập mặt hàng khác thống trị chúng tần số độ hữu ích (nghĩa khơng có tập mặt hàng có tần số độ hữu ích lớn tập mặt hàng này) Thuật toán SkyMiner Trong phần này, chúng tơi đề xuất thuật tốn khai thác tập hữu ích cao phổ biến thuộc đường chân trời Thuật tốn (SkyMiner) thuật tốn chính, có liệu đầu vào sở liệu giao dịch , liệu tập Skyline Frequent-Utility Patterns ( ) Khởi đầu quét sở liệu để tính cho mục có tập mục trình bày dịng Dòng xếp mặt hàng tập tăng dần theo giá trị , đồng thời xếp mục tất giao dịch theo thứ tự tập Từ dòng đến dòng khởi tạo danh sách utility-list [24] phần tử, khởi tạo cấu trúc [12], khởi tạo cấu trúc [21] danh sách kết để chứa phần tử SFUP Dịng gọi thực Thuật tốn (SearchSFUP) Dòng 10 trả kết tập kết thúc thuật toán Thuật toán 1: SkyMiner Vào: Cơ sở liệu giao dịch Ra: Tập tất mục Skyline Frequent-Utility Parttens (SFUPs) Quét sở liệu để tính cho mục có Sắp xếp tập tăng theo , xếp mục tất giao dịch thứ tự tập Khởi tạọ danh sách utility-list phần tử Khởi tạo cấu trúc for each k ( | |) ; end for SFUPs ; SearchSFUP( ) 10 return theo Thuật tốn (SearchSFUP) có liệu đầu vào gồm có : utility-list với vai trị tiền tố; : Danh sách utility-list có tiền tố ; : Danh sách độ hữu ích lớn theo độ hỗ trợ thời điểm thủ tục gọi; : tập mặt hàng dự kiến thời điểm xét Dữ liệu tập cập nhật Dịng duyệt qua utility-list có danh sách utility-list phần tử Dòng xác định giá trị với đặt giá trị Dòng 3, 4, kiểm tra điều kiện gọi thủ tục để cập nhật tập Dòng áp dụng chiến lược tỉa U-Prune [24] cách kiểm tra điều kiện, thực bước để tạo danh sách utility-list mở rộng từ utility-list , ngược lại ngừng mở rộng với Dịng áp dụng chiến lược tỉa EUCSPrune, thực thủ tục để tạo uilitylist từ utility-list và thêm vào danh sách , ngược lại không tạo utilitylist Dòng 13 gọi đệ quy thủ tục SearchSFUP để tiếp tục mở rộng tập SFUPs 73 N T T Thủy, M T Lý, N V Lễ, V V Vinh / Một thuật tốn hiệu để trích xuất tập Skyline Thuật toán 2: SearchSFUP Vào: : utility-list với vai trò tiền tố; : Danh sách utility-list có tiền tố utility-list : Danh sách độ hữu ích lớn theo độ hỗ trợ thời điểm khai thác : Tập mục SFUP dự kiến thời điểm xét Ra: Tập cập nhật for each if then ; end if if //áp dụng chiến lược tỉa U-Prune //Khởi tạo danh sách utility-list mở rộng từ X for each after in if then //Áp dụng chiến lược tỉa EUCP 10 ; 11 end if 12 end for 13 ; //gọi đệ quy thuật toán 14 end if 15 end for Thuật toán (UpdateSFUP) với liệu vào gồm : utility-list xem xét có khả ; : Tập mục skyline frequent utility parttens dự kiến thời điểm xét; : Danh sách tiện ích lớn theo độ hỗ trợ Dữ liệu tập danh sách cập nhật Dòng 1, tìm tập cho , khơng tồn tập ( ) có tập thực cập nhật bước Từ dịng đến dịng 7, tìm phần tử cho xóa Z khỏi Dịng đến dịng 12 cập nhật danh sách từ vị trí đến vị trí , cập nhật Dịng 13 thêm vào danh sách Thuật toán 3: UpdateSFUP Vào: : utility-list; : Tập mục skyline frequent utility parttens cần cập nhật : Danh sách độ hữu ích lớn theo độ hỗ trợ Ra: Tập cập nhật Danh sách cập nhật Tìm tập cho if then for each if then Xóa Z khỏi 74 Trường Đại học Vinh end if end for for if 10 11 end if 12 end for 13 14 end if Tạp chí khoa học, Tập 49 - Số 4A/2020, tr 68-81 then ; ; // chuyển thành , sau đưa X vào tập SFUPs Thuật toán (Construct) thực kết hợp utility-list thành utility-list Dòng khởi tạo giá trị ban đầu cho Dòng 2, duyệt qua phần tử tìm phần tử cho Nếu tìm thấy tạo phần tử kết hợp từ trường hợp xem xét dòng Nếu utility-list tiền tố (trường hợp 1), nghĩa utility-list tạo tương ứng với tập mặt hàng có từ mặt hàng trở lên, ngược lại (trường hợp 2) utility-list tương ứng với tập mặt hàng có mặt hàng Dòng tạo phần tử ứng với trường hợp 1, dòng tạo phần tử ứng với trường hợp 2, dòng 10 thêm vào utility-list Dòng 12 xét điều kiện khơng tồn mà áp dụng chiến lược tỉa LA-Prune [29] từ dòng 13 đến 17 Dòng 20 trả kết utility-list Thuật toán 4: Construct Vào: : utility-list với vai trò tiền tố : Hai utility-list cần kết hợp : Tiện ích lớn độ hỗ trợ tương ứng với Ra: : utility-list sau kết hợp ; for each element then if then if then Tìm cho ; ; else ; end if 10 ; 12 else 13 14 if then // áp dụng chiến lược tỉa LA-Prune 15 return null; 16 end if 17 Continue; 18 end if 19 end for 20 return ; 75 N T T Thủy, M T Lý, N V Lễ, V V Vinh / Một thuật toán hiệu để trích xuất tập Skyline Thực nghiệm Thuật tốn SkyMiner cài đặt ngơn ngữ lập trình Java, máy tính Dell Precision Tower 3620, Intel Core i7-7800X CPU @3.5GHz, nhớ RAM 32GB hệ điều hành Windows 10 Các sở liệu thử nghiệm gồm Chess, Mushroom, Accident, Foodmart, Retail, Chainstore tải từ thư viện SPMF [30] sở liệu tổng hợp có tên T10I4N4KD500K [31] Chi tiết sở liệu trình bày Bảng Thực nghiệm thuật toán SkyMiner so sánh với thuật toán khai thác tập SFUPs SkyFUP [21] Kết thực nghiệm đánh giá dựa thời gian thực thi, dung lượng nhớ sử dụng số lượng ứng viên tạo trình thực thi thuật toán Bảng 5: Đặc điểm sở liệu thực nghiệm Chess Mushroom Số lượng giao dịch 3,196 8,124 Số lượng mặt hàng (I) 75 119 Độ dài trung bình (A) 37 23 Độ dày (A/I) % 49.3333 19.3277 Accident Foodmart 340,183 4141 468 1559 33.8 4.4 7.2222 0.2822 Retail Chainstore 88,162 1,112,949 16,470 46,086 10.3 7.3 0.0625 0.0158 500,000 3547 10 0.0028 Cơ sở liệu T10I4N4KD500K 5.1 So sánh thời gian thực thi Thời gian thực thi thuật toán sở liệu thử nghiệm trình bày Bảng Kết cho thấy thời gian thực thi thuật toán SkyMiner nhanh thuật toán SkyFUP tất liệu thử nghiệm Với sở liệu dày Chess, Mushroom Accident thời gian thực thi thuật tốn SkyMiner nhanh thuật tốn SkyFUP khơng đáng kể chiến lược tỉa EUCS-Prune LA-Prune không loại bỏ nhiều ứng viên Tuy nhiên, sở liệu thưa Foodmart, Retail, Chainstore T10I4N4KD500K thời gian thực thi thuật tốn SkyMiner nhanh nhiều so với thuật toán SkyFUP Cụ thể, với sở liệu Foodmart, thuật tốn SkyMiner có thời gian thực thi 0.03 giây, nhanh 10 lần so với thuật toán SkyMiner 0.31 giây Đặc biệt, với sở liệu Chainstore, thời gian thực thi thuật toán SkyMiner 24.01 giây, nhanh 88 lần so với thuật toán SkyFUP Để so sánh thời gian thực theo độ lớn sở liệu, thực nghiệm sở liệu T10I4N4KD|X|K có độ lớn |X| tăng trưởng từ 100,000 giao dịch đến 500,000 giao dịch Kết trình bày Hình 3a cho thấy thời gian thực thuật toán SkyMiner tăng nhẹ mức thấp từ 1.37 giây (|X| = 100,000) đến 4.72 giây (|X| = 500,000) Trong đó, thuật tốn SkyFUP có thời gian thực tăng tuyến tính mạnh theo độ lớn từ 49.6 giây (|X| = 100,000) đến 335.7 giây (|X| = 500,000) Kết cho thấy với sở liệu thuật tốn SkyFUP hiệu số lượng giao dịch tăng cao, hiệu suất thực thi thuật toán SkyMiner ổn định 76 Trường Đại học Vinh Tạp chí khoa học, Tập 49 - Số 4A/2020, tr 68-81 Bảng 6: So sánh thời gian thực thi hai thuật toán SkyFUP SkyMiner Đơn vị (giây) SkyFUP SkyMiner Chess Mushroom Accident Foodmart Retail Chainstore T10I4N4KD500K 33.37 1.58 985.61 0.31 78.47 2,128.55 334.71 31.82 1.41 969.98 0.03 2.69 24.01 4.72 5.2 So sánh nhớ sử dụng Bảng trình bày nhớ sử dụng thuật toán Với sở liệu dày Chess, Mushroom Accident có số lượng mặt hàng tương đối thấp (Bảng 8) nên việc khởi tạo cấu trúc EUCS (chiến lược 3) không ảnh hưởng nhiều đến nhớ sử dụng thuật tốn SkyMiner Do đó, dung lượng nhớ sử dụng thuật toán SkyMiner thấp thuật thuật toán SkyFUP Đặt biệt hơn, sở liệu có độ dày trung bình Mushroom Accident dung lượng nhớ sử dụng thuật toán SkyMiner thấp khoảng lần so với thuật toán SkyFUP Các sở liệu thưa Foodmart, Retail, Chainstore T10I4N4KD500K nhớ sử dụng SkyMiner hiệu thuật tốn SkyFUP sở liệu có số lượng mặt hàng thấp Foodmart (1559 mặt hàng) T10I4N4KD500K (3547 mặt hàng), đó, thuật tốn SkyMiner hiệu thuật toán SkyFUP sở liệu có số lượng mặt hàng lớn Retail (16,470 mặt hàng) Chainstore (46,086 mặt hàng), kết cho thấy việc áp dụng chiến lược tỉa EUCS-Prune sử dụng nhiều nhớ sở liệu có số lượng mặt hàng lớn Với sở liệu T10I4N4KD|X|K, thuật toán SkyMiner sử dụng nhớ thấp thuật toán SkyFUP tất ngưỡng độ lớn |X| từ 100,000 đến 500,000 (Hình 3b) Kết cho thấy với sở liệu thưa có số lượng mặt hàng trung bình thuật tốn SkyMiner ln sử dụng nhớ thuật tốn SkyFUP, khơng phụ thuộc vào độ lớn sở liệu Bảng 7: So sánh nhớ sử dụng hai thuật toán Đơn vị (MB) Chess Mushroom Accident Foodmart Retail Chainstore T10I4N4KD500K SkyFUP 2,043 1,366 5,624 1,488 1,579 2,766 3,440 SkyMiner 2,042 725 2,796 756 2,114 10,294 2,462 77 N T T Thủy, M T Lý, N V Lễ, V V Vinh / Một thuật tốn hiệu để trích xuất tập Skyline 5.3 So sánh số lượng ứng viên Bảng 8: So sánh số lượng ứng viên phát sinh hai thuật toán Đơn vị (ứng viên) Chess Mushroom Accident Foodmart Retail Chainstore T10I4N4KD500K SkyFUP SkyMiner 3,397,909 40,949 2,555,599 39,721 5,158,951 30,426,801 6,108,502 2,552,448 32,565 1,889,989 2,190 857,461 1,072,259 50,534 Bảng trình bày số lượng ứng viên tạo trình khai thác hai thuật tốn tập sở liệu thực nghiệm Kết cho thấy với sở liệu dày Chess, Mushroom Accident thuật tốn SkyMiner tỉa ứng viên tốt thuật toán SkyFUP, nhiên, chênh lệch không đáng kể Với sở liệu thưa Foodmart, Retail, Chainstore T10I4N4KD500K, thuật toán SkyMiner cho thấy hiệu cắt tỉa ứng viên vượt trội so với thuật toán SkyFUP Số lượng ứng viên thuật tốn SkyMiner sinh từ đến 120 lần so với thuật toán SkyFUP Với sở liệu T10I4N4KD|X|K, kích thước sở liệu tăng từ 100,000 đến 500,000 số lượng ứng viên sinh thuật tốn SkyMiner nhiều so với thuật tốn SkyFUP (Hình 3c) Cụ thể, thuật tốn SkyMiner sinh từ 45,200 đến 50,534 ứng viên, số lượng ứng viên sinh thuật toán SkyFUP từ 2,497,428 đến 6,108,502 Kết chứng tỏ chiến lược tỉa áp dụng thuật toán SkyMiner làm giảm số lượng ứng viên cách đáng kể, từ tăng hiệu suất thực thi thuật toán, đặt biệt với hai chiến lược tỉa LA-Prune EUCS-Prune Hình 3: So sánh hiệu suất thực thi sở liệu T10I4N4KD|X|K Kết luận Bài báo đề xuất thuật toán SkyMiner để khai thác SFUPs sở liệu giao dịch dựa độ hữu ích tần suất xuất tập mặt hàng Cấu trúc utility-list 78 Trường Đại học Vinh Tạp chí khoa học, Tập 49 - Số 4A/2020, tr 68-81 sử dụng để tổ chức, lưu trữ liệu q trình khai thác Ngồi chiến lược tỉa U-Prune áp dụng thuật toán khai thác tập SFUPs trước đây, áp dụng thêm hai chiến lược tỉa LA-Prune EUCS-Prune để tăng hiệu suất thực thi thuật toán Kết thực nghiệm cho thấy thuật toán SkyMiner cho kết tốt thuật toán SkyFUP thời gian thực thi, nhớ sử dụng số lượng ứng viên sinh trình khai thác Hướng phát triển cải tiến cấu trúc liệu lưu trữ để tăng hiệu suất thực thi thuật toán sở liệu dày, khai thác SFUPs dạng sở liệu khác sở liệu tăng trưởng (increamental database), sở liệu động (dynamic database) TÀI LIỆU THAM KHẢO [1] J Han, J Pei, and Y Yin, “Mining frequent patterns without candidate generation,” ACM Sigmod Record, Vol 29, No 2, pp 1-12, 2000 [2] G Grahne and J Zhu, “Fast algorithms for frequent itemset mining using FPTrees,” IEEE Transactions on Knowledge and Data Engineering, Vol 17, No 10, pp 1347-1362, 2005 [3] B Vo, T Le, T P Hong, and B Le, “Fast updated frequent-itemset lattice for transaction deletion,” Data & Knowledge Engineering, Vol 96, pp 78-89, 2015 [4] Z H Deng and S L Lv, “Fast mining frequent itemsets using Nodesets,” Expert Systems with Applications, Vol 41, No 10, pp 4505-4512, 2014 [5] R Agrawal and R Srikant, “Fast algorithms for mining association rules,” In Proc 20th Int Conf Very Large Data Bases (VLDB), pp 487-499, 1994 [6] M Zaki, S Parthasarathy, M Ogihara, and W Li, “New algorithms for fast discovery of association rules,” Knowledge Discovery and Data Mining, pp 283286, 1997 [7] B Vo, T P Hong, and B Le, “A lattice-based approach for mining most generalization association rules,” Knowledge-Based Systems, Vol 45, pp 20-30, 2013 [8] Y Liu, W K Liao, and A Choudhary, “A two-phase algorithm for fast discovery of high utility itemsets,” In Pacific-Asia Conference on Knowledge Discovery and Data Mining, pp 689-695, 2005 [9] H Yao and H J Hamilton, “Mining itemsets utilities from transaction databases,” Data and Knowledge Engeneering, Vol 59, No 3, pp 603-626, 2006 [10] V S Tseng, C W Wu, B E Shie, and P S Yu, “UP-Growth: an efficient algorithm for high utility itemset mining,” In Proceedings of the 16th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, pp 253-262, 2010 [11] J Liu, K Wang, and B C Fung, “Direct discovery of high utility itemsets without candidate generation,” IEEE 12th International Conference on Data Mining, pp 984-989, 2012 79 N T T Thủy, M T Lý, N V Lễ, V V Vinh / Một thuật toán hiệu để trích xuất tập Skyline [12] P Fournier-Viger, C W Wu, S Zida, and V S Tseng, “FHM: Faster high-utility itemset mining using estimated utility co-occurrence pruning,” International Symposium on Methodologies for Intelligent Systems, Vol 8502, pp 83-92, 2014 [13] G I Webb, “Filtered‐top‐k association discovery,” Data Mining and Knowledge Discovery, Vol 1, No 3, pp 183-192, 2011 [14] P Fournier-Viger, C W Wu, and V S Tseng, “Mining top-k association rules,” Canadian Conference on Artificial Intelligence, pp 61-73, 2012 [15] L T Nguyen, B Vo, L T Nguyen, P Fournier-Viger, and A Selamat, “ETARM: an efficient top-k association rule mining algorithm,” Applied Intelligence, Vol 48, No 5, pp 1148-1160, 2018 [16] V S Tseng, C W Wu, P Fournier-Viger, and S Y Philip, “Efficient algorithms for mining top-k high utility itemsets,” IEEE Transactions on Knowledge and Data Engineering, Vol 28, No 1, pp 54-67, 2015 [17] K Singh, S S Singh, A Kumar, and B Biswas, “TKEH: an efficient algorithm for mining top-k high utility itemsets,” Applied Intelligence, Vol 49, No 3, pp 10781097, 2019 [18] S Krishnamoorthy, “Mining top-k high utility itemsets with effective threshold raising strategies,” Expert Systems with Applications, Vol 117, pp 148-165, 2019 [19] V Goyal, A Sureka, and D Patel, “Efficient skyline itemsets mining,” The International C* Conference on Computer Science & Software Engineering, pp 119-124, 2015 [20] J S Pan, J C W Lin, L Yang, P Fournier-Viger, and T P Hong, “Efficiently mining of skyline frequent-utility patterns,” Intelligent Data Analysis, Vol 21, No 6, pp 1407-1423, 2017 [21] J.C.W Lin, L Yang, P Fournier-Viger, and T.P Hong, “Mining of skyline patterns by considering both frequent and utility constraints,” Engineering Applications of Artificial Intelligence, Vol 77, pp 229-238, 2019 [22] B Le, H Nguyen, and B Vo, “An efficient strategy for mining high utility itemsets,” International Journal of Intelligent Information and Database Systems, Vol.5, No 2, pp 164-176, 2011 [23] V S Tseng, B E Shie, C W Wu, and S Y Philip, “Efficient algorithms for mining high utility itemsets from transactional databases,” IEEE transactions on knowledge and data engineering, Vol.25, pp 1772-1786, 2012 [24] M Liu and J Qu, “Mining high utility itemsets without candidate generation,” In Proceedings of the 21st ACM International Conference on Information and Knowledge Management, pp 55-64, 2012 [25] S Zida, P Fournier-Viger, J C W Lin, C W Wu, and V S Tseng, “EFIM: A fast and memory efficient algorithm for high-utility itemset mining,” Knowledge and Information Systems, Vol 51, No 2, pp 595-625, 2017 [26] S Krishnamoorthy, “HMiner: Efficiently mining high utility itemsets,” Expert Systems with Applications, Vol 90, pp 168-183, 2017 80 Trường Đại học Vinh Tạp chí khoa học, Tập 49 - Số 4A/2020, tr 68-81 [27] J.S Yeh, Y C Li, and C C Chang, “Two-phase algorithms for a novel utilityfrequent mining model,” International Conference on Emerging Technologies in Knowledge Discovery and Data Mining, pp 433-444, 2007 [28] V Podpecan, N Lavrac, and I Kononenko, “A fast algorithm for mining utilityfrequent itemsets,” International Workshop on Constraint-based Mining and Learning, pp 9-20, 2007 [29] S Krishnamoorthy, “Pruning strategies for mining high utility itemsets,” Expert Systems with Applications, Vol 42, No 5, pp 2371-2381, 2015 [30] P Fournier-Viger, A Gomariz, A Soltani, and H Lam, “An Open-Source Data Mining Library,” 2014 [Online] http://www.philippe-fournier-viger.com [31] R Agrawal and R Srikant, “Quest synthetic data generator - IBM Almaden Research Center,” 1994 [Online] http://www.Almaden.ibm.com/cs/quest/syndata.html SUMMARY AN EFFICIENT ALGORITHM TO EXTRACT SKYLINE ITEMSETS Nguyen Thi Thanh Thuy, Manh Thien Ly, Nguyen Van Le, Vu Van Vinh Ho Chi Minh City University of Food Industry Received on 06/10/2020, accepted for publication on 23/12/2020 Mining skyline frequent-utility patterns (SFUPs) is the discovery of itemsets that surpasses all other itemsets in both frequency and utility in transactional database The discovery of these itemsets is important for managers in finding items that customers buy many times and bring high profits for businesses In recent years, there have been many algorithms proposed to exploit skyline frequent-utility patterns, of which SKYFUP-D is the most efficient algorithm However, this algorithm still has limitations in both execution time and storage space In this paper, we propose an effective method to exploit SFUPs faster by applying pruning strategies to reduce the number of candidates Experimental results show that the execution time and storage space are significantly improved Key words: SFUPs; skyline frequent-utility itemset; EUCS; LA 81 ... cứu thực lĩnh vực có nhiều thuật tốn đề xuất để nâng cao hiệu vấn đề khai thác HUIs 69 N T T Thủy, M T Lý, N V Lễ, V V Vinh / Một thuật tốn hiệu để trích xuất tập Skyline Trong giai đoạn đầu,... Dòng 13 gọi đệ quy thủ tục SearchSFUP để tiếp tục mở rộng tập SFUPs 73 N T T Thủy, M T Lý, N V Lễ, V V Vinh / Một thuật tốn hiệu để trích xuất tập Skyline Thuật toán 2: SearchSFUP Vào: : utility-list... hữu ích trọng số giao dịch tập mặt hàng sở liệu ∑ kí hiệu định nghĩa: ( ) Ví dụ: 71 N T T Thủy, M T Lý, N V Lễ, V V Vinh / Một thuật tốn hiệu để trích xuất tập Skyline Một thứ tự toàn phần xây

Ngày đăng: 08/06/2021, 13:15

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN