1. Trang chủ
  2. » Công Nghệ Thông Tin

FHURIM: Thuật toán khai phá tập mục hữu ích cao hiếm

9 7 0

Đang tải... (xem toàn văn)

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 9
Dung lượng 673,76 KB

Nội dung

Bài viết đề xuất thuật toán khai phá tập mục hữu ích cao hiếm mà không cần sinh tập ứng viên. Để lưu trữ hiệu quả thông tin về giá trị hữu ích và độ phổ biến của các tập mục chúng tôi sử dụng cấu trúc utility-list, đồng thời dựa trên cấu trúc này để tỉa không gian tìm kiếm hiệu quả. Kết quả thực nghiệm cho thấy thuật toán của chúng tôi nhanh hơn các thuật toán hiện tại.

Kỷ yếu Hội nghị KHCN Quốc gia lần thứ XII Nghiên cứu ứng dụng Công nghệ thông tin (FAIR); Huế, ngày 07-08/6/2019 DOI: 10.15625/vap.2019.00021 FHURIM: THUẬT TỐN KHAI PHÁ TẬP MỤC HỮU ÍCH CAO HIẾM Huỳnh Triệu Vỹ1, Lê Quốc Hải2, Trương Ngọc Châu3 Trường ĐH Phạm Văn Đồng Trường CĐSP Quảng Trị Trường ĐH Bách khoa Đà Nẵng htrvy@yahoo.com, hailq79@gmail.com, truongngocchau@yahoo.com TÓM TẮT: Khai phá tập mục hữu ích cao nhằm mục đích tìm kiếm sở liệu giao tác (CSDL) tất tập mục có độ hỗ trợ thấp ngưỡng hỗ trợ tối đa giá trị hữu ích lớn ngưỡng hữu ích tối thiểu người dùng Các thuật tốn khai phá tập mục hữu ích cao hai pha tốn nhiều thời gian thực thi pha sinh tập ứng viên, đặc biệt ngưỡng hỗ trợ tối đa tăng lên sinh nhiều tập ứng viên Để khắc phục hạn chế này, báo chúng tơi đề xuất thuật tốn khai phá tập mục hữu ích cao mà khơng cần sinh tập ứng viên Để lưu trữ hiệu thông tin giá trị hữu ích độ phổ biến tập mục sử dụng cấu trúc utility-list, đồng thời dựa cấu trúc để tỉa khơng gian tìm kiếm hiệu Kết thực nghiệm cho thấy thuật tốn chúng tơi nhanh thuật tốn Từ khóa: Tập mục hữu ích cao, Tập mục hữu ích cao hiếm, Ngưỡng hỗ trợ cực đại I GIỚI THIỆU Các thuật toán khai phá tập phổ biến khơng đề cập đến vai trị mục xem chúng có vai trị sở liệu (CSDL) [1, 2] Tuy nhiên, thực tế mục xem xét tầm quan trọng chúng có ý nghĩa Ví dụ sở liệu bán hàng siêu thị, giao tác không lưu trữ mặt hàng đơn hàng mà cịn có số lượng mặt hàng kèm theo thông tin giá lợi nhuận mang lại bán mặt hàng Để giải hạn chế này, Hong Yao cộng [3] đề xuất mơ hình để khai phá tập mục dựa độ hữu ích chúng, gọi Khai phá tập mục hữu ích cao (High Utility Mining) Dựa tảng này, nhiều thuật toán khai phá tập mục hữu ích cao hiệu đề xuất [4-11] Trong khai phá tập mục hữu ích cao [2-11] cho biết thông tin giá trị hữu ích tập mục Tuy nhiên, thực tế, ngồi thơng tin giá trị hữu ích tập mục, biết thêm độ phổ biến tập mục hữu ích cao mang lại nhiều ý nghĩa cho người dùng Ví dụ, chuỗi bán lẻ, có mặt hàng bán lợi nhuận chúng mang lại lớn bán (ví dụ bia, rượu cao cấp), nhà kinh doanh có chiến lược khuyến để kích thích người mua nhằm thu lại lợi ích lớn cho doanh nghiệp Những chiến lược đưa cần phải dựa tri thức khai thác từ liệu bán hàng Để giải yêu cầu này, J Pillai cộng [12] đề xuất hướng tiếp cận gọi Khai phá tập mục hữu ích cao hiếm, tức khai phá tập mục hữu ích cao có độ phổ biến thấp, tác giả đề xuất thuật tốn có tên gọi HURI Để tìm tập mục hữu ích cao hiếm, HURI thực qua pha Nhược điểm thuật toán HURI sinh tập ứng viên lớn pha thứ ngưỡng hỗ trợ cực đại tăng lên Để giảm tập ứng viên, V Goyal cộng [13] đề xuất thuật tốn có tên gọi UP-Rare Growth dựa cấu trúc UP-Tree [9] Các thuật tốn tìm tập mục hữu ích cao phải trải qua bước sinh tập ứng viên tiêu tốn nhiều thời gian thực thi nhớ lưu trữ tập ứng viên Trong báo đề xuất thuật tốn khai phá tập mục hữu ích cao mà khơng trải qua bước sinh tập ứng viên, thuật tốn có tên gọi FHURIM (Fast High Utility Rare Itemset Mining) Để tìm tập mục hữu ích cao mà không cần sinh tập ứng viên dựa cấu trúc liệu utility-list [7] Ưu điểm cấu trúc utility-list cần quét CSDL lần để xây dựng cấu trúc utility-list mục đơn có trọng số hữu ích lớn ngưỡng hữu ích tối thiểu, để xây dựng cấu trúc utility-list tập mục có k-mục dựa vào utility-list tập mục (k-1)-mục mà không cần quét lại CSDL Đồng thời dựa utility-list tính độ phổ biến tập mục k-mục chứa thơng tin hueristic để tìm tập hữu ích cao có độ dài (k+1) mục Phần báo tổ chức sau: Phần trình bày vấn đề liên quan đến báo, phần chi tiết thuật toán đề xuất, kết thực nghiệm cuối kết luận báo II CÁC VẤN ĐỀ LIÊN QUAN A Khai phá tập mục hữu ích cao Mơ hình khai phá tập mục hữu ích cao đề xuất Hong Yao cộng [3] Dựa mơ hình này, Liu Y cộng [8] đề xuất thuật hai pha (TwoPhase), chiến lược tỉa khơng gian tìm kiếm [8] dựa vào tính chất bao đóng giảm dần (downward closure) đơn vị đo lường TWU (Transaction-Weighted-Utilization) nên thuật toán hai pha rút gọn nhanh khơng gian tìm kiếm pha thứ Để thu gọn bớt tập ứng viên pha thứ nhất, V S Tseng cộng [9] đề xuất thuật tốn có tên UP-Growth (Utility Pattern Growth) UP-Growth+, thuật toán sử dụng cấu trúc UP-tree để trì thơng tin hữu ích tập mục cho tập ứng viên tạo hiệu với hai lần quét CSDL FHURIM: THUẬT TOÁN KHAI PHÁ TẬP MỤC HỮU ÍCH CAO HIẾM 160 Đơn vị đo lường TWU có giá trị lớn nhiều giá trị hữu ích tập mục nên tập ứng viên sinh pha thứ lớn nên ảnh hưởng đến hiệu suất thuật toán Để khắc phục hạn chế này, M Liu cộng [7] đề xuất thuật toán HUI-Miner (High Utility Itemset Miner) để khai phá tập mục hữu ích cao mà khơng cần sinh tập ứng viên dựa cấu trúc lưu trữ có tên gọi utility-list Các thuật toán khai phá tập mục hữu ích cao khơng trải qua bước sinh tập ứng viên hiệu đề xuất [4, 6, 11] Các định nghĩa tính chất liên quan đến khai phá tập mục hữu ích cao tìm thấy chi tiết [3-11], chúng tơi trình bày tóm tắt lại nội dung liên quan sau: { } tập hữu hạn gồm mục Mỗi mục Định nghĩa (CSDL Giao tác): Cho có { } tập mục gồm k mục, với giá trị hữu ích ngoại, ký hiệu Một tập mục { } chứa n giao tác, giao tác k độ dài X Một CSDL giao tác có định danh gọi Tid Mỗi mục giao tác kết hợp với trọng số gọi hữu ích nội (số lượng), ký hiệu Bảng CSDL Giao tác D Tid T1 T2 T3 T4 T5 Transaction Tid A(4), C(1), E(6), F(2) D(1), E(4), F(5) B(3), D(1), E(5), F(1) D(1), E(2), F(6) A(3), C(1), E(1) T6 T7 T8 T9 Transaction B(1), F(2), H(1) D(1), E(1), F(4), G(1), H(1) B(1), D(1), E(1) B (5), D(4), G(10) Bảng Bảng giá trị hữu ích ngoại CSDL giao tác D Item A B C D E F G H Utility 1 CSDL cho Bảng sử dụng cho tất ví dụ báo Ví dụ 1: q(A,T1)=4 p(A)=3; q(C,T1)=1 p(C)=5 Định nghĩa (Hữu ích mục giao tác): Hữu ích mục định nghĩa: giao tác ký hiệu Ví dụ 2: u(A,T1)=q(A,T1) * p(A)=3 * 4=12 u(C,T1)=q(C,T1) * p(C)=1 * 5=5 Định nghĩa (Hữu ích tập mục giao tác): Hữu ích tập mục X giao tác Tc ký hiệu định nghĩa: ∑ Ví dụ 3: u({A,C},T1)=u(A,T1)+u(C,T1)=17; u({A,C},T5)=u(A,T5)+u(C,T5)=14 Định nghĩa (Hữu ích tập mục CSDL): Hữu ích tập mục X CSDL giao tác D, ký hiệu định nghĩa: ∑ Ví dụ 4: u({A,C})=u({A,C},T1)+u({A,C},T5)=17+14=31 nghĩa: Định nghĩa (Hữu ích giao tác): Giá trị hữu ích giao tác Tc ký hiệu ∑ Ví dụ 5: ) định TU(T1)=3*4+5*1+1*6+1*2=25 Định nghĩa (Trọng số hữu ích giao tác): Trọng số hữu ích giao tác tập mục X, ký hiệu định nghĩa: ∑ Huỳnh Triệu Vỹ, Lê Quốc Hải, Trương Ngọc Châu Ví dụ 6: 161 TWU({A})= TU(T1) + TU(T5) =25+15=40 TWU({A,C})= TU(T1) + TU(T5) =25+15=40 TWU({A,F})= TU(T1) =25 là: Tính chất 1: Trọng số hữu ích tập mục X ln ln lớn giá trị hữu ích nó, tức [8] trọng số hữu ích tập mục X luôn lớn trọng số Tính chất 2: Cho hữu ích tập mục Y [8] Như vậy, trọng số hữu ích giao tác tập mục thỏa mãn tính chất bao đóng giảm dần tập mục X tất tập Tính chất (Tỉa khơng gian tìm kiếm): Cho X tập mục, cha X tập mục hữu ích cao [8] Định nghĩa (Tập mục hữu ích cao): Một tập mục X gọi tập mục hữu ích cao CSDL D, giá trị hữu ích X khơng nhỏ ngưỡng hữu ích tối thiểu ( đưa người dùng) Gọi HUIs tập tập mục hữu ích cao thì: { Ví dụ 7: Với tập mục Bảng } , tập mục hữu ích cao khai thác từ CSDL cho Bảng Bảng gồm Bảng Tập tập mục hữu ích cao Itemset Utility Itemset Utility Itemset Utility AC AE ACE ACEF 31 28 38 25 B BD BG BDE 40 48 30 26 BDG DEF EF 38 36 36 B Khai phá tập mục hữu ích cao Các thuật tốn khai phá tập mục hữu ích cao [3-11] cho biết thông tin giá trị hữu ích tập mục Khai phá tập mục hữu ích cao mở rộng khai phá tập mục hữu ích cao với mục đích tìm kiếm CSDL tất tập mục có giá trị hữu ích khơng nhỏ ngưỡng hữu ích tối thiểu có tần suất xuất thấp ngưỡng hỗ trợ tối đa [12-14] Khai phá tập mục hữu ích cao có nhiều ý nghĩa thực tiễn, ví dụ chuỗi bán lẻ, tập mục hữu ích cao cung cấp tri thức hữu ích giúp cho nhà kinh doanh có chiến lược khuyến để kích thích người mua bán mặt hàng thu lại lợi nhuận lớn Để khai phá tập mục hữu ích cao hiếm, J Pillai cộng [12] đề xuất thuật tốn hai phá có tên gọi HURI: (1) Pha 1: Duyệt qua CSDL để tìm tất tập mục có độ phổ biến nhỏ độ hỗ trợ cực đại người dùng đưa ra; (2) Pha 2: Từ tập ứng viên pha 1, rút tất tập mục có giá trị hữu ích khơng nhỏ ngưỡng hữu ích tối thiểu người dùng đưa Nhược điểm thuật toán HURI sinh tập ứng viên lớn pha thứ ngưỡng hỗ trợ cực đại tăng lên Để giảm tập ứng viên, V Goyal cộng [13] đề xuất thuật tốn có tên gọi UP-Rare Growth dựa cấu trúc UP-Tree [9] Dựa cấu trúc UP-Tree thuật tốn UP-Rare Growth tính tốn độ phổ biến giá trị hữu ích tập mục áp dụng tỉa không gian tìm kiếm tương tự thuật tốn UPGrowth[9] Các định nghĩa liên quan đến khai phá tập mục hữu ích cao tìm thấy chi tiết [12, 13] trình bày tóm tắt lại sau: hiệu Định nghĩa (Độ hỗ trợ): Độ hỗ trợ tập mục X tỷ lệ xuất tập mục X CSDL giao tác D, ký định nghĩa sau: , Trong đó, g(X) tập giao tác CSDL D chứa X Định nghĩa (Tập mục hiếm): Một tập mục X gọi tập mục độ hỗ trợ tập mục X nhỏ ngưỡng hỗ trợ cực đại Định nghĩa 10 (Tập mục hữu ích cao hiếm): Một tập mục X gọi tập mục hữu ích cao CSDL D tập mục X tập mục hữu ích cao Gọi tập tập mục hữu ích cao thì: { } FHURIM: THUẬT TỐN KHAI PHÁ TẬP MỤC HỮU ÍCH CAO HIẾM 162 Ví dụ 8: Cho Bảng tập tập mục hữu ích cao thu từ CSDL D gồm tập mục Bảng Tập tập mục hữu ích cao Itemset B BD EF DEF Utility 40 48 36 36 Support(%) 44,4 33,3 55,5 33,3 C Cấu trúc utility-list EUCS Để khai phá tập mục hữu ích cao mà không cần sinh tập ứng viên, M Liu cộng [7] đề xuất cấu trúc liệu có tên gọi utility-list, từ cấu trúc trích xuất tập mục hữu ích cao mà không cần quét lại CSDL đồng thời dựa utility-list tỉa khơng gian tìm kiếm hiệu Tuy nhiên, nhược điểm utility-list xây dựng utility-list tập mở rộng tốn thời gian Để khắc phục hạn chế này, P Fournier-Viger cộng [6] đưa cấu trúc có tên gọi EUCS (Estimated Utility Co-Occurrence Structure) dựa EUCS tỉa utility-list không cần thiết phải xây dựng Các định nghĩa liên quan đến cấu trúc utility-list EUCS trình bày vắn tắt lại sau: Định nghĩa 11 (Cấu trúc utility-list): Cho thứ tự toàn phần I* Utility-list tập mục CSDL D tập gồm ba tuple(tid, iutil, rutil) tương ứng với giao tác Tc chứa tập mục Px (Px tập mở rộng tập P với mục x Tập P khởi tạo ban đầu tập rỗng) Ở đây: tid: Tid giao tác Tc chứa tập mục Px iutil: Giá trị hữu ích tập mục Px giao tác Tc rutil: Giá trị hữu ích cịn lại Px giao tác Tc Định nghĩa 12 (Tập mục lại giao tác): Cho tập mục Px giao tác Tc, cho , tập mục lại giao tác Tc tập mục gồm tất mục theo sau Px theo thứ tự xếp tăng dần theo trọng số hữu ích mục, ký hiệu định nghĩa: { } Ví dụ 9: Cho tập mục Px = {AC}, tập lại tập mục Px giao tác T1 {FE} Định nghĩa 13 (giá trị hữu ích cịn lại): Giá trị hữu ích cịn lại tập mục Px giao tác Tc, ký hiệu định nghĩa: ∑ Tính chất (Tỉa khơng gian tìm kiếm) [7]: Cho Px.UL utility-list tập mục Px, tổng tất iutils rutils Px.UL nhỏ ngưỡng hữu ích tối thiểu tập mục Px tất tập mở rộng Px tập mục hữu ích thấp Tính chất sử dụng để tỉa khơng gian tìm kiếm khai phá tập mục hữu ích cao dựa utility-list Ưu điểm việc sử dụng cấu trúc utility-list để khai phá tập mục hữu ích cao với hai lần quét CSDL không cần sinh tập ứng viên, từ utility-list mục đơn xây dựng utility-list tập mục mở rộng Đồng thời dựa utility-list tính hữu ích, độ hỗ trợ tập mục chứa thơng tin huristic để tỉa khơng gian tìm kiếm hiệu Các bước xây dựng utility-list đề xuất [7] mô tả chi tiết lại sau: (1) Khởi tạo utility-list: utility-list khởi tạo ban đầu gồm utility-list mục có trọng số hữu ích lớn ngưỡng hữu ích tối thiểu Ở bước xây dựng utility-list mục có trọng số hữu ích thấp tỉa (theo Tính chất 3) Để xây dựng utlity-list mục đơn cần thực qua lần quét CSDL: Quét CSDL lần thứ để tính TWU mục Khi TWU mục đơn tính, mục có { } mục TWU nhỏ ngưỡng hữu ích tối thiểu loại bỏ thu tập xếp lại theo thứ tự tăng dần TWU (nhằm mục đích áp dụng chiến lược tỉa khơng gian tìm kiếm dựa utility-list) Quét CSDL lần thứ hai để xây dựng utility-list mục Ví dụ 10: Với , { } utility-list mục biểu diễn Hình (2) Utility-list tập mục có độ dài Để xây dựng utility-list tập mục gồm hai mục {xy} không cần phải quét CSDL mà cần thực phép giao utility-list x utility-list y Huỳnh Triệu Vỹ, Lê Quốc Hải, Trương Ngọc Châu 163 Ví dụ 11: utility-list tập mục gồm phần tử mở rộng từ mục A mô tả Hình {A} 12 13 tid 5 iutil 10 {F} {B} {G} {C} 28 12 4 20 8 rutil {E} Hình Utility-list mục đơn {AC} 17 14 14 1 2 2 2 2 2 0 0 0 {AE} {AF} 1 {D} 18 10 0 Hình Utility-list tập mục gồm phần tử mở rộng từ mục A Utility-list tập mục có độ dài }, Để xây dựng utility-list tập mục { (thứ tự mục tập mục xếp theo thứ tự tăng dần TWU) không cần quét lại CSDL, thực thực phép giao } với utility-list tập mục { } utility-list c tập mục { Ví dụ 12: Xây dựng utility-list tập { mơ tả Hình } ta thực giao utility-list { } với { }, kết {ACE} 23 15 0 Hình Utility-list tập mục {ACE} Sau thuật toán viết dạng giả mã để xây dựng utility-list tập mục có độ dài k, thuật tốn có tên gọi Construct[7]: Thuật toán Construct Vào: P: tập mục P; Px: tập mục mở rộng P với mục x; Py: Tập mục mở rộng P với mục y Ra: Pxy.UL: utility-list tập mục Pxy 10 11 ; { { ; ; } ; Thêm } Return vào ; ; { Định nghĩa 14 (cấu trúc EUCS-Estimated Utility Co-Occurrence Structure): Cho hữu hạn mục có trọng số hữu ích cao Cấu trúc EUCS định nghĩa tập ba { } Trong đó: } tập Ví dụ 13: Với CSDL cho Bảng Bảng 2, cấu trúc EUCS biểu diễn dạng ma trận Hình Tính chất (Tỉa khơng gian tìm kiếm): Cho tập mục P hai mục , không tồn EUCS cho tập mở rộng P Pxy tất tập cha Pxy tập mục hữu ích thấp Tính chất sử dụng xây dựng utility-list tập Pxy Nếu Pxy thỏa mãn tính chất khơng cần xây dựng utility-list Pxy Pxy khơng thể tập mục hữu ích cao tất tập cha Pxy FHURIM: THUẬT TOÁN KHAI PHÁ TẬP MỤC HỮU ÍCH CAO HIẾM 164 item A B C D E F A B 0 C 40 0 D 74 0 E 40 36 40 105 F 25 28 25 51 76 G 38 48 10 10 G Hình Cấu trúc EUCS III THUẬT TOÁN KHAI PHÁ TẬP MỤC HỮU ÍCH CAO HIẾM A Đề xuất thuật tốn Thuật tốn chúng tơi đề xuất có tên gọi FHURIM thuật toán biến thể thuật toán FHM [6] để khai phá nhanh tập mục hữu ích cao từ CSDL giao tác pha mà không cần sinh tập ứng viên Mô tả thuật tốn: Thuật tốn FHURIM thực qua hai bước chính, cụ thể: Bước 1: Khởi tạo (Thuật toán FHURIM_Initial) Duyệt qua CSDL lần thứ để tính trọng số hữu ích giao tác (TWU) tất các mục I Xác định tập I* gồm tất mục có trọng số hữu ích lớn ngưỡng hữu ích tối thiểu, mục có trọng số hữu ích nhỏ ngưỡng hữu ích tối thiểu tỉa bỏ bước (áp dụng tính chất 3) Các mục I* xếp lại theo thứ tự tăng dần trọng số hữu ích Việc nhằm mục đích để tỉa khơng gian tìm kiếm dựa thơng tin heuristics utility-list (áp dụng tính chất 4) Duyệt qua CSDL lần để xây dựng utility-list tất mục đơn I* xây dựng cấu trúc EUCS Utility-list mục I* utility-list sở để suy diễn utility-list tập mở rộng trình tìm tập mục hữu ích cao mà khơng cần qt lại CSDL cấu trúc EUCS chứa thông tin hueristics để tỉa bỏ utility-list không cần thiết phải xây dựng (áp dụng tính chất 5) Bước 2: Khai phá (Thuật toán FHURIM_Miner) Duyệt qua utility-list tập mục Px (đầu tiên xét tập mục có độ dài 1) Với utility-list tập mục Px: - Tính giá trị hữu ích Px (hữu ích Px tính cách tính tổng iutil tuple(tid, iutil, rutil) utility-list Px, ta ký hiệu Sum(Px.UL.iutil)) tính độ phổ biến tập mục Px (độ phổ biến Px tính tổng số Px.UL Px, ký hiệu Count(Px.UL)) - Kiểm tra Px có phải tập mục hữu ích cao hay khơng? Bổ sung Px vào danh sách tập mục hữu ích cao Nếu , xây dựng utility-list tập mở rộng Px (tập mở rộng tập ) Gọi đệ quy thuật toán FHURIM_Miner để xác định tập mục hữu ích cao cho tập mở rộng Px Sau thuật toán FHURI viết dạng mã giả: Thuật toán FHURIM Vào: D: CSDL Giao tác; ngưỡng hữu ích tối thiểu; ngưỡng hỗ trợ cực đại Ra: HURIs: Tập gồm tập mục hữu ích cao ; ; Thuật tốn FHURIM_Initial Vào: D: CSDL Giao tác; ngưỡng hữu ích tối thiểu; Ra: : Tập gồm mục có trọng số hữu ích lớn xếp theo thứ tự tăng dần trọng số hữu ích mục; ULs: tập utility_list mục đơn ; EUCS: Chứa liệu theo cấu trúc EUCS; ) Tính ; { }; Xác định tập { } Sắp xếp lại thứ tự mục ( ) ; ){ - Huỳnh Triệu Vỹ, Lê Quốc Hải, Trương Ngọc Châu 165 Xây dựng tập ULs gồm utility-list mục ; Xây dựng cấu trúc EUCS } Thuật toán FHURIM_Miner Vào: P.UL: Utility-list tập mục P; ULs: tập utility-list tập mục mở rộng P; ích tối thiểu; ngưỡng hỗ trợ cực đại; : cấu trúc EUCS; Ra: HURIs: Tập gồm tập mục hữu ích cao hiếm; { { } { { };//tập utility-list tập mở rộng Px ; } 10 } ngưỡng hữu B Kết thực nghiệm Mô tả CSDL: Các sở liệu liệu chạy thực nghiệm sử dụng CSDL công bố [15], chi tiết CSDL mô tả Bảng Bảng Mô tả tập CSDL thực nghiệm Databases Foodmart Mushroom #|D| 4.141 8.124 #|I| 1.559 119 #AvgLen 4,0 23 #MaxLen 11 23 Chú thích: #|D|: Tổng số giao tác; #|I|: Tổng số mục CSDL; #AvgLen: Độ dài trung bình giao tác CSDL; #MaxLen: Độ dài cực đại giao tác CSDL Mơ tả hệ thống máy tính: CPU Core I5 2.4GHz, RAM 8GB, Windows 10 Kết thực nghiệm: Chúng so sánh thời gian thực thi thuật toán FHURIM với thuật tốn Up-Rare Growth CSDL mơ tả Bảng Kết thực nghiệm cho thấy thuật tốn FHURIM có thời gian thực thi nhanh nhiều lần so với thuật tốn Up-Rare Growth Bởi thuật tốn UP-Rare Growth dựa cấu trúc UP-Tree để tính tốn độ phổ biến giá trị hữu ích tập mục áp dụng chiến lược tỉa khơng gian tìm kiếm tương tự thuật tốn UP-Growth Tuy nhiên, nhược điểm UP-Tree tốn nhiều thời gian nhớ để xây dựng cấu trúc UP-Tree, đặc biệt ngưỡng hữu ích tối thiểu thấp CSDL chứa mẫu dài dày thuật tốn tỉa mục đơn có TWU nhỏ ngưỡng hữu ích tối thiểu độ hỗ trợ tập mục tính tồn liệu thêm vào UP-Tree Cịn thuật tốn FHURIM sử dụng cấu trúc utility-list EUCS để tính tốn giá trị hữu ích độ phổ biến tập mục (từ utility-list mục đơn khởi tạo ban đầu) mà không cần quét lại CSDL, đồng thời cấu trúc chứa thông tin heuristic để tỉa khơng gian tìm kiếm hiệu Hình biểu diễn thời gian thực thi hai thuật toán Up-Rare Growth FHURIM CSDL Foodmart Mushroom với ngưỡng hỗ trợ cực đại ngưỡng hữu ích tối thiểu khác Foodmart (Min Utility=560) 1200 1500 Run times(ms) Run times(ms) 1500 900 600 300 Foodmart (Min Utility=600) 1200 900 600 300 0.024 0.048 0.072 0.096 Max Support UP-Rare Growth FHURIM 0.024 0.048 0.072 0.096 Max Support UP-Rare Growth FHURIM FHURIM: THUẬT TOÁN KHAI PHÁ TẬP MỤC HỮU ÍCH CAO HIẾM 166 Mushroom (Min Utility=8080000) 93500 78500 Run times(ms) Run times(ms) 93500 Mushroom (Min Utility=8050000) 63500 48500 33500 18500 78500 63500 48500 33500 18500 3500 3500 25 30 35 40 Max Support UP-Rare Growth FHURIM 25 30 35 40 Max Support UP-Rare Growth FHURIM Hình Kết so sánh thời gian thực thi thuật toán Up-Rare Growth so với FHURIM CSDL Foodmart Mushroom IV KẾT LUẬN Khai phá tập mục hữu ích cao mở rộng toán khai phá tập mục hữu ích cao nhằm mục đích tìm CSDL liệu giao tác tất tập mục hữu ích cao không phổ biến CSDL Trong báo chúng tơi đề xuất thuật tốn có tên gọi FHURIM để khai phá nhanh tập mục hữu ích cao mà không cần trải qua pha sinh tập ứng viên dựa cấu trúc utility-list chiến lược tỉa EUCS Chúng chạy thực nghiệm CSDL thực với trường hợp khác ngưỡng hữu ích tối thiểu ngưỡng hỗ trợ cực đại, kết cho thấy thuật tốn chúng tơi nhanh thuật toán TÀI LIỆU THAM KHẢO [1] R Agrawal, T Imieliński, and A Swami, "Mining association rules between sets of items in large databases," in Acm sigmod record, 1993, pp 207-216 [2] N Bloom, R Sadun, and J V Reenen, "The organization of firms across countries," The Quarterly Journal of Economics, vol 7, pp 1663-1705, 2012 [3] H Yao, H J Hamilton, and C J Butz, "A foundational approach to mining itemset utilities from databases," in Proceedings of the 2004 SIAM International Conference on Data Mining, 2004, pp 482-486 [4] Q H Duong, P Fournier-Viger, H Ramampiaro, K Nørvåg, and T L Dam, "Efficient high utility itemset mining using buffered utility-lists," Applied Intelligence, vol 48, pp 1859-1877, 2018 [5] A Erwin, R P Gopalan, and N Achuthan, "Efficient mining of high utility itemsets from large datasets," in Pacific-Asia Conference on Knowledge Discovery and Data Mining, 2008, pp 554-561 [6] P Fournier-Viger, C W Wu, S Zida, and V S Tseng, "FHM: Faster high-utility itemset mining using estimated utility co-occurrence pruning," in International symposium on methodologies for intelligent systems, 2014, pp 8392 [7] M Liu and J Qu, "Mining high utility itemsets without candidate generation," in Proceedings of the 21st ACM international conference on Information and knowledge management, 2012, pp 55-64 [8] Y Liu, W K Liao, and A Choudhary, "A fast high utility itemsets mining algorithm," in Proceedings of the 1st international workshop on Utility-based data mining, 2005, pp 90-99 [9] V S Tseng, C W Wu, B E Shie, and P S Yu, "UP-Growth: an efficient algorithm for high utility itemset mining," in Proceedings of the 16th ACM SIGKDD international conference on Knowledge discovery and data mining, 2010, pp 253-262 [10] H Yao and H J Hamilton, "Mining itemset utilities from transaction databases," Data & Knowledge Engineering, vol 59, pp 603-626, 2006 [11] S Zida, P Fournier-Viger, J C W Lin, C W Wu, and V S Tseng, "EFIM: a fast and memory efficient algorithm for high-utility itemset mining," Knowledge and Information Systems, vol 51, pp 595-625, 2017 [12] J Pillai, O Vyas, and M Muyeba, "Huri–a novel algorithm for mining high utility rare itemsets," in Advances in Computing and Information Technology, ed: Springer, 2013, pp 531-540 [13] V Goyal, S Dawar, and A Sureka, "High utility rare itemset mining over transaction databases," in International Workshop on Databases in Networked Information Systems, 2015, pp 27-40 [14] J Pillai, O Vyas, and M K Muyeba, "A Fuzzy Algorithm for Mining High Utility Rare Itemsets-FHURI," International Journal on Recent Trends in Engineering & Technology, vol 10, p 1, 2014 [15] P Fournier-Viger (2019) An Open-Source Data Mining Library Available: http://www.philippe-fournierviger.com/spmf/index.php?link=datasets.php Huỳnh Triệu Vỹ, Lê Quốc Hải, Trương Ngọc Châu 167 FHURIM: HIGH UTILITY RARE ITEMSETS MINING ALGORITHM Huynh Trieu Vy, Le Quoc Hai, Truong Ngoc Chau ABSTRACT: Mining rare high utility itemsets aims at discovering the itemsets such that their support are under maximal support threshold and no less than minimal utility threshold given by users The Two-phase rare high utility itemset mining algorithms require high running time Especially, at the high maximal support threshold, the set of candidate itemsets is very large In order to overcome this drawback, this paper proposes the rare high utility itemset mining algorithm without generating candidate itemsets The utility-list structure is applied to store utility and support value of itemsets and for effectively pruning searching space The experiment results indicate that the proposed algorithm is better than the state-of-the-art ... 10 (Tập mục hữu ích cao hiếm) : Một tập mục X gọi tập mục hữu ích cao CSDL D tập mục X tập mục hữu ích cao Gọi tập tập mục hữu ích cao thì: { } FHURIM: THUẬT TỐN KHAI PHÁ TẬP MỤC HỮU ÍCH CAO HIẾM... phá tập mục hữu ích cao [3-11] cho biết thơng tin giá trị hữu ích tập mục Khai phá tập mục hữu ích cao mở rộng khai phá tập mục hữu ích cao với mục ? ?ích tìm kiếm CSDL tất tập mục có giá trị hữu. .. giảm dần tập mục X tất tập Tính chất (Tỉa khơng gian tìm kiếm): Cho X tập mục, cha X khơng phải tập mục hữu ích cao [8] Định nghĩa (Tập mục hữu ích cao) : Một tập mục X gọi tập mục hữu ích cao CSDL

Ngày đăng: 30/09/2021, 15:36

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w