KHAI PHÁ TẬP MỤC HỮU ÍCH CAO TRONG CƠ SỞ DỮ LIỆU GIAO TÁC CHỨA CÁC MỤC CÓ ĐƠN VỊ LỢI TỨC ÂM

5 9 0
Tài liệu đã được kiểm tra trùng lặp
KHAI PHÁ TẬP MỤC HỮU ÍCH CAO TRONG CƠ SỞ DỮ LIỆU GIAO TÁC CHỨA CÁC MỤC CÓ ĐƠN VỊ LỢI TỨC ÂM

Đang tải... (xem toàn văn)

Thông tin tài liệu

KHAI PHÁ TẬP MỤC HỮU ÍCH CAO TRONG CƠ SỞ DỮ LIỆU GIAO TÁC CHỨA CÁC MỤC CÓ ĐƠN VỊ LỢI TỨC ÂM 128 Huỳnh Triệu Vỹ, Lê Quốc Hải, Phạm Khánh Bảo FHNM THUẬT TOÁN KHAI PHÁ TẬP MỤC HỮU ÍCH CAO TỪ CƠ SỞ DỮ LIỆ[.]

Huỳnh Triệu Vỹ, Lê Quốc Hải, Phạm Khánh Bảo 128 FHNM: THUẬT TỐN KHAI PHÁ TẬP MỤC HỮU ÍCH CAO TỪ CƠ SỞ DỮ LIỆU GIAO TÁC CÓ GIÁ TRỊ HỮU ÍCH ÂM FHNM: HIGH UTILITY ITEMSETS MINING ALGORITHM FROM TRANSACTION DATABASE WITH NEGATIVE UTILITY VALUE Huỳnh Triệu Vỹ1, Lê Quốc Hải2, Phạm Khánh Bảo1 Trường Đại học Phạm Văn Đồng; htrvy@yahoo.com, pkbao@pdu.edu.vn Trường Cao đẳng Sư phạm Quảng Trị; hailq79@gmail.com Tóm tắt - Các thuật tốn khai phá tập mục hữu ích cao thường có xu khai thác tập mục có nhiều mục [1, 2, 3] Tuy nhiên, tập mục có nhiều mục thường tập mục nên khơng có nhiều ý nghĩa người sử dụng [5] Thuật toán FHM+ [5] khai phá tập mục hữu ích cao, thu gọn độ dài tập mục với điều kiện giá trị hữu ích mục dương, thực tế có nhiều sở liệu giao tác có chứa mục có giá trị hữu ích ngoại âm Vấn đề đặt ra, làm để khai phá tập mục hữu ích cao từ sở liệu có chứa mục có giá trị hữu ích ngoại âm, dựa ràng buộc độ dài tập mục Để giải vấn đề đặt ra, báo này, chúng tơi đề xuất thuật tốn xây dựng từ cải tiến thuật toán FHM+ FHN [4] có tên FHNM Abstract - Algorithms for mining high utility itemset normally aims at discovering itemsets that contain more items [1, 2, 3] However, the itemsets that contain more items are rare in the database and have little meaning to users [5] Therefore, the algorithm FHM+ [5] discovers high utility itemsets and reduces their length while maintains the condition that the foreign utility of those items is positive The problem addressed here is how to discover high utility itemsets constrained by their length from database containing items that have negative foreign utility value In order to solve the addressed problem, this paper proposes an algorithm named FHNM by improving FHM+ and FHN [4] Từ khóa - sở liệu giao tác; tập mục hữu ích cao; khai phá tập mục hữu ích cao; hữu ích ngoại âm; ràng buộc độ dài Key words - transaction database; high utility itemsets; high utility itemsets mining; external negative utility; length constraints Giới thiệu Các kỹ thuật tỉa không gian tìm kiếm, phát triển khai phá tập mục phổ biến không áp dụng trực tiếp khai phá tập mục hữu ích cao [3], tính chất tập phổ biến khơng giống tập hữu ích cao Vì vậy, năm 2004, Hong Yao, Howard J Hamilton [6] đề xuất mơ hình tảng để giải tốn khai phá tập mục hữu ích cao Trong mơ hình này, họ định nghĩa hai đơn vị đo lường hữu ích cho mục, hữu ích giao tác (transaction utility) hữu ích ngoại (external utility) Mơ hình tốn học [6] định nghĩa dựa sở hai tính chất, ràng buộc hữu ích ràng buộc hỗ trợ Tính chất ràng buộc hữu ích áp dụng vào chiến lược tỉa khơng gian tìm kiếm Dựa mơ hình này, Hong Yao, Howard J Hamilton [7] đề xuất thuật toán Uming UmingH Các kỹ thuật tỉa khơng gian tìm kiếm mà thuật tốn áp dụng có khả thu gọn phần tập ứng viên Năm 2005, Liu Y, Liao W, A Choudhary [8] đề xuất thuật toán hai pha TwoPhase để khai phá tập mục hữu ích cao Các tác giả đưa khái niệm hữu ích giao tác hữu ích tập mục, tính theo hữu ích giao tác chứa gọi TWU (Transaction-Weighted-Utilization) Các tác giả chứng minh TWU có tính chất phản đơn điệu, yếu tố cốt lõi để thuật toán hai pha rút gọn nhanh khơng gian tìm kiếm Trên sở này, số thuật tốn sau đề xuất hiệu [3, 4, 6] độ phức tạp tính tốn Tuy nhiên, tính chất đơn vị TWU cịn tất giá trị hữu ích mục dương, tức xuất mục sở liệu có giá trị hữu ích ngoại âm Trong thực tế, nhiều sở liệu có giao tác chứa mục có giá trị hữu ích ngoại âm Nếu mục khai thác mang lại giá trị có hữu ích cao Chẳng hạn lĩnh vực kinh doanh có mặt hàng bán chấp nhận lỗ để bán kèm theo mặt hàng khác, kết việc bán kèm theo đem lại lợi nhuận cao Để khai thác giá trị hữu ích này, Chu, C.-J., Tseng, V S., Liang [1] Philippe Fournier-Viger [4] đề xuất thuật toán để khai phá tập mục hữu ích cao sở liệu có giá trị hữu ích ngoại âm Các thuật tốn khai phá tập mục hữu ích cao trước có xu khai phá tập mục có chiều dài lớn, nhiên, mục thường mục hiếm, nên có ý nghĩa người sử dụng [6] Để khắc phục hạn chế này, tác giả [6] đề xuất thuật toán FHM+ để khai phá tập mục hữu ích cao dựa theo ràng buộc độ dài tập mục FHM+ cho thấy hiệu thuật toán trước Tuy nhiên, FHM+ áp dụng để khai phá tập mục hữu ích cao từ sở liệu khơng chứa mục có giá trị hữu ích âm Để giải hạn chế này, báo chúng tơi đề xuất thuật tốn có tên FHNM (cải tiến từ thuật toán FHN FHM+) để khai phá tập mục hữu ích cao từ sở liệu có chứa mục có giá trị hữu ích ngoại âm hiệu thuật toán FHN FHNM áp dụng chiến lược tỉa khơng gian tìm kiếm dựa vào ràng buộc độ dài tập mục Nội dung báo tổ chức sau: Phần trình bày khai phá tập mục hữu ích cao dựa ràng buộc độ dài tập mục, Phần trình bày thuật tốn FHNM, Phần trình bày kết đạt so sánh với thuật toán khác, Phần kết luận Khai phá tập mục hữu ích cao dựa ràng buộc độ dài tập mục Định nghĩa (Cơ sở liệu giao tác giá trị hữu ích tập mục): Cho I={i1, i2,…, im} tập mục D  {T1 , T2 , ,Tm } sở liệu giao tác, đây, ISSN 1859-1531 - TẠP CHÍ KHOA HỌC VÀ CƠNG NGHỆ ĐẠI HỌC ĐÀ NẴNG, SỐ 5(114).2017-Quyển Tc  D tập I Mỗi mục i  Tc có giá trị dương, ký hiệu q(i,Tc) gọi giá trị hữu ích nội i (tương ứng với số lượng i Tc) Mỗi mục i  I có giá trị hữu ích ngoại, ký hiệu p(i) (tương ứng với giá trị hữu ích mục i) Hữu ích mục i  Tc , định nghĩa u (i, Tc )  q(i, Tc )  p(i ) Hữu ích tập mục X giao tác Tc, định nghĩa u( X , Tc )   iX  X Tc u(i, Tc ) Hữu ích tập mục X sở liệu D, định nghĩa u( X )  u( X , Tc )  Tc D X Tc Định nghĩa (Bài tốn Khai phá tập mục hữu ích cao theo ràng buộc độ dài tập mục): Cho minutil, minlength, maxlength tham số người dùng thiết lập Vấn đề khai phá tập mục hữu ích cao với ràng buộc độ dài tập mục cho trước tìm tất tập mục có độ hữu ích khơng nhỏ minutil số lượng mục tập mục không nhỏ minlength không lớn maxlength Trong báo này, giả sử bốn tham số thiết lập người sử dụng Các định nghĩa đưa báo sử dụng tham số minlength maxlength để ràng buộc độ dài tập mục Định nghĩa (Tập hữu ích lớn giao tác): Cho giao tác Tc={i1,i2, , ik} Tập hữu ích lớn giao tác Tc tập có maxlength mục chọn từ tập {u(i1,Tc), u(i2,Tc), …, u(ik,Tc)} cho tổng giá trị hữu ích chúng lớn nhất, ký hiệu L(Tc) Định nghĩa (Giá trị hữu ích lớn giao tác): Cho giao tác Tc={i1,i2, , ik} Giá trị hữu ích lớn giao tác Tc tổng giá trị hữu ích mục L(Tc), định nghĩa sau: RTU (Tc )  u (i, Tc )  u (i ,Tc )L (Tc ) Định nghĩa (Trọng số hữu ích lớn giao tác sở liệu): Trọng số hữu ích lớn tập mục X sở liệu D tổng giá trị hữu ích lớn giao tác chứa tập X theo ràng buộc độ dài tập mục, định nghĩa sau: RTWU ( X )  RTU (Tc )  Tc D  X Tc Tính chất 1: Trọng số hữu ích tập mục X ln ln lớn giá trị hữu ích theo ràng buộc độ dài tập mục, tức là: RTWU ( X )  u ( X ) [6] Tính chất (Tỉa khơng gian tìm kiếm dựa vào RTWU): Cho X tập mục, RTWU(X)

Ngày đăng: 25/11/2022, 21:20

Tài liệu cùng người dùng

Tài liệu liên quan