Thuật toán COUI-Mine

Một phần của tài liệu khai phá tập mục lợi ích cao trong cơ sở dữ liệu lớn (Trang 51 - 53)

Trong chương 2, ta đã nêu khái niệm lợi ích theo giao tác của một tập mục, gọi là lợi ích TWU (Transaction Weighted Utility), (Định nghĩa 2.11). Lợi ích TWU của tập mục X, ký hiệu twu (X), là tổng lợi ích của tất cả các giao tác chứa X trong cơ sở dữ liệu, tức là     q q q T DB X T twu X tu T      . Nhận xét: Vì u X T , q  tu Tq nên    ,      q q q q q q T DB X T T DB X T u X u X T tu T twu X            .

Có thể coi twu (X) như là cận trên của u(X). Với ngưỡng lợi ích minutil, nếu X là tập mục lợi ích cao thì X cũng là tập mục lợi ích TWU cao vì twu (X) ≥

u(X) ≥ minutil, ngược lại, nếu X là tập mục lợi ích TWU thấp thì X cũng là tập mục lợi ích thấp.

Trong chương 2, cũng đã chứng minh (Định lý 2.3 và 2.4 ):

- Ràng buộc lợi ích TWU có tính chất phản đơn điệu, tức là: Mọi tập mục cha của tập mục lợi ích TWU thấp cũng là tập mục lợi ích TWU thấp. Do vậy, nếu

X là tập mục lợi ích TWU thấp, twu (X) < minutil, thì tập X và mọi tập cha của X

đều là tập mục lợi ích thấp, có thể loại bỏ chúng trong quá trình khai phá tập mục lợi ích cao.

- Tập các tập mục lợi ích cao chứa trong tập các tập mục lợi ích TWU cao. Điều này có nghĩa là, nếu ta tìm được tập các tập mục lợi ích TWU cao thì ta chỉ cần tìm các tập mục lợi ích cao trong tập đó.

Do tập mục lợi ích TWU cao có tính chất phản đơn điệu nên có thể sử dụng các phương pháp khai phá của tập mục thường xuyên để tìm các tập mục lợi ích TWU cao. Trong các phương pháp khai phá tập mục thường xuyên thì phương pháp nén các giao tác lên cấu trúc cây rồi khai phá cây đó là phương pháp có nhiều ưu điểm và hiệu quả. Tiêu biểu cho hướng tiếp cận này là thuật toán FP-growth sử dụng cấu trúc cây FP (frequent Pattern Tree ), và một cải tiến của nó là thuật toán COFI-tree.

Dựa trên ý tưởng của thuật toán COFI-tree trong khai phá tập mục thường xuyên, tác giả tài liệu [2] đã đề xuất các thuật toán hiệu quả khai phá tập mục lợi ích cao sử dụng biểu diễn dữ liệu bằng cấu trúc cây, thuật toán COUI-Mine (Co- Occurrence Utility Items Mine).

Thuật toán COUI-Mine gồm 2 bước:

- Bước thứ nhất tìm các tập mục lợi ích TWU cao (tập này có thể coi là tập các tập mục ứng viên).

- Bước thứ hai, duyệt lại cơ sở dữ liệu để tính lợi ích thực sự của mỗi tập mục ứng viên, từ đó xác định được tập các tập mục lợi ích cao.

Để tìm tập các tập mục lợi ích TWU cao, trong [2] đề xuất một cấu trúc cây mới gọi là cây TWUI-tree (Transaction Weighted Utility Itemsets Tree) dựa trên ý tưởng cấu trúc cây FP-tree trong [10]. Cây TWUI-tree chứa đủ thông tin để khai phá tập mục lợi ích TWU cao. Khai phá cây TWUI-tree dùng một cấu trúc dữ liệu phụ trợ gọi là cây COUI-tree (Co-Occurrence Utility Items tree).

Một phần của tài liệu khai phá tập mục lợi ích cao trong cơ sở dữ liệu lớn (Trang 51 - 53)

Tải bản đầy đủ (PDF)

(74 trang)