7. Bố cục luận văn
2.2. TỔNG QUAN VỀ TÌNH HÌNH NGHIÊN CỨU KHAI PHÁ TẬP MỤC
TỪ CƠ SỞ DỮ LIỆU GIAO TÁC
2.1. ĐẶT VẤN ĐỀ
Mục tiêu của bài toán khai phá luật kết hợp là phát hiện các tập mục phổ biến từ đó sinh ra các luật kết hợp. Trong lĩnh vực kinh doanh, khai phá tập mục phổ biến từ CSDL giao tác chính là tìm ra những tập mục, thường xuất hiện trong các giao tác. Tuy nhiên, lợi nhuận theo đơn vị sản phẩm và số lượng mua của các mục chưa đề cập trong khai phá tập mục phổ biến nên áp dụng vào trong thực tế chưa cao. Ví dụ: Bán một viên kim cương thì lợi nhuận cao hơn nhiều so với bán một chai nước. Vì vậy, để đáp ứng yêu cầu của thực tiễn, nhiều nhà nghiên cứu đã đưa ra hướng mở rộng cho bài toán đó là khai phá tập mục hữu ích cao, nhằm khám phá ra những tập mục có giá trị hữu ích hay lợi nhuận cao. Khai phá tập mục hữu ích cao là hướng nghiên cứu quan trọng của KPDL trong những năm gần đây và được ứng dụng rộng rãi như phân tích giỏ hàng, thương mại di động, tiếp thị chéo….
2.2. TỔNG QUAN VỀ TÌNH HÌNH NGHIÊN CỨU KHAI PHÁ TẬP MỤC HỮU ÍCH CAO HỮU ÍCH CAO
Khai phá tập mục hữu ích cao là phần mở rộng của bài toán khai phá tập mục phổ biến. Khai phá tập mục hữu ích cao là tìm tất các tập mục có giá trị hữu ích lớn hơn ngưỡng hữu ích tối thiểu cho trước (do người dùng qui định). Mục đích của khai phá tập mục hữu ích cao là làm giảm thiểu kích thước của tập ứng viên và đơn giản hóa quá trình tính toán độ hữu ích các tập mục, từ đó giảm số lượng ứng viên cho tập mục hữu ích cao, giảm thời gian khai phá.
Sau đây là tình hình nghiên cứu về khai phá tập mục hữu ích cao:
Agarwal và cộng sự [4] đã nghiên cứu khai phá luật kết hợp cho việc tìm kiếm các mối quan hệ giữa các mục dữ liệu trong CSDL lớn thông qua thuật toán Apriori. Thuật toán này hoạt động theo nguyên tắc loại bỏ các tập mục không phải tập phổ
biến và các tập con của nó. Apriori sinh ra rất nhiều tập phổ biến nên phải duyệt CSDL nhiều lần.
Năm 2004, H. Yao và cộng sự [5] đã đưa ra định nghĩa khai phá hữu ích và đề cập đến giá trị hữu ích giao tác và giá trị hữu ích ngoại của tập phổ biến trong CSDL giao tác. Mô hình khai phá hữu ích được xác định qua 2 thuộc tính cơ bản là ràng buộc hữu ích và ràng buộc độ hỗ trợ.
Năm 2006 H. Yao và cộng sự [6] đã đưa ra chiến lược cắt tỉa nhằm giảm chi phí tìm kiếm các tập mục hữu ích cao. Trong mô hình khai phá tập mục hữu ích cao, giá trị của mục dữ liệu trong giao tác là một số như số lượng đã bán của mặt hàng gọi là giá trị hữu ích nội, ngoài ra còn có bảng lợi ích cho biết lợi ích mang lại khi bán một đơn vị hàng đó gọi là giá trị hữu ích ngoại. H. Yao và cộng sự [6] đưa ra hai thuật toán Umining và Umining H để thực hiện chiến lược tỉa dựa trên các tính chất của ràng buộc hữu ích, tuy nhiên hai thuật toán này không mang lại hiệu quả cao.
Y. Liu và các cộng sự [8] đã đề xuất thuật toán 2 pha (Two-Phase) trong khai phá tập mục hữu ích cao, thuật toán này đề cập đến lợi ích của giao tác và lợi ích của tập mục theo các giao tác chứa nó gọi là độ hữu ích trọng số của giao tác TWU (Transaction Weighted Utilization). Thuật toán hai pha chỉ tập trung vào khai phá dữ liệu truyền thống và không thích hợp trong khai phá dòng dữ liệu. Thuật toán này tốn nhiều thời gian và chi phí cho việc tìm kiếm các tập mục hữu ích cao.
Shankar và các cộng sự [13] đưa ra một thuật toán mới FUM (Fast Utility Mining), thuật toán này tìm tất cả các tập mục hữu ích cao dựa vào ngưỡng hữu ích cho trước. Để tìm ra các tập mục khác, Shankar và các cộng sự đề xuất kỹ thuật như: Giá trị hữu ích thấp và tần số cao LUHF (Low Utility and High Frequency), giá trị hữu ích thấp và tần số thấp LULF (Low Utility and Low Frequency), giá trị hữu ích cao và tần số cao HUHF (High Utility and High Frequency), giá trị hữu ích cao và tần số thấp HULF (High Utility and Low Frequency).
Các thuật toán khai phá tập mục hữu ích cao khác nhau về: Kiểu dữ liệu được sử dụng, các loại ràng buộc và các chiến lược để tỉa không gian tìm kiếm. Các thuật toán được đề xuất sau này nhằm giảm không gian tìm kiếm, số lượng
các tập ứng viên, giảm thời gian và dung lượng bộ nhớ trong quá trình khai phá tập mục hữu ích cao. Thuật toán sau có hiệu năng hơn thuật toán trước.