Một số thuật toán khai phá luật kết hợp mờ

Một phần của tài liệu Khai phá luật kết hợp mờ và ứng dụng trong cơ sở dữ liệu cước điện thoại (Trang 51)

Bài toán khai phá luật kết hợp có thuộc tính số đã được giới thiệu trong [27] và một số thuật toán cho các thuộc tính số cũng đã được đề xuất, trong đó có thuật toán tìm các luật kết hợp bằng cách phân chia thuộc tính, kết hợp phân vùng lân cận và sau đó chuyển bài toán về một trạng thái nhị phân.

Tuy nhiên, khai phá luật kết hợp có thuộc tính số bởi một thuật toán khai phá luật kết hợp nhị phân là không khả thi trong nhiều trường hợp vì những lý do sau đây. Trước tiên, khai phá luật kết hợp có thuộc tính cũng giống như khai phá luật kết hợp nhị phân về vấn đề kết hợp các tập thuộc tính, nghĩa là, với một tập N thuộc tính phân biệt , số lượng các tập con không rỗng của nó là (2N-1). Tuy nhiên, cần thiết phải kết hợp các khoảng liên tục của một thuộc tính số để thu được hỗ trợ đầy đủ và các khoảng có ý nghĩa. Điều này dẫn đến một vấn đề khác: nếu miền của một thuộc tính số được chia thành n khoảng, sau khi kết hợp các khoảng liên tiếp tổng số khoảng của thuộc tính lên tới O(n2). Khi kết nối các thuộc tính trong quá trình khai phá, số lượng các tập mục (ví dụ, một tập các cặp <attribute, interval>) có thể vô cùng lớn nếu số lượng khoảng kết hợp với một thuộc tính là lớn [30].

Lý do thứ hai là bởi các ranh giới giữa các khoảng. Để bao quát vấn đề này, khai phá luật kết hợp mờ cho các giá trị số đã được xem xét bởi một số nghiên cứu [9] [24] [26], hầu hết trong số đó là dựa trên thuật toán APriori. Chan và Au giới thiệu thuật toán F-APACS cho khai phá luật kết hợp mờ [10]. Thay vì sử dụng các khoảng, F-APACS sử dụng các tập mờ để biểu diễn các luật.

Thuật toán của Kuok [9] cho rằng người dùng hoặc chuyên gia cung cấp các tập mờ của các thuộc tính số và hàm thuộc tương ứng của chúng. Kuok lập luận rằng các chuyên gia có thể không cung cấp đúng các tập mờ và hàm thuộc tương ứng của chúng . Do đó, ông đề xuất một phương pháp tìm các tập mờ dựa trên kỹ thuật phân cụm. Các nhà nghiên cứu này đều phải xử lý tất cả các thuộc

tính như nhau. Tuy nhiên, trong các ứng dụng thực tế, người dùng có lẽ quan tâm nhiều hơn đến các luật có chứa các thuộc tính quan trọng hơn.

Gyenesei [18] giới thiệu bài toán về khai phá luật kết hợp có thuộc tính số được đánh trọng số dựa trên phương pháp tiếp cận mờ. Ông gán các trọng số cho các tập mờ để phản ánh tầm quan trọng của chúng với người sử dụng và đề xuất hai định nghĩa khác nhau của độ hỗ trợ có trọng số.

Ishibuchi và các đồng nghiệp mở rộng thuật toán dựa trên phương pháp chọn lọc di truyền trong Ref. Việc mở rộng này làm tăng số lượng các luật ứng viên. Do đó, họ đề xuất một quá trình tiền xử lý dựa trên hai tiêu chuẩn đánh giá luật, để làm giảm số lượng các luật ứng viên. Kaya và các đồng nghiệp [20] đề xuất một phương pháp phân cụm tự động dựa trên thuật toán di truyền đa mục tiêu. Phương pháp này tự động phân cụm các giá trị của một thuộc tính số nhất định để có được số lượng lớn các tập mục lớn trong thời gian thấp. Họ so sánh cách tiếp cận của họ với cách tiếp cận dựa trên CURE [16]. Ngoài các đặc trưng tự trị của các tập mờ, kết quả thử nghiệm cho thấy hiệu suất thực hiện tốt hơn phương pháp dựa vào CURE về thời gian cũng như số lượng của các tập mục lớn và các luật kết hợp có ích.

Trong [35] chỉ ra mối quan hệ thông tin giữa các thuộc tính, một đồ thị thông tin tương hỗ (mutual information - MI) được xây dựng. Các cliques trong đồ thị MI đại diện cho đa số các tập mục phổ biến. Bằng cách sử dụng các cliques trong đồ thị MI, tập mục phổ biến được tính. Các tập mục phổ biến và cấu trúc cây tiền tố đã được sử dụng để tạo ra các luật kết hợp có thuộc tính số. Nhưng việc tìm kiếm tất cả các tập mục phổ biến trong CSDL lớn với thuật toán này đòi hỏi phải duyệt CSDL nhiều lần, sử dụng cấu trúc dữ liệu phức tạp mà không gian, độ phức tạp và thời gian của thuật toán là lớn.

Một phần của tài liệu Khai phá luật kết hợp mờ và ứng dụng trong cơ sở dữ liệu cước điện thoại (Trang 51)