Khám phá luật bởi bảng phân bố tổng quát dựa trên- 123docz.net

toán tối ƣu hoá các luật

Tư tưởng của thuật toán:

A.Skowron và Ning Zong đã đưa ra phương pháp khám phá luật sử dụng bảng phân bố tổng quát dựa trên tập thô, với ý tưởng sau:

- Từ bảng quyết định xây dựng bảng phân bố tổng quát.

- Dựa trên bảng phân bố tổng quát này sinh các vector phân biệt được. - Tạo ra các tập rút gọn từ các vector phân biệt được.

- Sinh ra các luật bao phủ tất cả các trường hợp.

Đặc điểm chính của bảng phân bố tổng quát dựa trên tập thô là:

- Bảng phân bố tổng quát mô tả quan hệ xác suất giữa các trường hợp có thể và các bộ sinh có thể.

- Những trường hợp không thấy trong quá trình khai phá dữ liệu, sự không chắc chắn của luật bao gồm cả khả năng dự đoán trước các trường hợp của nó được thể hiện rõ ràng trong độ mạnh của luật.

- Hướng tìm kiếm có thể được lựa chọn một cách mềm dẻo, có thể sử dụng tri thức nền làm cơ sở cho việc tạo bảng phân bố tổng quát và quá trình khai phá.

Như vậy, Thuật toán tối ƣu hoá các luật như sau: Tư tưởng của thuật toán:

Giả sử có bảng quyết định T (U,C, d ) gồm n đối tượng và m thuộc tính, tỷ lệ nhiễu r. Câu hỏi đặt ra là tìm tập tối ưu các luật có cùng độ mạnh?

Bước 1: Các đối tượng với các giá trị thuộc tính điều kiện giống nhau được coi như một đối tượng gọi là đối tượng ghép.

Bước 2: Tính toán tỷ lệ nhiễu r cho mỗi đối tượng ghép.

Bước 3: Chọn một đối tượng u từ U và tạo một vector phân biệt được cho u. Bước 4: Tìm tất cả các tập rút gọn cho đối tượng u sử dụng hàm phân biệt. Bước 5: Tạo các luật từ tập rút gọn cho u, và xem lại độ mạnh của mỗi luật. Bước 6: Chọn luật tốt nhất từ các luật từ Bước 5, sử dụng phương pháp đánh giá kinh nghiệm khi lựa chọn luật.

Bước 7: U U u ;

Nếu U, thì quay lại bước 3, trường hợp khác thì tiếp đến bước 8.

Bước 8: Kết thúc nếu số các luật được chọn trong bước 6 cho mỗi trường hợp là 1, trường hợp còn lại tìm một tập tối thiểu các luật mà chứa tất cả các trường hợp trong bảng quyết định.

Độ phức tạp thời gian của thuật toán: Omn3mn2N GT  với N GT là số lần sinh và nhỏ hơn  1

2m

O .

Thuật toán này là có thể không phù hợp cho cơ sở dữ liệu mà số các thuộc tính là lớn.

Để giải quyết vấn đề này, một số các phương pháp đã được đưa ra:

- Tìm kiếm tập rút gọn (tập con) của các thuộc tính điều kiện trong quá trình tiền xử lý.

- Tìm giải pháp gần tối ưu sử dụng phương pháp tìm kiếm kinh nghiệm hiệu quả.

Khám phá luật bởi bảng phân bố tổng quát dựa trên tập thô và thuật toán

Thuật toán lập nhóm theo cây phân cấp