CHƯƠNG II KHAI PHÁ LUẬT KẾT HỢP MỜ
2.6. Thuật toán khai phá luật kết hợp mờ có thuộc tính số (F- APACS)
2.6.1. Giới thiệu thuật toán
Hiện nay các thuật toán liên quan đến việc khám phá luật kết hợp có thuộc tính số đều dựa vào khoảng giá trị của các thuộc tính để khai phá ra luật kết hợp có thuộc tính số. Những khoảng này có thể không đủ “súc tích” và “ý nghĩa” để dễ dàng đạt được tri thức “không tầm thường” từ các luật được khám phá. Thay vì sử dụng các khoảng, K.C.C. Chan and W-H. Au đề xuất thuật toán F- APACS sử dụng tập mờ để biểu diễn các luật. Thực ra, sử dụng công nghệ mờ đƣợc xem là
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc-tnu.edu.vn
một trong những thành phần then chốt của hệ thống khai phá dữ liệu [23]. Việc sử dụng các kỹ thuật mờ làm cho F-APACS tránh đƣợc tính không chính xác trong các phép đo vật lý của giá trị thực cuộc sống và giá trị bị mất trong cơ sở dữ liệu.
Trong các thuật toán [8,10,17] đều sử dụng hai ngƣỡng: độ hỗ trợ và độ tin cậy. Với 2 thuộc tính X và Y, độ hỗ trợ đƣợc định nghĩa là tỉ lệ phần trăm của các giao dịch (bản ghi) có cả hai thuộc tính X và Y. Còn độ tin cậy đƣợc định nghĩa là tỉ lệ phần trăm các giao dịch có chứa X Y so với tập giao dịch chứa X. Muốn tìm luật ta có độ tin cậy và độ hỗ trợ lớn hơn ngưỡng người sử dụng cung cấp, đây là một yếu điểm của các phương pháp này - đòi hỏi phải xác định ngưỡng. Khác với những thuật toán trên F-APACS không đòi hỏi cung cấp ngưỡng – thường khó xác định. F-APACS sử dụng sai phân điều chỉnh phân tích sự khác biệt để xác định sự kết hợp có ích giữa các thuộc tính. F-APACS có tính năng độc đáo là có thể phát hiện ra sự kết hợp và không kết hợp của các thuộc tính bằng trọng số đo độ chắc chắn của luật.
Các thực nghiệm cho thấy thuật toán này có khả năng phát hiện các luật kết hợp mờ có ý nghĩa và hữu ích một cách hiệu quả, tăng tốc quá trình khai phá và có đƣợc hầu hết các luật kết hợp với độ tin cậy cao. Đặc biệt đã đƣợc K.C.C. Chan and W-H. Au chứng minh trong cơ sở dữ liệu thực tế của một hệ thống viễn thông PBX cho thấy rằng F-APACS có thể khai phá luật kết hợp mờ có ý nghĩa.
Để tìm các luật kết hợp có thuộc tính số, trong [29] một thuật toán khai phá đã đƣợc đề xuất dựa trên khái niệm của tập mục lớn. Nó chuyển đổi mỗi thuộc tính số thành các giá trị mờ và sử dụng các phép toán mờ để tìm các luật mờ. Phần lớn các thuật toán phát hiện luật kết hợp làm việc theo hai giai đoạn:
Giai đoạn 1: Các tập ứng viên đƣợc tạo ra và đƣợc tính bằng cách duyệt các giao dịch. Nếu số lần xuất hiện của một tập mục trong các giao dịch lớn hơn một giá trị ngưỡng xác định trước (minsup), thì tập mục đó là tập mục lớn.
Các tập mục lớn với một mục sau đó đƣợc kết hợp để tạo thành một tập ứng viên của hai mục. Quá trình này lặp đi lặp lại cho đến khi tất cả các tập mục lớn
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc-tnu.edu.vn
đƣợc tìm thấy.
Giai đoạn 2: Tất cả các luật kết hợp cho mỗi tập mục lớn đƣợc hình thành, và các luật có độ tin cậy lớn hơn một ngưỡng xác định trước (minconf) là luật kết hợp cần tìm.
Các bước của thuật toán tìm luật kết hợp mờ từ dữ liệu số:
Dữ liệu số
1. Định nghĩa các tập mờ và các hàm thuộc
2. Tính trọng số đo độ chắc chắn cho mỗi cặp thuộc tính
3. Lựa chọn các tập mục phổ biến tiềm năng sử dụng trọng số đo độ chắc chắn.
4. Tạo luật kết hợp từ các thuộc tính và các tập mờ đã chọn.
5. Tính sai phân điều chỉnh cho mỗi một luật tạo ra 6. Lựa chọn các luật dựa vào sai phân điều chỉnh 7. Kết nối các luật vừa chọn để tạo ra các luật nhiều tiền đề hơn
8. Lặp lại quá trình trên cho đến khi tạo ra một luật mới
Các luật kết hợp mờ
Tiền xử lý
Tạo các tập mục phổ biến tiềm năng
Tạo luật
Hình 2.2. Các bước của thuật toán tìm luật kết hợp từ dữ liệu số
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc-tnu.edu.vn