Phân tích bài toán

Một phần của tài liệu khai phá dữ liệu trên cơ sở phương pháp luật kết hợp và ứng dụng (Trang 73 - 74)

Khai phá luật kết hợp từ bảng quan hệ

Để sử dụng các thuật toán trên một cách thuận lợi vào ứng dụng “khai phá dữ liệu hàng hóa” đòi hỏi chúng ta phải chuyển đổi CSDL bài toán thành CSDL giao dịch. Để làm được điều này, cần phải rời rạc hóa mỗi thuộc tính thành các khoảng (interval). Sau khi rời rạc hóa , mỗi record (data case) trong dữ liệu gốc biến đổi thành một tập các cặp <thuộc tính, giá trị> và một nhãn lớp. Mỗi cặp <thuộc tính, giá trị> trở thành một item trong CSDL giao dịch. Với biến đổi này, mỗi record trở thành một giao dịch.

Trong việc khai phá luật kết hợp truyền thống, một item bất kỳ đều có thể xuất hiện ở một vế nào đó của luật. Luật có dạng: X  Ci , với Ci là một lớp của thuộc tính lớp, X là một tập các item. Vì luật được quan tâm có dạng X  Ci , nên chúng ta chỉ cần tìm các frequent itemset dạng: <item1 , item2 , …, itemk , C>.

64

Số hóa bởi Trung tâm Học liệu - Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

Vấn đề min_sup và min_conf

Các luật kết hợp truyền thống sử dụng chỉ một min_sup và min_conf trong quá trình khai phá. Nhưng khi chỉ sử dụng một min_sup có thể gặp các vấn đề:

- Nếu min_sup quá cao, chúng ta có thể không tìm được các luật với lớp tiểu số, mà thường là lớp potsitve

- Nếu min_sup quá thấp có thể xảy ra sự bùng nổ tổ hợp vì lớp tiểu số có thể có rất nhiều luật. Những luật này có giá trị dự đoán không cao, hơn nữa còn làm tăng thời gian xử lý.

Sử dụng một min_conf cũng gặp một số khó khăn tương tự như min_sup. Để giải quyết được vấn đề này, chúng ta sẽ sử dụng min_sup và min_conf đồng thời với các giá trị khác nhau cho các lớp khác nhau.

Một phần của tài liệu khai phá dữ liệu trên cơ sở phương pháp luật kết hợp và ứng dụng (Trang 73 - 74)