CHƢƠNG 2 : MỘT SỐ PHƢƠNG PHÁP KHAI PHÁ LUẬT KẾT HỢP
2.6. Các thước đo tương quan
Như trong chương I đã đề cập, trong một số trường hợp đặc biệt như khi khai phá dữ liệu với ngưỡng hỗ trợ thấp và khai phá các mẫu dài, một số luật kết hợp được coi là “mạnh” (dựa vào hai thước đo độ hỗ trợ - độ tin cậy) đã trở nên không còn đáng quan tâm đối với người dùng. Chúng ta sẽ đi phân tích mối tương quan giữa các tập mục để làm rõ điều này, đồng thời đề ra giải pháp để khắc phục.
2.6.1. Các luật mạnh không nhất thiết đã thú vị
Để có một đánh giá chủ quan hoặc khách quan về một luật như thế nào là đáng quan tâm. Nói cho cùng, chỉ có người dùng mới có thể đánh giá được một luật đưa ra là thú vị, và phán đoán của người dùng này, nói một cách chủ quan có thể khác đối với phán đoán của một người dùng khác “Làm thế nào chúng ta có thể nói rằng các luật kết hợp mạnh thì nhất định sẽ thú vị?”. Chúng ta sẽ kiểm tra điều này thông qua một ví dụ sau:
Giả thiết, chúng ta quan tâm đến việc phân tích các dữ liệu trong một CSDL giao dịch của một cửa hàng, đặc biệt là việc mua các chương trình game máy tính và video [2]. Theo phân tích dữ liệu của 10.000 giao dịch cho thấy: 6.000 giao dịch khách hàng mua game máy tính, trong khi 7500 giao dịch khách hàng mua băng video, và 4000 giao dịch khách mua cả game máy tính và video.
Giả thiết rằng, độ hỗ trợ tối thiểu là 30% và độ tin cậy tối thiểu 60%. Ta tìm ra được một luật kết hợp sau:
Buys( X, “computer games”) buys ( X, “videos”) [support=40%, confidence=66%] (2.2)
Theo tính toán thì Luật (2.2) được coi là một luật mạnh, bởi vì: Độ hỗ trợ của luật = 4000/10.000= 40%.
Độ tin cậy của luật = 4.000/6000= 66% .
Và chúng đều thỏa mãn ngưỡng hỗ trợ tối thiểu và ngưỡng tin cậy tối thiểu!
Tuy nhiên, Luật (2.2) lại sai lầm, bởi vì, theo như dữ liệu thống kê có 7500 giao dịch khách hàng chỉ mua video (chiếm 75%, thậm chí là lớn hơn cả 66%). Trên thực tế, hai mặt hàng game máy tính và video không có sự liên quan với nhau, bởi vì khách hàng khi mua một trong hai mặt hàng này, thực tế cũng có khả năng mua sản phẩm khác. Nếu không hiểu đầy đủ về vấn đề này, chúng ta có thể dễ dàng đưa ra những quyết định kinh doanh dại dột dựa trên Luật (2.2).
Ví dụ trên cũng minh họa cho thấy, luật AB có thể làm thất vọng người dùng khi sử dụng một ước lượng về độ tin cậy của tập mục B đối với tập mục A. Nó không thực sự ước lượng được mối tương quan và sự xoắn kết giữa A và B. Do đó, thay thế cấu trúc độ hỗ trợ - độ tin cậy có thể sẽ hiệu quả hơn trong khai phá CSDL quan hệ .