Các luật mạnh là không nhất thiết thích hợp

Một phần của tài liệu TIỂU LUẬN MÔN HỌC KHAI PHÁ DỮ LIỆU KHAI PHÁ LUẬT KẾT HỢP VỚI CƠ SỞ DỮ LIỆU LỚN (Trang 35 - 36)

II. NỘI DUNG

2.5.1Các luật mạnh là không nhất thiết thích hợp

Trong khai phá , tất cả các luật kết hợp mạnh được phát hiện (tức là, những quy tắc thỏa mãn ngưỡng độ hỗ trợ tối thiểu và ngưỡng độ tin cậy tối thiểu) đã thích hợp với người sử dụng chưa? Cho dù một luật là thích hợp hoặc không đó chỉ là sự đánh giá khách quan hoặc chủ quan .Cuối cùng, chỉ có người sử dụng có thể đánh giá nếu một quy luật đưa ra là thích hợp hay không, và sự xem xét đó trở thành chủ quan từ người sử dụng này sang người sử dụng khác. Tuy nhiên, một thích ứng khách quan dựa trên các số liệu thống kê “đằng sau "các dữ liệu, có thể được sử dụng như là một bước hướng tới mục tiêu việc loại bỏ các quy tắc không thích hợp từ giới thiệu cho người dùng.

Vì vậy, làm thế nào chúng ta có thể biết các luật mạnh thực sự thích hợp chúng ta hãy xem xét ví dụ sau đây?.

Ví dụ giả sử chúng ta quan tâm trong việc phân tích các giao dịch tại llElectronics đối với mua các trò chơi máy tính và video. Hãy tham khảo các trò chơi giao dịch có chứa các trò chơi máy tính, và video tham khảo những người có chứa video. Trong số 10; 000 giao dịch phân tích, các số liệu cho thấy 6; 000 của các giao dịch của khách hàng bao gồm trò chơi máy tính , trong khi 7; 500 có video, và 4, 000 có trò chơi máy tính cả và video. Giả sử là một chương trình khai thác dữ liệu cho luật kết hợp được chạy trên các dữ liệu, sử dụng một hỗ trợ tối thiểu, nói, 30% và một ngưỡng độ tin cậy tối thiểu 60%. Các luật kết hợp sau đây được phát hiện.

buys(X; ”computer games") buys(X;”videos"); [support = 40%; confidence = 66%]

Luật đó là một luật kết hợp mạnh và do đó sẽ được trình bày, vì giá trị độ hỗ trợ là 4; 000 /10; 000 = 40% và độ tin cậy là 4; 000 6/000 = 66% đáp ứng sự hỗ trợ tối thiểu và ngưỡng độ tin cậy tương ứng.

Tuy nhiên, luật đó là sai vì xác suất của các mua video là 75%, trong đó thậm chí còn lớn hơn 66%.

Trong thực tế, trò chơi máy tính và video được liên quan tiêu cực bởi vì việc mua một trong những mục này thực sự làm giảm khả năng mua các khác. Ví dụ trên cũng cho thấy độ tin cậy của luật A ⇒B có thể bị đánh lừa ở chỗ nó chỉ là một ước tính xác suất có điều kiện của itemset B cho itemset A. Nó không đo được sức mạnh thực sự của các hàm ý giữa A và B. Do đó, có sự lựa chọn khác cho độ hỗ trợ và dộ tin cậy có thể được khai phá thú vị trong cơ sở dữ liệu quan hệ.

Một phần của tài liệu TIỂU LUẬN MÔN HỌC KHAI PHÁ DỮ LIỆU KHAI PHÁ LUẬT KẾT HỢP VỚI CƠ SỞ DỮ LIỆU LỚN (Trang 35 - 36)