7. Bố cục luận văn
1.2.4. Khai phá luật kết hợp
Khai phá luật kết hợp là một kỹ thuật khai phá dữ liệu được sử dụng rất phổ biến. Năm 1994, R. Agrawal và cộng sự đề xuất ra một kỹ thuật khai phá luật kết hợp [4].
Khai phá luật kết hợp là tìm các tập mục phổ biến, sự kết hợp, sự tương quan giữa các tập mục trong các CSDL giao tác.
Như vậy, quy trình khai phá luật kết hợp được thực hiện theo 2 bước sau: - Bước 1: Tìm tất cả các tập mục phổ biến theo ngưỡng minsupp
- Bước 2: Xây dựng luật từ các tập mục phổ biến với độ tin cậy minconf. + Đối với mỗi tập mục phổ biến X, tạo ra tất cả các tập con khác rỗng của X. + Đối với mỗi tập con khác rỗng A của X: Luật A → X\A là luật kết hợp cần tìm nếu: conf(A → X\A) = sup (X)
sup (A) ≥ minconf
Ví dụ: Danh sách tập mục phổ biến trong bảng 1.4 với độ hỗ trợ tối thiểu minsup = 50% và độ tin cậy tối thiểu minconf = 80%.
Ta có luật: - Luật A → B:
+ sup(A → B) = sup(A ∪ B) = 50%
+ conf(A → B) = sup (A sup (A) B) = 50%50% = 100% (chọn) - Luật B → A:
+ sup(B → A) = sup(B ∪ A) = 50% + conf(B → A) = sup (B A)
sup (B) = 50%
75% = 66,6% (loại)
Khoa học, hoạt động kinh doanh, tài chính, y tế,... Từ các luật kết hợp được trích rút từ các CSDL giao tác, để từ đó thúc đẩy hoạt động kinh doanh của mình.
Trong khai phá các luật kết hợp, người ta chỉ quan tâm đến các luật có độ hỗ trợ lớn hơn hoặc bằng một độ hỗ trợ tối thiểu (minsup) và độ tin cậy lớn hơn hoặc bằng độ tin cậy tối thiểu cho trước (minconf) gọi là các luật kết hợp phổ biến.
Ngoài ra, trong khai phá các luật kết hợp có phương pháp nghiên cứu mở rộng đó là ẩn các luật kết hợp. Khi cung cấp dữ liệu cho các trung tâm khai thác tri thức, một số cơ sở không muốn công bố các luật vi phạm đến tính riêng tư (các dữ liệu nhạy cảm). Ví dụ, trong ngân hàng có một số luật được tìm thấy nhưng lại rất nhạy cảm, ngân hàng không muốn tiết lộ ra vì nếu tiết lộ ra sẽ làm ảnh hưởng đến khách hàng hoặc ảnh hưởng đến ngân hàng. Vì vậy trong bài toán khai phá luật kết hợp có đảm bảo tính riêng tư chúng ta cần tính đến việc ẩn đi các luật nhạy cảm, việc loại bỏ này được thực hiện bằng cách sửa bảng giao tác sao cho độ hỗ trợ của luật hoặc độ tin cậy của luật giảm xuống dưới ngưỡng nào đó. Hướng nghiên cứu này là rất cần thiết khi muốn bảo vệ bí mật riêng tư trong khai phá dữ liệu.