Bài toán ẩn tập mục nhạy cảm được phát biểu như sau, Cho bảng T gồm N
giao tác trên M mục. Cho ngưỡng phổ biến và danh sách P các tập mục phổ biến
theo ngưỡng. Xét tập mục nhạy cảm H P.
Yêu cầu bài toán là tìm cách ẩn tập mục nhạy cảm H theo nghĩahãy chỉ ra các vị trí cần sửa dữ liệu trên bảng T sao cho(H) < (lúc này do độ phổ biến của H là
52
(H) bé hơn ngưỡng nên H sẽ không xuất hiện trong bất kỳ luật kết hợp nào cả) và việc gây ra hiệu ứng phụ cho các tập mục phổ biến khác bị ảnh hưởng ít nhất.
Để ẩn tập mục nhạy cảmH, cần phải tìm cách giảm độ phổ biến của H xuống dưới ngưỡng , chẳng hạn ta sẽ sửa bảng T để (H) = 1. Để sửa một trị trong bảng T, ta cần chỉ ra giao táct (dòng) và mục C (cột) và sửa giá trị tại đó từ 1 thành
0. Điều đó có nghĩa là giảm độ phổ biến (số lần xuất hiện) của mục C đi 1 đơn vị. Thao tác này kéo theo hệ quả là giảm độ phổ biến của tập mục H đi 1 đơn vị. Tổng quát, nếu A X, ta ký hiệu Update(A, X, T, d) là thao tác sửa d lần (từ 1 thành 0) tại
mục (cột) A trên các giao tác (dòng) chứa tập mục X của bảng T.
Việc chọn mục cần sửa là điều quan trọng. Xem cơ sở dữ liệu giao tác trong bảng 1.1 ở thí dụ 1.1, giả sử với ngưỡng phổ biến = 4 và tập mục cần ẩn là ADE. Ta thấy (ADE) = 4 nên ADE sẽ bị ẩn nếu ta giảm độ phổ biến của ADE xuống dưới ngưỡng , cụ thể là ta sẽ sửa bảng T để (ADE) = 1 = 3. Ta chọn giao tác
7 và sửa vị trí A trên dòng này từ 1 thành 0, ta có ngay (ADE) = 3. Tuy nhiên, khi đó (AD) = 3, tức là AD đang là tập mục phổ biến trở thành tập mục không phổ biến. hay nói cách khác thì AD đã bị ẩn nhầm.
Phần tiếp theo sẽ trình bày cơ sở lý thuyết và thuật toán nhằm chỉ ra rằng nếu sửa mục E trên giao tác 7 thì ADE sẽ bị ẩn và các tập mục phổ biến còn lại sẽ được bảo lưu.
Bảng 2.2 sau trình bày các tập phổ biến của cơ sở dữ liệu giao tác với các tập phổ biến và số lần sửa các mục dữ liệu
Tập mục D Tập mục D A 10 5 AE 10 2 B 11 3 *BE 8 1 *C 8 1 *CE 7 0 *D 12 3 *DE 9 1 E 18 6 *ABE 4 0 *AB 4 1 *ADE 4 0
53
Tập mục D Tập mục D
*AD 4 1
Bảng 2.2.Bảng các tập mục với độ phổ biến và số lần sửa
Từ họ các tập phổ biến trong cơ sở dữ liệu giao tác, ta xây dựng được giàn giao mô tả qua hình 2.1 sau đây,
Đồ thị của giàn các tập mục phổ biến P = {A/10, B/11, C/8, D/12, E/18, AB/4, AD/4, AE/10, BE/8, CE/7, DE/9, ABE/4, ADE/4}. Các phần tử Gen có dấu *: Gen = {ABE, ADE, AB, BE, AD, DE, CE, C}.
Hình 2.1. Đồ thị của giàn các tập mục phổ biến